Daxuyaniya di Data Mining

Dabeşkirina daneyên teknolojiya kinê ku ji bo kategoriya danûstendina daneyên danûstendinê dide ku ji bo pêşniyarên pêşniyar û analîzên bêtir alîkarî bide alîkarî ye. Her weha carinan carinan jî carî bi navê Biryara Biryara re tê gotin, dabeşkirinek yek ji çend rêbazan e ku ji bo analîzên pir datasîtên bandor ên bandor çêbikin.

Çima Dabeşkirin

Databasên mezin ên di îroja cîhanê de "daneyên mezin." Dîtinek danûstandin ku bi terabytes ên dane-a terabyte yek ji trîlyonek bites ya daneyên.

Facebook tenê tenê her rojê yek ji 600 terabytes nû nû dike (ji 2014'an, dema dawî ev ev şeş agahdarî). Pirsgirêka sereke ya daneyên mezin a ku çawa têgihîştina wê ye.

Û hema hema hema hema tenê tenê pirsgirêk e: ​​Danezanên mezin jî bi awayekî cuda, bêhêz û lez-guhertin dibe. Dîtin û vîdyoyan binirxînin, navnîşên medyayê yên civakî, daneyên 3D, an jî daneyên geospatial. Ev celeb daneyên hêsantir an rêxistin ne.

Ji bo vê hevdîtinê re hevdîtin, rêjeya otomatîkên ji bo agahdariya kêrhatî berfireh hate pêşxistin, di nav wan de nirxandin .

Çawa Dabeşkirina Çandî

Di xetereyê de pir dûr tête nav teknolojî, bila çiqas kategoriya karanîna kar dike. Armanca ev e ku armanceke pîvanên kategoriyê damezirandin ku pirsê, biryarek bikin, an jî pêşniyazkirina pêşniyazkirinê. Ji destpêkê ve, damezirandina daneyên perwerdeya amadekirin û ku hin xetek taybetmendî û hêjê encamên derfetê hene.

Karê ji algorithmê dabeşkirina kategoriyê ye ku ev çiqas xalên taybetmendiya wê encama xwe bigihîje.

Scenario : Belê dibe ku şîrketek karta krediyê dixebitin ku ka pêşniyarên ku divê pêşniyara karta krediyê bistînin.

Ev dibe ku amadebûna daneyên perwerdeyê:

Daneyên Perwerdehiyê
Nav Kalbûn Cinsî Hatina salane Pêşniyara krediyê
John Doe 25 M $ 39,500 Na
Jane Doe 56 F $ 125,000 Erê

Dîrokên "pêşeroj" re, Eden , Zayendî û Hatîna Salane diyar dike ku nirxa pêşniyara "pêşbigereya taybetmendiyê" ya Karta Krediyê . Di şoreşa perwerdeyê de, pêşniyarê pêşniyarê tê zanîn. Dema kategoriya algorîtmê de piştre bizanibe ka çiqasî nirxê pêşniyarê tête dayîn: ew pêwendiyên di navbera pêşniyar û biryarê de heye? Ew dê pergalên pêşniyarên pêşniyaz pêşve bibin, bi gelemperî IF / BIXWÎNE, wekî nimûne:

HI (Age> 18 YEZZA <75) Û Hatîna Hatîn> 40,000 Daxwaza Karta Kredê THEN = er

Bêguman, ev nimûneyeke hêsan e, û algorithm hewceyê daneyên daneyên mezintir yên ji bilî du qeydên li vir têne nîşandan. Wekî din, qaîdeyên pêşniyarkirinê dibe ku bêtir tevlihev e, tevî nav-rêbazan ji bo agahdariyên taybetmendiyê bigirin.

Piştre, algorithm ji "danezana pêşniyar" ya daneyên analîzkirinê tête dayîn, lê ev sete taybetmendiya pêşniyaz (an biryara) tune ye:

Daneyên Predictor
Nav Kalbûn Cinsî Hatina salane Pêşniyara krediyê
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Ev danezana pêşniyaz dide ku rastiya qanûnên pêşniyazên pêşniyar dike, û rêzikên wê paşê tewandin ku heta pêşveçûna pêşniyarê pêşniyarên pêşeroj û bandor dike.

Wek mînakên Dibistana Daxuyaniyê

Dabeşkirin, û daneyên din ên din ên teknolojiyên kantê, wekî gelek rojên me yên baca baca bazirganî hene.

Pirsgirêkên demjimêr dibe ku bikar bînin hilberîna dabeşkirinê bikin ku ka roja rojê dê baran, germ û hûrdanê be. Pîşesaziya lênerînê dikare şertên tendurustiyê bisekinin ku pêşniyarên bijîşkên bijîşkî. Cureyê rêbazek çandî, Naive Bayesian, bi îhtîmalek mercên şertî bi karanîna emails spas bike. Ji ber ku tedbîrên pêşniyarê pêşkêşkirina hilberên hilberê, dabeşkirina her roj rojane danûstandinên danûstandinan û pêşniyazên hilberînê ye.