Tehnike grupiranja i klasifikacije koriste se u strojnom učenju, pronalaženju informacija, istraživanju slike i sličnim zadacima.
Te su dvije strategije dvije glavne podjele procesa iskopavanja podataka. U svijetu analize podataka one su ključne u upravljanju algoritmima. Oba ova procesa dijele podatke na skupove. Ovaj je zadatak vrlo važan u današnjem informacijskom dobu jer je ogroman porast podataka zajedno s razvojem potrebno prikladno olakšati.
Značajno je da grupiranje i razvrstavanje pomažu u rješavanju globalnih pitanja poput kriminala, siromaštva i bolesti putem znanosti podataka.
U osnovi, klasteriranje uključuje grupiranje podataka s obzirom na njihove sličnosti. Prvenstveno se odnosi na mjere udaljenosti i algoritme grupiranja koji izračunavaju razliku između podataka i sistematično ih dijele.
Na primjer, učenici sa sličnim stilovima učenja grupiraju se zajedno i podučavaju ih odvojeno od onih s različitim pristupima učenju. U iskopi podataka klasteriranje se najčešće naziva "tehnikom učenja bez nadzora", jer se grupiranje temelji na prirodnoj ili prirođenoj karakteristici.
Primjenjuje se u nekoliko znanstvenih područja poput informacijske tehnologije, biologije, kriminologije i medicine.
Klasteriranje nema preciznu definiciju zbog čega postoje razni algoritmi klastera ili modeli klastera. Grubo govoreći, dvije vrste grupiranja su tvrde i mekane. Tvrdo klasteriranje se odnosi na označavanje objekta kao da jednostavno pripada klasteru ili ne. Suprotno tome, meko grupiranje ili nejasno grupiranje određuje stupanj pripadnosti određenoj grupi.
Validaciju ili procjenu rezultata iz klasteričke analize često je teško utvrditi zbog inherentne nepreciznosti.
Kako se radi o nenadziranoj strategiji učenja, analiza se temelji samo na trenutnim značajkama; stoga nije potrebna stroga regulacija.
Klasifikacija podrazumijeva dodjeljivanje oznaka postojećim situacijama ili klasama; otuda i pojam „klasifikacija“. Na primjer, učenici koji pokazuju određene karakteristike učenja klasificiraju se kao vizualni učenici.
Klasifikacija je poznata i kao „nadzirana tehnika učenja” u kojoj strojevi uče iz već označenih ili klasificiranih podataka. Vrlo je primjenjiv u prepoznavanju uzoraka, statistici i biometriji.
Da bi se analizirali podaci, klasifikator je definirani algoritam koji konkretno mapira podatke u određenu klasu. Na primjer, algoritam za klasifikaciju obučio bi model da identificira je li određena stanica zloćudna ili benigna.
Kvaliteta klasifikacijske analize često se ocjenjuje preciznošću i prisjećanjem koji su popularni metrički postupci. Klasifikator se procjenjuje u pogledu njegove točnosti i osjetljivosti u prepoznavanju izlaza.
Klasifikacija je nadzirana tehnika učenja jer dodjeljuje prethodno utvrđene identitete na temelju usporedivih značajki. Odvodi funkciju iz označenog seta za trening.
Glavna razlika je u tome što je klasteriranje bez nadzora i smatra se "samo-učenjem", dok je klasificiranje nadzirano jer ovisi o unaprijed definiranim oznakama.
Klasteriranje ne upotrebljava nagonski setove treninga, što su skupine slučajeva koje se koriste za stvaranje grupacija, dok je za klasificiranje nužno potrebna skupina za obuku da bi se identificirale slične značajke.
Klasteriranje radi s neobilježenim podacima jer mu nije potrebna obuka. S druge strane, klasifikacija se bavi i neobilježenim i označenim podacima u svojim postupcima.
Grupiranje skupina objekata s ciljem sužavanja odnosa kao i učenja novih informacija iz skrivenih obrazaca dok klasifikacija nastoji odrediti kojoj eksplicitnoj grupi pripada određeni objekt.
Iako klasifikacija ne određuje što treba naučiti, klasteriranje specificira potrebno poboljšanje jer ukazuje na razlike uzimajući u obzir sličnosti podataka.
Općenito, klasteriranje se sastoji samo od jedne faze (grupiranja) dok klasifikacija ima dvije faze, obuku (model se uči iz skupa podataka o treningu) i testiranje (predviđa se ciljna klasa).
Određivanje graničnih uvjeta vrlo je važno u postupku klasifikacije u odnosu na klasteriranje. Na primjer, poznavanje postotka raspona "nizak" u usporedbi s "umjerenim" i "visokim" potrebno je za uspostavljanje klasifikacije.
U usporedbi s klasteriranjem, klasifikacija je više uključena u predviđanja jer posebno ima za cilj ciljne klase identiteta. Na primjer, ovo se može primijeniti u "otkrivanju ključnih točaka na licu" jer se može koristiti za predviđanje da li neki svjedok laže ili ne.
Budući da se klasifikacija sastoji od više faza, bavi se predviđanjem i uključuje stupnjeve ili razine, njegova je priroda složenija u usporedbi s grupiranjem koje se uglavnom odnosi na grupiranje sličnih atributa.
Algoritmi klasteriranja su uglavnom linearni i nelinearni dok se klasifikacija sastoji od više algoritamskih alata kao što su linearni klasifikatori, neuronske mreže, procjena jezgre, stabla odluka i strojevi vektora podrške.
grupiranje | Klasifikacija |
Podaci bez nadzora | Nadzirani podaci |
Ne vrednuje skupove treninga | Odgovara li visoko vrijedan trening |
Radi isključivo s neobilježenim podacima | Sadrži i neobilježene i označene podatke |
Cilj je utvrditi sličnosti među podacima | Namjerava provjeriti gdje nekom datumu pripada |
Određuje potrebnu promjenu | Ne određuje potrebno poboljšanje |
Ima jednu fazu | Ima dvije faze |
Određivanje graničnih uvjeta nije najvažnije | Utvrđivanje graničnih uvjeta ključno je za izvršavanje faza |
Uglavnom se ne bavi predviđanjem | Bavi se predviđanjem |
Uglavnom koristi dva algoritma | Ima nekoliko vjerojatnih algoritama za upotrebu |
Proces je manje složen | Proces je složeniji |