Hijerarhijsko vs djelomično grupiranje
Klasteriranje je tehnika strojnog učenja za analizu podataka i dijeljenje na grupe sličnih podataka. Te skupine ili skupovi sličnih podataka poznati su kao klasteri. Analiza klastera analizira algoritme klastera koji mogu prepoznati klastere automatski. Hijerarhijska i djelomična su dvije takve klase algoritama grupiranja. Hijerarhijski algoritmi klasteriranja raščlanjuju podatke u hijerarhiju klastera. Djelomični algoritmi dijele skup podataka na međusobno odvojene particije.
Što je hijerarhijsko klasteriranje?
Hijerarhijski algoritmi klasteriranja ponavljaju ciklus bilo spajanja manjih klastera u veće ili dijeljenja većih klastera na manje. Bilo kako bilo, to stvara hijerarhiju klastera koja se naziva dendogram. Strategija aglomerativnog klasteriranja koristi pristup odozdo prema gore spajanjem klastera u veće, dok strategija dijeljenja klastera koristi pristup cijepanju odozdo prema gore na manje. Tipično se pohlepni pristup koristi za odlučivanje koji se veći / manji klasteri koriste za spajanje / dijeljenje. Euklidska udaljenost, udaljenost Manhattana i kosinusna sličnost neki su od najčešće korištenih mjernih podataka sličnosti za numeričke podatke. Za ne numeričke podatke koriste se mjerni podaci kao što je Hamming udaljenost. Važno je napomenuti da stvarna opažanja (slučajevi) nisu potrebna za hijerarhijsko grupiranje, jer je dovoljna samo matrica udaljenosti. Dendogram je vizualni prikaz klastera, koji vrlo jasno prikazuje hijerarhiju. Korisnik može dobiti različito grupiranje ovisno o razini na kojoj je dendogram presječen.
Što je djelomično klasteriranje?
Algoritmi za djelomično grupiranje generiraju različite particije, a zatim ih ocjenjuju prema nekom kriteriju. Oni se također nazivaju i nehierarhijski jer se svaka instanca nalazi u točno jednom od k međusobno isključivih klastera. Budući da je samo jedan skup klastera izlaz tipičnog algoritma za particioniranje klastera, korisnik je dužan unijeti željeni broj klastera (koji se obično nazivaju k). Jedan od najčešće korištenih algoritama djelomičnog klasteriranja je algoritam klasteriranja k-sredstava. Korisnik je dužan osigurati broj klastera (k) prije pokretanja i algoritam prvo pokreće centre (ili centroide) k particija. Ukratko, k-znači algoritam klasteriranja zatim dodjeljuje članovima na temelju trenutnih centara i ponovno procjenjuje centre na temelju trenutnih članova. Ta se dva koraka ponavljaju dok se ne optimiziraju određene ciljne funkcije sličnosti unutar klastera i ciljne funkcije neskladnosti među klasterima. Stoga je razumna inicijalizacija centara vrlo važan čimbenik u dobivanju kvalitetnih rezultata iz algoritama djelomičnog grupiranja.
Koja je razlika između hijerarhijskog i djelomičnog klasteriranja?
Hijerarhijsko i djelomično grupiranje imaju ključne razlike u vremenu rada, pretpostavkama, ulaznim parametrima i rezultirajućim klasterima. Djelomično klasteriranje je obično brže od hijerarhijskog grupiranja. Hijerarhijsko grupiranje zahtijeva samo mjeru sličnosti, dok djelomično grupiranje zahtijeva jače pretpostavke poput broja klastera i početnih centara. Hijerarhijsko klasteriranje ne zahtijeva nikakve ulazne parametre, dok algoritmi za djelomično klasteriranje zahtijevaju broj klastera da se pokrenu. Hijerarhijsko grupiranje vraća mnogo smisleniju i subjektivniju podjelu klastera, ali djelomično grupiranje rezultira u točno k klasterima. Hijerarhijski algoritmi klasteriranja su prikladniji za kategoričke podatke sve dok se mjera sličnosti može definirati u skladu s tim.