Razlika između šuma i slučajne šume

Tijekom godina, više klasifikatorskih sustava, nazvanih ansambl sustavi, bili su popularna istraživačka tema i uživali su u sve većoj pažnji unutar zajednice za računalnu inteligenciju i strojno učenje. Privukla je zanimanje znanstvenika iz nekoliko područja, uključujući strojno učenje, statistiku, prepoznavanje uzoraka i otkrivanje znanja u bazama podataka. Vremenom su se metode ansambla pokazale vrlo učinkovitim i svestranim u širokom spektru problematičnih domena i aplikacija u stvarnom svijetu. Izvorno razvijena kako bi se smanjila razlika u automatiziranom sustavu donošenja odluka, ansambl metode su od tada korištene za rješavanje raznih problema strojnog učenja. Predstavljamo pregled dvaju najistaknutijih algoritama ansambla - Bagging i Random Forest - a zatim raspravljamo o razlikama između njih dva.

U mnogim slučajevima se pokazalo da vreća s vrećama, koja koristi uzorkovanje za podizanje sustava za podizanje sustava, ima višu točnost od jednog klasifikacijskog stabla. Torba je jedan od najstarijih i najjednostavnijih algoritama koji se temelji na ansamblu, a koji se mogu primijeniti na algoritme temeljene na drvetu kako bi se povećala točnost predviđanja. Postoji još jedna poboljšana inačica pakiranja pod nazivom Random Forest algoritam, koja je u osnovi skup stabala odlučivanja obučenih mehanizmom za pakiranje. Pogledajmo kako funkcionira algoritam slučajnih šuma i kako se on razlikuje od pakiranja u ansamblove modele.

Pakiranje

Skupljanje čizama, također poznato kao podmetanje, jedan je od najranijih i najjednostavnijih algoritama temeljenih na cjelini kako bi stabla odluka bila snažnija i postigla bolje performanse. Koncept koji stoji iza pakiranja vreća je kombinirati predviđanja nekoliko polaznika kako bi se dobio precizniji ishod. Leo Breiman predstavio je algoritam vreća 1994. godine. Pokazao je da združivanje pokretanja može donijeti željene rezultate u nestabilnim algoritmima učenja gdje male promjene podataka o treningu mogu uzrokovati velike varijacije u predviđanjima. Bootstrap je uzorak skupa podataka s zamjenom i svaki se uzorak generira uzorkovanjem ravnomjernog skupa treninga veličine m dok se ne dobije novi skup s m instancama.

Slučajna šuma

Slučajna šuma nadziran je algoritam strojnog učenja temeljen na cjelovitom učenju i evoluciji Breimanovog izvornog algoritma umetanja. To je veliko poboljšanje u odnosu na vreća s odlukama kako bi se izgradilo više stabala odluka i objedinilo ih kako bi se dobio točan rezultat. Breiman je dodao dodatnu slučajnu varijaciju u postupcima pakiranja, stvarajući veću raznolikost među rezultirajućim modelima. Slučajne šume razlikuju se od zaklonjenih stabala po tome što prisiljavaju drvo da koristi samo podskup svojih dostupnih predviđača da se podijele u fazi rasta. Sva stabla odluka koja čine slučajnu šumu su različita jer je svako stablo izgrađeno na različitom slučajnom podskupu podataka. Budući da minimizira prekomjerno uklapanje, teže je biti točniji od jednog stabla.

Razlika između šuma i slučajne šume

Osnove

- Šumi i slučajne šume temelje se na cjelovitim algoritmima koji imaju za cilj smanjiti složenost modela koji prevladavaju u podacima s treninga. Skupljanje čizama, također se naziva vreća, jedna je od najstarijih i najsnažnijih metoda ansambla za sprječavanje prekomjernog namještanja. To je meta tehnika koja koristi više klasifikatora za poboljšanje točnosti predviđanja. Bagiranje jednostavno znači izvlačenje slučajnih uzoraka iz uzorka treninga radi zamjene kako bi se dobio ansambl različitih modela. Slučajna šuma nadziran je algoritam strojnog učenja temeljen na cjelovitom učenju i evoluciji Breimanovog izvornog algoritma za dresiranje.

Koncept

- Koncept uzorkovanja (bogingstrap) uzorkovanja je obučiti gomilu nepruženih stabala odluka na različitim nasumičnim podskupovima podataka o treningu, uzorkovanja sa zamjenom, kako bi se smanjila varijanca stabala odluka. Ideja je kombinirati predviđanja nekoliko polaznika kako bi se dobio precizniji ishod. Uz slučajne šume, u postupak punjenja dodaje se dodatna slučajna varijacija kako bi se stvorila veća raznolikost među rezultirajućim modelima. Ideja iza nasumičnih šuma je izgraditi više stabala i odlučiti ih kako bi dobili točan rezultat.

Cilj

- Stabla s vrećama i slučajne šume najčešći su instrumentalni instrumenti za učenje koji se koriste za rješavanje raznih problema strojnog učenja. Uzorkovanje bootstrap-a je meta-algoritam dizajniran za poboljšanje točnosti i stabilnosti modela strojnog učenja pomoću učenja u cjelini i smanjenje složenosti modela s prekomjernim uklapanjem. Algoritam slučajnih šuma vrlo je čvrst protiv prekomjernog namještanja i dobar je s neuravnoteženim i nedostajućim podacima. Također je preferirani izbor algoritma za izgradnju prediktivnih modela. Cilj je smanjiti varijancu prosjekom više stabala dubokih odluka obučenih na različitim uzorcima podataka.

Torba protiv nasumične šume: usporedni grafikon

Sažetak

Stabla s vrećama i slučajne šume najčešći su instrumentalni instrumenti za učenje koji se koriste za rješavanje raznih problema strojnog učenja. Torba je jedan od najstarijih i najjednostavnijih algoritama koji se temelji na ansamblu, a koji se mogu primijeniti na algoritme temeljene na drvetu kako bi se povećala točnost predviđanja. Random Forests, s druge strane, je nadzirani algoritam strojnog učenja i poboljšana verzija uzorkovanja za pokretanje čizme, koja se koristi i za regresiju i za klasifikaciju. Ideja iza slučajne šume je izgraditi više stabala odluka i objediniti ih kako bi se dobio točan rezultat. Nasumična šuma obično je točnija od jednog stabla odluke jer minimizira prekomjerno unošenje.