KDD vs Iskopavanje podataka
KDD (Otkrivanje znanja u bazama podataka) polje je računalnih znanosti koje uključuje alate i teorije za pomoć ljudima u izvlačenju korisnih i dosad nepoznatih podataka (tj. Znanja) iz velikih zbirki digitaliziranih podataka. KDD se sastoji od nekoliko koraka, a Data Mining je jedan od njih. Data Mining je primjena određenog algoritma kako bi se izvukli uzorci iz podataka. Unatoč tome, KDD i Data Mining koriste se naizmjenično.
Što je KDD?
Kao što je već spomenuto, KDD je područje računarske znanosti koje se bavi izvlačenjem dosad nepoznatih i zanimljivih podataka iz sirovih podataka. KDD je čitav proces pokušaja razumijevanja podataka razvijanjem odgovarajućih metoda ili tehnika. Ovaj se postupak bavi mapiranjem podataka niske razine u druge oblike koji su kompaktniji, apstraktniji i korisniji. To se postiže stvaranjem kratkih izvještaja, modeliranjem procesa generiranja podataka i razvojem prediktivnih modela koji mogu predvidjeti buduće slučajeve. Zbog eksponencijalnog rasta podataka, posebno na područjima kao što je poslovanje, KDD je postao vrlo važan proces pretvaranja ovog velikog bogatstva podataka u poslovnu inteligenciju, jer je ručno vađenje uzoraka postalo naizgled nemoguće u posljednjih nekoliko desetljeća. Na primjer, trenutno se koristi za razne aplikacije kao što su analiza društvenih mreža, otkrivanje prijevara, znanost, investicije, proizvodnja, telekomunikacije, čišćenje podataka, sport, pronalaženje informacija i velikim dijelom za marketing. KDD se obično koristi za odgovore na pitanja kao što su glavni proizvodi koji bi mogli pomoći dobitku visokog profita u Wal-Martu sljedeće godine. Ovaj postupak ima nekoliko koraka. Počinje s razvijanjem razumijevanja domene i cilja aplikacije, a zatim izradom ciljnog skupa podataka. Nakon toga slijedi čišćenje, predobrada, smanjenje i projiciranje podataka. Sljedeći korak je korištenje Data Mining-a (objašnjeno u nastavku) za prepoznavanje uzorka. Konačno, otkriveno znanje se konsolidira vizualizacijom i / ili interpretacijom.
Što je istraživanje podataka?
Kao što je spomenuto gore, Data Mining je samo korak u cjelokupnom KDD procesu. Postoje dva glavna cilja Data Mining kako je definirano ciljem aplikacije, a oni su naime provjera ili otkrivanje. Provjerom se provjerava korisnikova hipoteza o podacima, a otkriće automatski pronalazi zanimljive obrasce. Postoje četiri glavna zadatka za iskopavanje podataka: grupiranje, klasifikacija, regresija i udruživanje (rezimiranje). Klasteriranje identificira slične skupine iz nestrukturiranih podataka. Klasifikacija je pravila učenja koja se mogu primijeniti na nove podatke. Regresija je pronalaženje funkcija s minimalnom pogreškom za modeliranje podataka. A povezanost traži odnose između varijabli. Zatim treba odabrati određeni algoritam za ispis podataka. Ovisno o cilju, mogu se odabrati različiti algoritmi poput linearne regresije, logističke regresije, stabla odluka i Naive Bayes. Zatim se pretražuju obrasci interesa za jedan ili više reprezentativnih oblika. Na kraju, modeli se ocjenjuju ili pomoću prediktivne točnosti ili razumljivosti.
Koja je razlika između KDD i Data mining?
Iako se dva pojma KDD i Data Mining često koriste naizmjenično, odnose se na dva povezana, ali pomalo različita koncepta. KDD je cjelokupni proces vađenja znanja iz podataka, dok je Data Mining korak unutar KDD procesa, koji se bavi prepoznavanjem obrazaca u podacima. Drugim riječima, Data Mining je samo primjena određenog algoritma koji se temelji na ukupnom cilju KDD procesa.