Kopiranje podataka i skladištenje podataka
Rudarstvo podataka i skladištenje podataka su vrlo moćne i popularne tehnike za analizu podataka. Korisnici koji su skloni statistikama koriste Data Mining. Oni koriste statističke modele za traženje skrivenih obrazaca u podacima. Rudari podataka zainteresirani su za pronalaženje korisnih odnosa između različitih elemenata podataka, što je naposljetku isplativo za poduzeća. Ali s druge strane, stručnjaci za podatke koji mogu analizirati dimenzije poslovanja izravno koriste skladišta podataka.
Iskopavanje podataka poznato je i kao Otkrivanje znanja u podacima (KDD). Kao što je već spomenuto, radi se o području računalnih znanosti koje se bavi izvlačenjem do tada nepoznatih i zanimljivih podataka iz sirovih podataka. Zbog eksponencijalnog rasta podataka, posebno na područjima kao što je poslovanje, vađenje podataka postalo je vrlo važan alat za pretvorbu ovog velikog bogatstva podataka u poslovnu inteligenciju, jer je ručno vađenje uzoraka postalo naizgled nemoguće u posljednjih nekoliko desetljeća. Na primjer, trenutno se koristi za razne aplikacije kao što su analiza društvenih mreža, otkrivanje prijevara i marketing. Iskopavanje podataka obično se bavi sljedeća četiri zadatka: grupiranje, klasifikacija, regresija i udruživanje. Klasteriranje identificira slične skupine iz nestrukturiranih podataka. Klasifikacija je pravila učenja koja se mogu primijeniti na nove podatke i obično uključuju sljedeće korake: unaprijed obrađivanje podataka, dizajniranje modeliranja, odabir učenja / obilježja i evaluacija / validacija. Regresija je pronalaženje funkcija s minimalnom pogreškom za modeliranje podataka. A povezanost traži odnose između varijabli. Iskopavanje podataka obično se koristi za odgovor na pitanja kao što su glavni proizvodi koji bi mogli pomoći ostvarenju velike dobiti sljedeće godine u Wal-Martu?
Kao što je već spomenuto, Skladištenje podataka također se koristi za analizu podataka, ali različitih skupina korisnika i malo drugačiji cilj na umu. Na primjer, kad je riječ o maloprodajnom sektoru, korisnici skladištenja podataka više se brinu o tome koje su vrste kupnji popularne među kupcima, pa rezultati analize mogu pomoći kupcu poboljšanjem korisničkog iskustva. No, Rudari podataka prvo pretpostavljaju hipotezu poput koje kupci kupuju određenu vrstu proizvoda i analiziraju podatke kako bi testirali hipotezu. Skladištenje podataka mogao bi provesti glavni trgovac koji u početku skladišti svoje prodavaonice s istim veličinama proizvoda da bi kasnije otkrio da New York prodavaonice manje veličine mnogo brže nego u trgovinama u Chicagu. Dakle, uvidom u ovaj rezultat prodavač može u New Yorku skladištiti manje veličine u usporedbi s trgovinama u Chicagu.
Kao što jasno možete vidjeti, ove dvije vrste analiza su golim okom iste naravi iste naravi. Oboje su zabrinuti zbog povećanja dobiti na temelju povijesnih podataka. Ali naravno, postoje ključne razlike. Jednostavno rečeno, Data Mining i Skladištenje podataka namijenjeni su pružanju različitih vrsta analitike, ali definitivno za različite tipove korisnika. Drugim riječima, Data Mining traži korelacije, crteže kako bi podržao statističku hipotezu. No, skladištenje podataka odgovara na relativno šire pitanje i on odsječe i kocka podatke odatle nadalje kako bi prepoznao načine poboljšanja u budućnosti.