KDD ir duomenų gavyba
KDD (žinių atradimas duomenų bazėse) yra informatikos sritis, apimanti įrankius ir teorijas, padedančias žmonėms išgauti naudingą ir anksčiau nežinomą informaciją (ty žinias) iš didelių suskaitmenintų duomenų rinkinių. KDD susideda iš kelių žingsnių, o duomenų gavyba yra vienas iš jų. Duomenų gavyba yra konkretaus algoritmo taikymas, norint iš duomenų išgauti šablonus. Nepaisant to, KDD ir duomenų gavyba yra keičiamos.
Kas yra KDD?
Kaip minėta pirmiau, KDD yra informatikos sritis, kurioje nagrinėjama anksčiau nežinoma ir įdomi informacija iš neapdorotų duomenų. KDD yra visas procesas, kai bandoma suvokti duomenis kuriant tinkamus metodus ar metodus. Šis procesas susijęs su žemo lygio duomenų susiejimu su kitomis formomis, kurios yra kompaktiškesnės, abstraktesnės ir naudingesnės. Tai pasiekiama kuriant trumpas ataskaitas, modeliuojant duomenų generavimo procesą ir kuriant nuspėjamuosius modelius, kurie gali numatyti būsimus atvejus. Dėl eksponentinio duomenų augimo, ypač tokiose srityse kaip verslas, KDD tapo labai svarbiu procesu paversti šį didelį duomenų kiekį verslo intelektu, nes per pastaruosius kelis dešimtmečius rankiniu būdu atkurti modelius tapo neįmanoma. Pavyzdžiui,Šiuo metu jis naudojamas įvairioms programoms, tokioms kaip socialinių tinklų analizė, sukčiavimo nustatymas, mokslas, investicijos, gamyba, telekomunikacijos, duomenų valymas, sportas, informacijos paieška ir daugiausia rinkodarai. KDD paprastai naudojamas atsakant į klausimus, pavyzdžiui, kokie yra pagrindiniai produktai, kurie kitais metais gali padėti gauti didelį pelną „Wal-Mart“? Šį procesą sudaro keli žingsniai. Pradedama nuo supratimo apie programos sritį ir tikslą sukūrimo ir tada sukuriant tikslinį duomenų rinkinį. Po to atliekamas duomenų valymas, išankstinis apdorojimas, sumažinimas ir projekcija. Kitas žingsnis yra naudoti duomenų gavybą (paaiškinta toliau), kad būtų galima nustatyti modelį. Pagaliau atrastos žinios sutvirtinamos vizualizuojant ir (arba) interpretuojant.sportas, informacijos paieška ir daugiausia skirta rinkodarai. KDD paprastai naudojamas atsakant į klausimus, pavyzdžiui, kokie yra pagrindiniai produktai, kurie kitais metais gali padėti gauti didelį pelną „Wal-Mart“? Šį procesą sudaro keli žingsniai. Pradedama nuo supratimo apie programos sritį ir tikslą sukūrimo ir tada sukuriant tikslinį duomenų rinkinį. Po to atliekamas duomenų valymas, išankstinis apdorojimas, sumažinimas ir projekcija. Kitas žingsnis yra naudoti duomenų gavybą (paaiškinta toliau), kad būtų galima nustatyti modelį. Pagaliau atrastos žinios sutvirtinamos vizualizuojant ir (arba) interpretuojant.sportas, informacijos paieška ir daugiausia skirta rinkodarai. KDD paprastai naudojamas atsakyti į klausimus, pavyzdžiui, kokie yra pagrindiniai produktai, kurie kitais metais gali padėti gauti didelį pelną „Wal-Mart“? Šį procesą sudaro keli žingsniai. Tai prasideda nuo supratimo apie programos sritį ir tikslą sukūrimo ir tada sukuriant tikslinį duomenų rinkinį. Po to atliekamas duomenų valymas, išankstinis apdorojimas, sumažinimas ir projekcija. Kitas žingsnis yra naudoti duomenų gavybą (paaiškinta toliau), kad būtų galima nustatyti modelį. Pagaliau atrastos žinios sutvirtinamos vizualizuojant ir (arba) interpretuojant. Tai prasideda nuo supratimo apie programos sritį ir tikslą sukūrimo ir tada sukuriant tikslinį duomenų rinkinį. Po to atliekamas duomenų valymas, išankstinis apdorojimas, sumažinimas ir projekcija. Kitas žingsnis yra naudoti duomenų gavybą (paaiškinta toliau), kad būtų galima nustatyti modelį. Pagaliau atrastos žinios sutvirtinamos vizualizuojant ir (arba) interpretuojant. Tai prasideda nuo supratimo apie programos sritį ir tikslą sukūrimo ir tada sukuriant tikslinį duomenų rinkinį. Po to atliekamas duomenų valymas, išankstinis apdorojimas, sumažinimas ir projekcija. Kitas žingsnis yra naudoti duomenų gavybą (paaiškinta toliau), kad būtų galima nustatyti modelį. Pagaliau atrastos žinios sutvirtinamos vizualizuojant ir (arba) interpretuojant.
Kas yra duomenų gavyba?
Kaip minėta pirmiau, duomenų gavyba yra tik viso KDD proceso žingsnis. Yra du pagrindiniai duomenų gavybos tikslai, kuriuos apibrėžia programos tikslas, ir tai yra patikrinimas ar atradimas. Patvirtinimas yra vartotojo hipotezės apie duomenis patikrinimas, o atradimas automatiškai randa įdomių modelių. Yra keturios pagrindinės duomenų gavybos užduotys: grupavimas, klasifikavimas, regresija ir susiejimas (apibendrinimas). Grupavimas yra panašių grupių nustatymas iš nestruktūrizuotų duomenų. Klasifikacija yra mokymosi taisyklės, kurias galima pritaikyti naujiems duomenims. Regresija yra funkcijų su minimalia paklaida radimas modeliuojant duomenis. Asociacija ieško ryšių tarp kintamųjų. Tada reikia pasirinkti konkretų duomenų gavybos algoritmą. Priklausomai nuo tikslo, skirtingi algoritmai, tokie kaip linijinė regresija, logistinė regresija,galima pasirinkti sprendimų medžius ir Naivias Bayes. Tada ieškoma dominančių vienos ar kelių reprezentacinių formų modelių. Galiausiai modeliai vertinami naudojant nuspėjamąjį tikslumą arba suprantamumą.
Kuo skiriasi KDD ir duomenų gavyba?
Nors abu terminai KDD ir „Data Mining“yra plačiai vartojami pakaitomis, jie nurodo dvi susijusias, tačiau šiek tiek skirtingas sąvokas. KDD yra bendras žinių gavimo iš duomenų procesas, o duomenų gavyba yra žingsnis į KDD procesą, kuriame nagrinėjami duomenų modeliai. Kitaip tariant, duomenų gavyba yra tik konkretaus algoritmo, pagrįsto bendruoju KDD proceso tikslu, taikymas.