data mining techniques
Ta poglobljena vadnica o tehnikah pridobivanja podatkov pojasnjuje algoritme, orodja za pridobivanje podatkov in metode za pridobivanje uporabnih podatkov:
V tem Vadnice za globinsko rudarjenje podatkov za vse smo v prejšnji vadnici raziskali vse o podatkovnem rudarjenju.
V tej vadnici bomo spoznali različne tehnike, ki se uporabljajo za pridobivanje podatkov. Ker vemo, da je podatkovno rudarjenje koncept pridobivanja koristnih informacij iz velike količine podatkov, se nekatere tehnike in metode uporabljajo za velike nabore podatkov za pridobivanje koristnih informacij.
Te tehnike so v osnovi v obliki metod in algoritmov, ki se uporabljajo za nabore podatkov. Nekatere tehnike podatkovnega rudarjenja vključujejo Pridobivanje pogostih vzorcev, združenj in korelacij, klasifikacij, grozdenja, odkrivanja izstopajočih in nekaterih naprednih tehnik, kot so statistično, vizualno in zvočno rudarjenje podatkov.
Na splošno se za tehnike rudarjenja podatkov uporabljajo relacijske baze podatkov, transakcijske baze podatkov in skladišča podatkov. Vendar pa obstaja tudi nekaj naprednih rudarskih tehnik za zapletene podatke, kot so časovne vrste, simbolna zaporedja in biološki zaporedni podatki.
Kaj se boste naučili:
- Namen tehnik rudarjenja podatkov
- Seznam tehnik pridobivanja podatkov
- Vrhunski algoritmi za rudarjenje podatkov
- Metode pridobivanja podatkov
- Vrhunska orodja za pridobivanje podatkov
- Zaključek
- Priporočeno branje
Namen tehnik rudarjenja podatkov
Z ogromno količino podatkov, ki se shranjujejo vsak dan, podjetja zdaj zanimajo trende pri njih. Tehnike pridobivanja podatkov pomagajo pretvoriti surove podatke v koristno znanje. Za pridobivanje ogromnih količin podatkov je potrebna programska oprema, saj človek nemogoče ročno pregledati velik obseg podatkov.
Programska oprema za podatkovno rudarjenje analizira razmerje med različnimi elementi v velikih zbirkah podatkov, kar lahko pomaga pri odločanju, izvede več o kupcih, izdelavi tržnih strategij, poveča prodajo in zmanjša stroške.
Seznam tehnik pridobivanja podatkov
Tehnika podatkovnega rudarjenja, ki jo bomo uporabili, je odvisna od perspektive naše analize podatkov.
Pogovorimo se torej o različnih tehnikah, kako je mogoče pridobivanje podatkov izvesti na različne načine:
kaj od naštetega velja za integracijski test?
# 1) Pogosto analiziranje vzorcev / analiza združitev
Ta vrsta tehnike rudarjenja podatkov išče ponavljajoča se razmerja v danem naboru podatkov. Poiskala bo zanimive povezave in povezave med različnimi elementi v zbirki podatkov in prepoznala vzorec.
Primer, takšne vrste bi bila »Analiza košarice«: ugotovitev, »katere izdelke bodo kupci verjetno kupili skupaj v trgovini?« kot sta kruh in maslo.
Uporaba: Oblikovanje postavitve izdelkov na prodajne police, trženje, navzkrižna prodaja izdelkov.
Vzorce lahko predstavimo v obliki pravil o združevanju. Pravilo pridružitve pravi, da sta podpora in zaupanje parametra za ugotavljanje uporabnosti povezanih elementov. Transakcije, pri katerih sta bili obe predmeti skupaj kupljeni naenkrat, so znani kot podpora.
Transakcije, pri katerih so stranke kupile oba predmeta, a enega za drugim, so zaupanje. Izdelani vzorec bi bil zanimiv, če ima najnižji prag podpore in najnižji prag zaupanja vrednost. O mejnih vrednostih odločajo strokovnjaki domene.
Kruh => maslo (podpora = 2%, zaupanje-60%)
Zgornja izjava je primer pravila o pridružitvi. To pomeni, da obstaja 2-odstotna transakcija, ki je kruh in maslo kupila skupaj, 60% kupcev pa je kupilo kruh in maslo.
Koraki za izvedbo analize združevanja:
- Iskanje pogostih naborov predmetov. Nabor elementov pomeni nabor elementov. Nabor elementov, ki vsebuje k elementov, je nabor elementov k. Pogostost nabora elementov je število transakcij, ki vsebujejo nabor elementov.
- Ustvarjanje močnih pravil povezovanja iz pogostih naborov predmetov. Z močnimi pravili o pridružitvi mislimo, da je dosežena najnižja mejna podpora in zaupanje.
Obstajajo različne pogoste metode nabora elementov, kot so Apriori algoritem, pristop rasti vzorca in rudarstvo z uporabo vertikalne oblike zapisa podatkov. Ta tehnika je splošno znana kot analiza tržne košarice.
# 2) Korelacijska analiza
Korelacijska analiza je le razširitev pridružitvenih pravil. Včasih lahko parametri podpore in zaupanja uporabnikom še vedno prinesejo nezanimive vzorce.
Primer, ki podpira zgornjo trditev, je lahko: od 1000 analiziranih transakcij je 600 vsebovalo samo kruh, 750 pa maslo, 400 pa kruh in maslo. Recimo, da je najmanjša podpora za izvajanje pravil povezovanja 30%, najmanjša zanesljivost pa 60%.
Vrednost podpore 400/1000 = 40% in vrednost zaupanja = 400/600 = 66% ustreza pragu. Vendar vidimo, da je verjetnost nakupa masla 75%, kar je več kot 66%. To pomeni, da sta kruh in maslo v negativni korelaciji, saj bi nakup enega privedel do zmanjšanja nakupa drugega. Rezultati varajo.
Iz zgornjega primera sta podpora in samozavest dopolnjena z drugim merilom zanimivosti, tj. Korelacijsko analizo, ki bo pomagala pri pridobivanju zanimivih vzorcev.
A => B (podpora, samozavest, korelacija).
Pravilo korelacije se meri s podporo, samozavestjo in korelacijo med sklopi A in B. Korelacija se meri z dvigom in hi-kvadratom.
(jaz dvigujem: Kot pravi beseda sama, Lift predstavlja stopnjo, do katere prisotnost enega nabora elementov dvigne pojav drugih naborov predmetov.
Dvig med pojavom A in B lahko merimo z:
Dvignite (A, B) = P (A U B) / P (A). P (B).
Če je<1, then A and B are negatively correlated.
Če je> 1. Potem sta A in B pozitivno korelirana, kar pomeni, da pojav enega pomeni pojav drugega.
Če je = 1, potem med njima ni povezave.
(ii) Chi-Square: To je še en korelacijski ukrep. Izmeri kvadratno razliko med opaženo in pričakovano vrednostjo reže (par A in B), deljeno s pričakovano vrednostjo.
Če je> 1, potem je v negativni korelaciji.
# 3) Razvrstitev
Klasifikacija pomaga pri gradnji modelov pomembnih podatkovnih razredov. Model ali klasifikator je izdelan za napovedovanje oznak razredov. Oznake so opredeljeni razredi z ločenimi vrednostmi, kot so 'da' ali 'ne', 'varno' ali 'tvegano'. To je vrsta nadzorovanega učenja, saj je razred etikete že znan.
Razvrstitev podatkov je dvostopenjski postopek:
- Učni korak: Model je zgrajen tukaj. Vnaprej določen algoritem se uporabi za podatke za analizo s priloženo oznako razreda in sestavijo pravila razvrščanja.
- Korak razvrščanja: Model se uporablja za napovedovanje oznak razredov za dane podatke. Natančnost pravil razvrščanja se ocenjuje s preskusnimi podatki, ki se, če se ugotovijo natančnimi, uporabljajo za razvrščanje novih zbirk podatkov.
Elementi v naboru elementov bodo dodeljeni ciljnim kategorijam za predvidevanje funkcij na ravni oznake razreda.
Uporaba: Banke, ki prosilce za posojila prepoznajo kot osebe z nizkim, srednjim ali velikim tveganjem, podjetja, ki oblikujejo tržne kampanje na podlagi klasifikacije starostnih skupin
# 4) Indukcija drevesa odločitev
Metoda indukcije odločitvenih dreves spada pod klasifikacijsko analizo. Drevo odločanja je drevesni strukturi, ki je enostavna za razumevanje ter preprosta in hitra. Pri tem vsako nelistno vozlišče predstavlja test atributa in vsaka veja predstavlja rezultat testa, listno vozlišče pa oznako razreda.
Vrednosti atributov v naboru se preizkusijo glede na odločitveno drevo od korena do listnega vozlišča. Drevesa odločanja so priljubljena, saj ne zahtevajo znanja o domeni. Ti lahko predstavljajo večdimenzionalne podatke. Drevesa odločitev je mogoče enostavno pretvoriti v pravila razvrščanja.
Uporaba: Drevesa odločitev so zgrajena v medicini, proizvodnji, proizvodnji, astronomiji itd. Primer si lahko ogledate spodaj:
# 5) Bayesova klasifikacija
Bayesova klasifikacija je še ena metoda klasifikacijske analize. Bayesovi klasifikatorji napovedujejo verjetnost, da bo določen tuplen pripadal določenemu razredu. Temelji na Bayesovem izreku, ki temelji na teoriji verjetnosti in odločitve.
Bayesova klasifikacija deluje na posteriorno verjetnost in predhodno verjetnost za postopek odločanja. Po zadnji verjetnosti hipoteza temelji na danih informacijah, tj. Vrednosti atributov so znane, medtem ko so za predhodno verjetnost hipoteze podane ne glede na vrednosti atributov.
# 6) Analiza grozdenja
Gre za tehniko razdelitve nabora podatkov na grozde ali skupine predmetov. Grupiranje poteka z uporabo algoritmov. Gre za vrsto nenadzorovanega učenja, saj informacije o oznaki niso znane. Metode združevanja v skupine identificirajo podatke, ki so si podobni ali drugačni, in opravi se analiza značilnosti.
Analiza grozdov se lahko uporablja kot predhodni korak za uporabo različnih drugih algoritmov, kot so karakterizacija, izbira podnabora atributov itd. Analiza grozdov se lahko uporablja tudi za odkrivanje odstopanj, kot so visoki nakupi pri transakcijah s kreditnimi karticami.
Aplikacije: Prepoznavanje slik, spletno iskanje in varnost.
# 7) Odkrivanje odstopanj
Postopek iskanja podatkovnih objektov, ki imajo izjemno vedenje od drugih predmetov, se imenuje odkrivanje odstopanj. Odkrivanje in analiza grozdov sta povezana med seboj. Odstopajoče metode so razvrščene v statistične, na osnovi bližine, grozdenja in klasifikacije.
Obstajajo različne vrste izstopajočih, nekateri med njimi so:
- Global Outlier: Podatkovni objekt je bistveno odstopal od preostalega nabora podatkov.
- Kontekstualno odstopanje: To je odvisno od določenih dejavnikov, kot so dan, čas in lokacija. Če podatkovni objekt bistveno odstopa glede na kontekst.
- Kolektivno odstopanje: Ko ima skupina podatkovnih objektov drugačno vedenje kot celoten nabor podatkov.
Uporaba: Odkrivanje tveganj goljufij na kreditnih karticah, odkrivanje novosti itd.
# 8) Zaporedni vzorci
Pri tej vrsti podatkovnega rudarjenja je prepoznan trend ali nekateri dosledni vzorci. Razumevanje vedenja kupcev in zaporedni vzorci prodajalne uporabljajo za razstavljanje svojih izdelkov na policah.
Uporaba: Primer e-trgovine, ko ob nakupu izdelka A pokaže, da se element B pogosto kupuje z izdelkom A, ki gleda na preteklo zgodovino nakupov.
# 9) Regresijska analiza
Ta vrsta analize se nadzira in ugotavlja, kateri nabori elementov med različnimi odnosi so med seboj povezani ali so neodvisni. Predvideva lahko prodajo, dobiček, temperaturo, napoveduje človeško vedenje itd. Ima že znano vrednost nabora podatkov.
primer hash tabele c ++
Ko je na voljo vhod, bo regresijski algoritem primerjal vhod in pričakovano vrednost, napaka pa se izračuna tako, da pride do natančnega rezultata.
Uporaba: Primerjava prizadevanj za trženje in razvoj izdelkov.
Vrhunski algoritmi za rudarjenje podatkov
Tehnike rudarjenja podatkov se uporabljajo prek algoritmov, ki stojijo za njimi. Ti algoritmi delujejo na programski opremi za pridobivanje podatkov in se uporabljajo glede na poslovne potrebe.
Nekateri algoritmi, ki jih organizacije pogosto uporabljajo za analizo naborov podatkov, so opredeljeni spodaj:
- K-pomeni: Je priljubljena tehnika analize grozdov, pri kateri je skupina podobnih predmetov združena v skupine.
- Apriori algoritem: To je pogosta tehnika nabora elementov, zanjo pa se uporabljajo pravila o povezovanju v transakcijskih bazah podatkov. Zaznaval bo pogoste nabore predmetov in poudaril splošne trende.
- K Najbližji sosed: Ta metoda se uporablja za klasifikacijsko in regresijsko analizo. K najbližji sosed je lenobno učenje, kjer shranjuje podatke o vadbi in ko pridejo novi neoznačeni podatki, bo razvrstil vhodne podatke.
- Ladje Bayes: Gre za skupino preprostih verjetnostnih algoritmov za klasifikacijo, ki predpostavljajo, da so značilnosti vsakega podatkovnega objekta neodvisne od drugih. Gre za uporabo Bayesovega izrek.
- AdaBoost: Gre za meta-algoritem strojnega učenja, ki se uporablja za izboljšanje zmogljivosti. Adaboost je občutljiv na hrupne podatke in odstopanja.
Metode pridobivanja podatkov
Nekatere napredne metode rudarjenja podatkov za obdelavo zapletenih vrst podatkov so razložene spodaj.
Podatki v današnjem svetu so različnih vrst, od preprostih do zapletenih. Za pridobivanje zapletenih podatkovnih vrst, kot so časovne vrste, večdimenzionalni, prostorski in večpredstavnostni podatki, so potrebni napredni algoritmi in tehnike.
Nekateri izmed njih so opisani spodaj:
- KLIK: To je bila prva metoda združevanja, ki je grozde našla v večdimenzionalnem podprostoru.
- P3C: To je dobro znana metoda združevanja za zmerne do visoke večdimenzionalne podatke.
- JEZERO: Gre za metodo, ki temelji na k-sredstvih in je namenjena združevanju zmernih do visoko dimenzionalnih podatkov. Algoritem razdeli podatke na k disjontni nabor elementov, tako da odstrani možne odstopanja.
- KOVRČ: Gre za algoritem grozdenja korelacije, ki zaznava linearne in nelinearne korelacije.
Vrhunska orodja za pridobivanje podatkov
Orodja za rudarjenje podatkov so programska oprema, ki se uporablja za pridobivanje podatkov. Orodja izvajajo algoritme na zaledju. Ta orodja so na trgu na voljo kot odprtokodna, brezplačna programska oprema in licenčna različica.
Nekatera orodja za pridobivanje podatkov vključujejo:
# 1) RapidMiner
RapidMiner je odprtokodna programska platforma za analitične skupine, ki združuje pripravo podatkov, strojno učenje in uvajanje napovednega modela. To orodje se uporablja za analizo podatkovnega rudarjenja in izdelavo podatkovnih modelov. Ima velike sklope za razvrščanje, združevanje v skupine, rudarjenje pravil združevanja in algoritme regresije.
# 2) Oranžna
Je odprtokodno orodje, ki vsebuje paket za vizualizacijo in analizo podatkov. Oranžno lahko uvozite v katero koli delovno okolje python. Primerna je za nove raziskovalce in manjše projekte.
# 3) JEZIK
KEEL (pridobivanje znanja na podlagi evolucijskega učenja) je odprtokodna ( GPLv3 ) Programsko orodje Java, ki se lahko uporablja za veliko število nalog za odkrivanje podatkov o znanju.
# 4) SPSS
IBM SPSS Modeler je IBM-ova programska aplikacija za podatkovno rudarjenje in analizo besedila. Uporablja se za izdelavo napovednih modelov in izvajanje drugih analitičnih nalog.
# 5) KNIME
Je brezplačno in odprtokodno orodje, ki vsebuje paket za čiščenje in analizo podatkov, specializirane algoritme na področjih analize sentimenta in analize socialnih omrežij. KNIME lahko v isto analizo vključi podatke iz različnih virov. Ima vmesnik z programiranjem Java, Python in R.
Pomembno vprašanje: V čem se klasifikacija razlikuje od napovedi?
Klasifikacija je združevanje podatkov. Primer razvrstitve je razvrščanje glede na starostno skupino, zdravstveno stanje itd., Medtem ko napovedovanje daje rezultat z uporabo tajnih podatkov.
Primer napovedne analize napoveduje interese glede na starostno skupino, zdravljenje zdravstvenega stanja. Napovedovanje je znano tudi kot ocena za neprekinjene vrednosti.
Pomemben izraz: Prediktivno pridobivanje podatkov
Prediktivno rudarjenje podatkov se izvaja za napovedovanje ali napovedovanje določenih podatkovnih trendov z uporabo poslovne inteligence in drugih podatkov. Podjetjem pomaga do boljše analitike in sprejemanja boljših odločitev. Predictive Analytics se pogosto kombinira s Predictive Data Mining.
Predictive Data Mining najde ustrezne podatke za analizo. Predvidevalna analitika uporablja podatke za napovedovanje izida.
Zaključek
V tej vadnici smo razpravljali o različnih tehnikah rudarjenja podatkov, ki lahko organizacijam in podjetjem pomagajo najti najbolj uporabne in ustrezne informacije. Te informacije se uporabljajo za ustvarjanje modelov, ki bodo napovedali vedenje kupcev, da bodo podjetja nanje ukrepala.
Ob branju vseh zgoraj omenjenih informacij o tehnikah rudarjenja podatkov lahko še bolje ugotovimo njihovo verodostojnost in izvedljivost. Tehnike pridobivanja podatkov vključujejo delo s podatki, preoblikovanje podatkov, prestrukturiranje podatkov. Oblika potrebnih informacij temelji na tehniki in analizi, ki jo je treba opraviti.
Na koncu pa vse tehnike, metode in sistemi za podatkovno rudarjenje pomagajo pri odkrivanju novih kreativnih inovacij.
PREV Vadnica | NASLEDNJA Vadnica
Priporočeno branje
- Podatkovno rudarjenje: postopek, tehnike in glavna vprašanja pri analizi podatkov
- 10 najboljših orodij za modeliranje podatkov za upravljanje kompleksnih modelov
- 15 najboljših brezplačnih orodij za pridobivanje podatkov: Najobsežnejši seznam
- 10+ najboljših orodij za zbiranje podatkov s strategijami zbiranja podatkov
- 10 najboljših orodij za načrtovanje zbirk podatkov za izdelavo kompleksnih podatkovnih modelov
- 10+ najboljših orodij za upravljanje podatkov za izpolnitev vaših podatkovnih potreb v letu 2021
- Data Mining Vs Machine Learning Vs Umetna inteligenca Vs Poglobljeno učenje
- 14 najboljših orodij za upravljanje testnih podatkov v letu 2021