weka explorer visualization
V tej vadnici je razloženo, kako izvesti vizualizacijo podatkov, analizo grozdov K-pomeni in rudarjenje pravil pridružitve z uporabo raziskovalca WEKA:
V Prejšnja vadnica smo spoznali WEKA nabor podatkov, klasifikator in algoritem J48 za drevo odločanja.
Kot smo že videli, je WEKA odprtokodno orodje za rudarjenje podatkov, ki ga mnogi raziskovalci in študentje uporabljajo za izvajanje številnih nalog strojnega učenja. Uporabniki lahko gradijo tudi svoje metode strojnega učenja in izvajajo preizkuse na vzorčnih naborih podatkov v imeniku WEKA.
Vizualizacijo podatkov v WEKA lahko izvedete z vzorčnimi nabori podatkov ali nabori podatkov, izdelanimi v obliki .arff, .csv.
=> Preberite celotno serijo usposabljanja za strojno učenje
Pridružitev rudarskih pravil se izvaja z uporabo Apriorijevega algoritma. To je edini algoritem, ki ga ponuja WEKA za izvajanje pogostega rudarjenja vzorcev.
V WEKI je na voljo veliko algoritmov za izvajanje analize grozdov, kot so FartherestFirst, FilteredCluster in HierachicalCluster itd. Od njih bomo uporabili SimpleKmeans, ki je najpreprostejša metoda združevanja v skupine.
Kaj se boste naučili:
- Povezovanje rudarskih pravil z uporabo raziskovalca WEKA
- K-pomeni algoritem z uporabo raziskovalca WEKA
- Izvedite vizualizacijo podatkov z uporabo WEKA
- Zaključek
Povezovanje rudarskih pravil z uporabo raziskovalca WEKA
Oglejmo si, kako uporabiti pridružitveno pravilo rudarjenja z uporabo WEKA Explorerja.
Združenje pravilo rudarstvo
Razvila in oblikovala sta ga Srikant in Aggarwal leta 1994. Pomaga nam najti vzorce v podatkih. To je postopek podatkovnega rudarjenja, ki najde funkcije, ki se pojavljajo skupaj, ali funkcije, ki so povezane.
qa preskusna vprašanja in odgovori za izkušene
Pravila pridružitvenih pravil vključujejo analizo tržne košarice za analizo izdelkov, kupljenih v eni košarici; Navzkrižno trženje za sodelovanje z drugimi podjetji, ki povečujejo vrednost naših poslovnih izdelkov, kot so prodajalec vozil in naftna družba.
Pravila povezovanja so minirana, ko se najdejo pogosti nabori elementov v velikem naboru podatkov. Ti nabori podatkov se ugotovijo z uporabo rudarskih algoritmov, kot sta Apriori in FP Growth. Pogosto pridobivanje podatkov o rudniških predmetih s pomočjo podpore in ukrepov zaupanja.
Podpora in zaupanje
Podpora meri verjetnost, da sta dva predmeta kupljena skupaj v eni transakciji, na primer kruh in maslo. Zaupanje je merilo, ki navaja verjetnost, da se dva izdelka kupujeta drug za drugim, ne pa tudi skupaj, na primer prenosna in računalniška protivirusna programska oprema.
Najnižja vrednost praga in najnižja vrednost praga zaupanja naj bi bila namenjena obrezovanju transakcij in ugotavljanju najpogostejših postavk.
Izvedba z uporabo raziskovalca WEKA
WEKA vsebuje izvedbo Apriorijev algoritem za učenje asociacijskih pravil. Apriori deluje samo z binarnimi atributi, kategoričnimi podatki (nominalni podatki), tako da, če nabor podatkov vsebuje kakršne koli številčne vrednosti, jih najprej pretvorite v nominalne.
Apriori ugotovi vsa pravila z minimalnim pragom podpore in zaupanja.
Sledite spodnjim korakom:
# 1) Pripravite nabor datotek excel in ga poimenujte kot » apriori.csv '.
#two) Odprite raziskovalec WEKA in na zavihku Preprocess izberite datoteko »apriori.csv«.
# 3) Datoteka se zdaj naloži v raziskovalcu WEKA.
# 4) Odstranite polje Transaction, tako da potrdite polje in kliknete Remove, kot je prikazano na spodnji sliki. Zdaj datoteko shranite kot »aprioritest.arff«.
# 5) Pojdite na zavihek Associate. Apriori pravila lahko od tu izkopavate.
# 6) Kliknite Izberi, da nastavite parametre podpore in zaupanja. Tu lahko nastavite različne parametre:
- ' lowerBoundMinSupport 'In' upperBoundMinSupport ”, To je interval ravni podpore, v katerem bo deloval naš algoritem.
- Delta je prirastek podpore. V tem primeru je 0,05 prirastek podpore z 0,1 na 1.
- metricType lahko 'Zaupanje', 'Dvig', 'Vzvod' in 'Prepričanje'. To nam pove, kako razvrščamo pravila združenja. Na splošno je izbrano samozavest.
- numRules pove število pravil pridružitve, ki jih je treba izkopati. Privzeto je nastavljeno na 10.
- pomenLevel prikazuje, kako pomemben je nivo zaupanja.
# 7) V besedilnem polju poleg gumba za izbiro je prikazano Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ', Ki prikazuje povzeta pravila, nastavljena za algoritem na zavihku nastavitev.
# 8) Kliknite gumb Start. Pravila pridružitve so ustvarjena na desni plošči. Ta plošča je sestavljena iz 2 odsekov. Prvi je algoritem, nabor podatkov, izbran za zagon. Drugi del prikazuje informacije Apriori.
Razjasnite nam informacije o zagonu na desni plošči:
- Shema nas je uporabila Apriori.
- Primerki in atributi: vsebuje 6 primerkov in 4 atribute.
- Najmanjša podpora je 0,4 in najmanjša samozavest 0,9. Od 6 primerkov najdemo 2 primerka z minimalno podporo,
- Število izvedenih ciklov za pravilo rudarske zveze je 12.
- Ustvarjeni veliki nabori predmetov so 3: L (1), L (2), L (3), vendar ti niso razvrščeni, saj so njihove velikosti 7, 11 oziroma 5.
- Najdena pravila so razvrščena. Razlaga teh pravil je naslednja:
- Maslo T 4 => Pivo F 4: pomeni, da od 6, 4 primerov pokaže, da je za maslo res pivo napačno. To daje močno povezavo. Stopnja zaupanja je 0,1.
Izhod
Pravila povezovanja je mogoče izkopati z uporabo WEKA Explorerja z Apriori Algorithm. Ta algoritem je mogoče uporabiti za vse vrste podatkovnih nizov, ki so na voljo v imeniku WEKA, pa tudi za druge podatkovne nize, ki jih ustvari uporabnik. Podporo in zaupanje ter druge parametre lahko nastavite z nastavitvenim oknom algoritma.
K-pomeni algoritem z uporabo raziskovalca WEKA
Poglejmo, kako uporabiti algoritem K-pomeni za združevanje v gruče z uporabo WEKA Explorerja.
Kaj je grozdna analiza
Algoritmi grozdenja so nenadzorovani učni algoritmi, ki se uporabljajo za ustvarjanje skupin podatkov s podobnimi značilnostmi. Objekte s podobnostmi združuje v skupine in podskupine, kar vodi do razdelitve naborov podatkov. Analiza grozdov je postopek razvrščanja naborov podatkov v podmnožice. Te podmnožice se imenujejo grozdi, skupek grozdov pa grozdi.
Analiza grozdov se uporablja v številnih aplikacijah, kot so prepoznavanje slik, prepoznavanje vzorcev, spletno iskanje in varnost, v poslovni inteligenci, kot je združevanje strank s podobnimi željami.
Kaj je K-pomeni grozdanje
K pomeni, da je združevanje v skupine najpreprostejši algoritem združevanja v skupine. V algoritmu K-Clustering je nabor podatkov razdeljen na K-grozde. Ciljna funkcija se uporablja za iskanje kakovosti particij, tako da so podobni predmeti v eni gruči, različni predmeti pa v drugih skupinah.
Pri tej metodi je ugotovljeno, da težišče grozda predstavlja grozd. Težišče se vzame za središče kopice, ki se izračuna kot povprečna vrednost točk znotraj kopice. Zdaj kakovost grozdenja najdemo z merjenjem evklidske razdalje med točko in središčem. Ta razdalja mora biti največja.
Kako deluje algoritem grozdenja K-Mean
Korak 1: Izberite vrednost K, kjer je K število grozdov.
2. korak: Ponovite vsako točko in ji določite skupino, ki ima najbližje središče. Ko se vsak element ponovi, izračunajte centroid vseh skupin.
3. korak: Ponovite vse elemente iz nabora podatkov in izračunajte evklidsko razdaljo med točko in centroidom vsake gruče. Če je v gruči prisotna katera koli točka, ki ji ni najbližja, jo nato dodelite najbližji gruči in po izvedbi te točke v vseh točkah nabora podatkov znova izračunajte centroid vsake gruče.
4. korak: Izvajajte 3. korak, dokler med dvema zaporednima ponovitvama ni prišlo do nove naloge.
K-pomeni izvajanje grozdenja z uporabo WEKA
Koraki za izvajanje z uporabo Weke so naslednji:
# 1) Odprite WEKA Explorer in na zavihku Preprocess kliknite Open File. Izberite nabor podatkov „vote.arff“.
#two) Pojdite na zavihek »Grozd« in kliknite gumb »Izberi«. Izberite način združevanja v gruče kot »SimpleKMeans«.
# 3) Izberite Nastavitve in nato nastavite naslednja polja:
- Funkcija razdalje kot evklidska
- Število grozdov kot 6. Z večjim številom grozdov se bo vsota kvadratov napake zmanjšala.
- Semena kot 10. of
Kliknite V redu in zaženite algoritem.
# 4) V levem podoknu kliknite Start. Rezultati algoritma se prikažejo na belem zaslonu. Analizirajmo informacije o zagonu:
- Shema, razmerje, primerki in atributi opisujejo lastnosti nabora podatkov in uporabljeno metodo združevanja. V tem primeru ima nabor podatkov voice.arff 435 primerkov in 13 atributov.
- Pri gruči Kmeans je število ponovitev 5.
- Vsota napak na kvadrat je 1098,0. Ta napaka se bo zmanjšala s povečanjem števila grozdov.
- Pet končnih skupin s centroidi je predstavljenih v obliki tabele. V našem primeru so Centroidi grozdov 168,0, 47,0, 37,0, 122,0,33,0 in 28,0.
- Gručeni primerki predstavljajo število in odstotek vseh primerkov, ki spadajo v gručo.
# 5) Izberite »Razredi za ocenjevanje grozdov« in kliknite Start.
Algoritem bo gruči dodelil oznako razreda. Grozd 0 predstavlja republikance, grozd 3 pa demokrata. Nepravilno gručasti primerek znaša 39,77%, kar je mogoče zmanjšati z ignoriranjem nepomembnih atributov.
# 6) Če želite prezreti nepomembne atribute. Kliknite gumb »Prezri atribute« in izberite atribute, ki jih želite odstraniti.
# 7) Z zavihkom »Vizualiziraj« si oglejte rezultat algoritma grozdenja. Pojdite na zavihek in kliknite katero koli polje. Premakni trepalnico na maks.
- Os X in Y predstavljata atribut.
- Modra barva predstavlja razredni demokrat, rdeča pa republiško.
- Jitter se uporablja za ogled grozdov.
- Kliknite polje na desni strani okna, da spremenite atribut koordinate x in si ogledate grozde glede na druge atribute.
Izhod
najboljši pc čistilec za windows 7
K pomeni, da je združevanje v skupine preprosta metoda analize grozdov. Število grozdov lahko nastavite z zavihkom nastavitev. Težišče vsake kopice se izračuna kot povprečje vseh točk znotraj skupin. S povečanjem števila grozdov se vsota kvadratnih napak zmanjša. Predmeti v gruči imajo podobne značilnosti in lastnosti. Grozdi predstavljajo oznake razredov.
Izvedite vizualizacijo podatkov z uporabo WEKA
Vizualizacija podatkov
Način predstavitve podatkov v grafih in grafih z namenom jasnega razumevanja podatkov je vizualizacija podatkov.
Obstaja veliko načinov za predstavitev podatkov. Nekateri med njimi so naslednji:
# 1) Pixel usmerjena vizualizacija: Tu barva slikovne pike predstavlja vrednost dimenzije. Barva slikovne pike predstavlja ustrezne vrednosti.
# 2) Geometrijska predstavitev: Večdimenzionalni nabori podatkov so predstavljeni v 2D, 3D in 4D razpršenih ploskvah.
# 3) Vizualizacija na podlagi ikon: Podatki so predstavljeni z uporabo Chernoffovih obrazov in palic. Obrazi Chernoffa uporabljajo sposobnost človeškega uma, da prepozna značilnosti obraza in razlike med njimi. Številka palice uporablja 5 figuric palice za predstavitev večdimenzionalnih podatkov.
# 4) Hierarhična vizualizacija podatkov: Podatkovni nizi so predstavljeni z drevesnimi zemljevidi. Predstavlja hierarhične podatke kot niz ugnezdenih trikotnikov.
Vizualizacija podatkov z uporabo raziskovalca WEKA
Vizualizacija podatkov z uporabo WEKA se izvede na naboru podatkov IRIS.arff.
Koraki so naslednji:
# 1) Pojdite na zavihek Preprocess in odprite nabor podatkov IRIS.arff.
#two) Nabor podatkov ima 4 atribute in 1 oznako razreda. Atributi v tem naboru podatkov so:
- Dolžina sep: Tip-številčno
- Sepalwidth: Tip - številčno
- Petalength: Tip-številčno
- Petalwidth: Tip-številčno
- Razred: Tip-nominalni
# 3) Če želite vizualizirati nabor podatkov, pojdite na zavihek Vizualizacija. Zavihek prikazuje matriko ploskve atributov. Atributi nabora podatkov so označeni na osi x in osi y, medtem ko se primerki narišejo. Polje z atributom osi x in atributom osi y lahko povečate.
# 4) Za povečavo kliknite polje ploskve. Na primer, x: dolžina cvetnih listov in y: širina cvetnih listov. Oznake razredov so predstavljene v različnih barvah.
- Oznaka razreda - Iris-setosa: modra barva
- Oznaka razreda - Iris-versicolor: rdeča
- Oznaka razreda-Iris-virginica-zelena
Te barve je mogoče spremeniti. Če želite spremeniti barvo, kliknite nalepko razreda na dnu, pojavilo se bo barvno okno.
# 5) Kliknite primerek, ki ga na ploskvi predstavlja 'x'. Podala bo podrobnosti primerka. Na primer:
- Številka primerka: 91
- Ločena dolžina: 5.5
- Sepalwidth: 2.6
- Petalength: 4.4
- Petalwidth: 1.2
- Razred: Iris-versicolor
Nekatere točke v ploskvi so videti temnejše kot druge točke. Te točke predstavljajo dva ali več primerkov z isto oznako razreda in enako vrednostjo atributov, narisanih na grafu, kot sta širina in dolžina cvetnih listov.
Spodnja slika predstavlja točko z informacijami o 2 primerkih.
# 6) Atributa osi X in Y je mogoče spremeniti na desni plošči v grafikonu Visualize. Uporabnik si lahko ogleda različne ploskve.
# 7) Jitter se uporablja za dodajanje naključnosti ploskvi. Včasih se točke prekrivajo. Pri tresenju temnejše lise predstavljajo več primerov.
# 8) Za boljši pregled nabora podatkov in odstranjevanje izstopajočih točk lahko uporabnik v spustnem meniju izbere primerek. Kliknite spustni meni »izberite primerek«. Izberite 'Pravokotnik'. S tem bo lahko uporabnik izbral točke na ploskvi z risanjem pravokotnika.
# 9) Kliknite »Pošlji«. Prikazane bodo samo izbrane točke nabora podatkov, druge točke pa bodo izključene iz grafa.
Spodnja slika prikazuje točke iz izbrane pravokotne oblike. Grafikon predstavlja točke s samo 3 oznakami razreda. Uporabnik lahko klikne »Shrani«, da shrani nabor podatkov, ali »Ponastavi«, da izbere drug primerek. Nabor podatkov bo shranjen v ločeni datoteki .ARFF.
Izhod:
Vizualizacija podatkov s pomočjo WEKA je poenostavljena s pomočjo okvirja. Uporabnik si lahko ogleda katero koli raven podrobnosti. Atributi so narisani na osi X in osi Y, primerki pa na osi X in Y. Nekatere točke predstavljajo več primerkov, ki jih predstavljajo točke s temno barvo.
Zaključek
WEKA je učinkovito orodje za podatkovno rudarjenje za izvajanje številnih nalog rudarjenja podatkov in eksperimentiranje z novimi metodami v naborih podatkov. WEKA je razvil Oddelek za računalništvo na Univerzi Waikato na Novi Zelandiji.
Današnji svet je zasut s podatki, vse od nakupovanja v supermarketu do varnostnih kamer v našem domu. Podatkovno rudarjenje uporablja te surove podatke, jih pretvori v informacije za napovedovanje. WEKA s pomočjo algoritma Apriori pomaga pri pravilih rudarskih združenj v naboru podatkov. Apriori je pogost algoritem za rudarjenje vzorcev, ki šteje število pojavitev nabora elementov v transakciji.
Analiza grozdov je tehnika za ugotavljanje skupin podatkov, ki predstavljajo podobne značilnosti. WEKA ponuja številne algoritme za izvajanje grozdne analize, od katerih so enostavna sredstva zelo uporabljena.
Vizualizacijo podatkov v WEKA je mogoče izvesti na vseh naborih podatkov v imeniku WEKA. Neobdelani nabor podatkov si lahko ogledate, pa tudi druge posledične nabore podatkov drugih algoritmov, kot so klasifikacija, združevanje v skupine in povezava, si lahko ogledate s pomočjo WEKA.
=> Obiščite tukaj za ekskluzivno serijo strojnega učenja
Priporočeno branje
- Vadnica za Weka - Kako prenesti, namestiti in uporabiti orodje Weka
- Nabor podatkov WEKA, klasifikator in algoritem J48 za drevo odločanja
- 15 NAJBOLJŠIH orodij in programske opreme za vizualizacijo podatkov v letu 2021
- D3.js Vadnica - ogrodje vizualizacije podatkov za začetnike
- Vadnica za vizualizacijo podatkov D3.js - Oblike, graf, animacija
- 7 načel testiranja programske opreme: grozdenje napak in princip Pareto
- Podatkovno rudarjenje: postopek, tehnike in glavna vprašanja pri analizi podatkov
- Tehnike rudarjenja podatkov: algoritem, metode in najboljša orodja za rudarjenje podatkov