weka dataset classifier
Ta vadnica razlaga nabor podatkov WEKA, klasifikator in algoritem J48 za drevo odločanja. Ponuja tudi informacije o vzorčnih naborih podatkov ARFF za Weka:
V Prejšnja vadnica smo spoznali orodje Weka Machine Learning, njegove funkcije in kako prenesti, namestiti in uporabljati programsko opremo Weka Machine Learning.
WEKA je knjižnica algoritmov strojnega učenja za reševanje problemov rudarjenja podatkov na resničnih podatkih. WEKA ponuja tudi okolje za razvoj številnih algoritmov strojnega učenja. Ima nabor orodij za izvajanje različnih nalog rudarjenja podatkov, kot so razvrščanje podatkov, združevanje podatkov v skupine, regresija, izbira atributov, pogosto rudanje naborov elementov itd.
Vse te naloge lahko izvedete na datoteki sample.ARFF, ki je na voljo v odlagališču WEKA, ali pa uporabniki lahko pripravijo svoje podatkovne datoteke. Vzorčne datoteke .arff so nabori podatkov, ki imajo vgrajene pretekle podatke, ki so jih zbrali raziskovalci.
=> Preberite celotno serijo usposabljanja za strojno učenje
V tej vadnici bomo v WEKA videli nekaj vzorčnih naborov podatkov in izvedli tudi rudarjenje podatkov algoritma drevesa odločitev z uporabo nabora podatkov weather.arff.
Kaj se boste naučili:
Raziskovanje nabora podatkov WEKA
Orodje za strojno učenje WEKA ponuja imenik nekaterih vzorčnih naborov podatkov. Te nabore podatkov je mogoče neposredno naložiti v WEKA, da lahko uporabniki takoj začnejo razvijati modele.
Nabore podatkov WEKA je mogoče raziskati na povezavi “C: Program Files Weka-3-8 data”. Nabori podatkov so v obliki .arff.
Vzorčni nabori podatkov WEKA
Nekateri vzorčni nabori podatkov, prisotni v WEKA, so navedeni v spodnji tabeli:
Št. | Vzorčni nabori podatkov |
---|---|
7. | diabetes.arff |
1. | letalska družba.arff |
2. | rak dojke.arff |
3. | kontaktna leča.arff |
Štiri. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | kredit-g.arff |
8. | steklo.arf |
9. | hipotiroid.arf |
10. | ionospehre.arff |
enajst. | iris.2D.arff |
12. | iris.arff |
13. | dela.arff |
14. | ReutersCorn-train.arff |
petnajst. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segment-izziv.arff |
19. | segment-test.arff |
dvajset. | soja.arf |
enaindvajset. | supermarket.arff |
22. | neuravnotežen.arff |
2. 3. | glas.arff |
24. | weather.numeric.arff |
25. | vreme.nominal.arff |
Oglejmo si nekaj od tega:
kontaktna leča.arff
Nabor podatkov contact-lens.arff je baza podatkov za vgradnjo kontaktnih leč. Daroval ga je donator Benoit Julien leta 1990.
Baza podatkov: Ta baza podatkov je popolna. Primeri, uporabljeni v tej bazi podatkov, so popolni in brez hrupa. Baza podatkov vsebuje 24 primerkov in 4 atribute.
Lastnosti: Vsi štirje atributi so nominalni. Manjkajo vrednosti atributov. Štirje atributi so naslednji:
# 1) Starost pacienta: Atribut starost ima lahko vrednosti:
- mlad
- predbiobiotika
- presbiopična
#two) Recept za očala: Ta atribut ima lahko vrednosti:
- kratkovidnost
- hipermetrop
# 3) Astigmatično: ta atribut ima lahko vrednosti
- ne
- ja
# 4) Stopnja proizvodnje solz: vrednosti so lahko
- zmanjšano
- normalno
Razred: Tu so opredeljene tri oznake razredov. To so:
- bolnik mora imeti trde kontaktne leče.
- bolnik naj bo opremljen z mehkimi kontaktnimi lečami.
- pacient ne sme imeti kontaktnih leč.
Razporeditev razredov: Spodaj so navedeni primerki, ki so razvrščeni v oznake razredov:
Oznaka razreda | Število primerov | |
---|---|---|
1. | Trde kontaktne leče | 4. |
2. | Mehke kontaktne leče | 5. |
3. | Brez kontaktnih leč | petnajst |
iris.arff
Podatkovni niz iris.arff je leta 1988 ustvaril Michael Marshall. To je baza Iris Plants.
kako vrniti matriko iz metode v javi
Baza podatkov: Ta baza podatkov se uporablja za prepoznavanje vzorcev. Nabor podatkov vsebuje 3 razrede po 50 primerkov. Vsak razred predstavlja vrsto rastline perunike. En razred je linearno ločljiv od drugih 2, slednji pa niso linearno ločljivi drug od drugega. Napoveduje, kateri vrsti cvetja 3 irisa pripada opazovanje. To se imenuje večrazredni nabor podatkov za klasifikacijo.
Lastnosti: Ima 4 numerične, napovedne atribute in razred. Manjkajočih atributov ni.
Atributi so:
- dolžina čašice v cm
- širina čašic v cm
- dolžina cvetnih listov v cm
- širina cvetnih listov v cm
- razred:
- Iris Setosa
- Iris Versicolor
- Iris Virginica
Povzetek statistike:
Min | Maks | Pomeni | SD | Razredna korelacija | |
---|---|---|---|---|---|
dolžina ločilnice | 4.3 | 7.9 | 5.84 | 0,83 | 0,7826 |
širina čašic | 2.0 | 4.4 | 3.05 | 0,43 | -0,4194 |
dolžina cvetnih listov | 1.0 | 6.9 | 3.76 | 1.76 | 0,9490 (visoko!) |
širina cvetnih listov | 0,1 | 2.5 | 1.20 | 0,76 | 0,9565 (visoko!) |
Razporeditev po razredih: 33,3% za vsakega od 3 razredov
Nekateri drugi nabori podatkov:
diabetes.arff
Baza podatkov tega nabora podatkov je Pima Indians Diabetes. Ta nabor podatkov napoveduje, ali je bolnik v naslednjih 5 letih nagnjen k diabetiku. Pacienti v tem naboru podatkov so vse ženske, stare vsaj 21 let, iz indijske dediščine Pima. Ima 768 primerkov in 8 številskih atributov ter razred. To je zbirka podatkov binarne klasifikacije, pri kateri je predvidena izhodna spremenljivka nominalno sestavljena iz dveh razredov.
ionosfera.arf
To je priljubljen nabor podatkov za binarno klasifikacijo. Primer v tem naboru podatkov opisuje lastnosti radarskih vrnitev iz ozračja. Uporablja se za napovedovanje, kje ima ionosfera neko strukturo ali ne. Ima 34 numeričnih atributov in razred.
Atribut razreda je 'dober' ali 'slab', kar je napovedano na podlagi opazovanja 34 atributov. Prejeti signali se obdelujejo s funkcijo avtokorelacije, ki kot argumente upošteva časovni impulz in število impulzov.
Nabori podatkov o regresiji
Nabore regresijskih podatkov lahko prenesete s spletne strani WEKA “ Zbirke naborov podatkov '. Ima 37 regresijskih težav, pridobljenih iz različnih virov. Prenesena datoteka bo ustvarila številski / imenik z regresijskimi nabori podatkov v obliki .arff.
Priljubljeni nabori podatkov, ki so prisotni v imeniku, so: Ekonomski nabor podatkov Longley (longley.arff), nabor podatkov o cenah hiš v Bostonu (housing.arff) in nabor podatkov o spanju pri sesalcih (sleep.arff).
Poglejmo zdaj, kako prepoznati dejanske in nominalne atribute v naboru podatkov s pomočjo raziskovalca WEKA.
Kaj so resnično ovrednoteni in nominalni atributi
Realno vrednoteni atributi so numerični atributi, ki vsebujejo samo realne vrednosti. To so merljive količine. Te atribute lahko prilagodimo intervalom, na primer temperaturi ali razmerju, kot je povprečje, mediana.
Nominalni atributi predstavljajo imena ali neko predstavitev stvari. Takšni atributi niso urejeni in predstavljajo neko kategorijo. Na primer barva.
Sledite spodnjim korakom, da WEKA uporabite za prepoznavanje dejanskih vrednosti in nominalnih atributov v naboru podatkov.
# 1) Odprite WEKA in v razdelku »Aplikacije« izberite »Raziskovalec«.
#two) Izberite zavihek »Predobdelava«. Kliknite »Odpri datoteko«. Z uporabnikom WEKA lahko dostopate do vzorčnih datotek WEKA.
# 3) Izberite vhodno datoteko iz mape WEKA3.8, shranjene v lokalnem sistemu. Izberite vnaprej določeno datoteko .arff “credit-g.arff” in kliknite na “Open”.
# 4) Na levi plošči se odpre seznam atributov. Statistika izbranih atributov bo prikazana na desni plošči skupaj s histogramom.
Analiza nabora podatkov:
V levem podoknu trenutno razmerje prikazuje:
- Ime razmerja: german_credit je vzorčna datoteka.
- Primeri: 1000 število podatkovnih vrstic v naboru podatkov.
- Lastnosti: 21 atributov v naboru podatkov.
Podokno pod trenutno relacijo prikazuje ime atributov.
Na desni plošči prikaže se statistika izbranih atributov. Izberite atribut “Check_status”.
Kaže:
- Ime atributa
- Manjka: Vse manjkajoče vrednosti atributa v naboru podatkov. 0% v tem primeru.
- Izrazit: Atribut ima 4 različne vrednosti.
- Vrsta: Atribut je nominalnega tipa, torej nima nobene številske vrednosti.
- Štetje: Med 1000 primerki je v stolpec štetja zapisano štetje vsake posamezne oznake razreda.
- Histogram: Prikazala bo oznako izhodnega razreda za atribut. Oznaka razreda v tem naboru podatkov je dobra ali slaba. Obstaja 700 primerov dobrih (označenih z modro) in 300 primerov slabih (označenih z rdečo).
- Za nalepko<0, the instances for good or bad are almost the same in number.
- Za nalepko 0<= X<200, the instances with decision good are more than instances with bad.
- Podobno se pri oznaki> = 200 največ primerov zgodi dobro in nobena oznaka preverjanja nima več primerkov z dobro odločitvijo.
Za naslednji atribut »trajanje«.
Desna plošča prikazuje:
- Ime: To je ime atributa.
- Vrsta: Vrsta atributa je številčna.
- Manjkajoča vrednost: Atribut nima manjkajoče vrednosti.
- Izrazit: Ima 33 različnih vrednosti v 1000 primerkih. To pomeni, da ima v 1000 primerkih 33 različnih vrednosti.
- Edinstveno: Ima 5 edinstvenih vrednosti, ki se med seboj ne ujemajo.
- Najmanjša vrednost: Najmanjša vrednost atributa je 4.
- Najvišja vrednost: Največja vrednost atributa je 72.
- Pomeni: Mean pomeni seštevanje vseh vrednosti, deljenih s primerki.
- Standardni odklon: Stddeviacija trajanja atributov.
- Histogram: Histogram prikazuje trajanje 4 enot, največ primerov se zgodi za dober razred. Ko se trajanje poveča na 38 enot, se število primerkov zmanjša za oznake dobrega razreda. Trajanje doseže 72 enot, ki imajo samo en primerek, ki odločitev opredeli kot slabo.
Razred je klasifikacijska značilnost nominalnega tipa. Ima dve različni vrednosti: dobro in slabo. Oznaka dobrega razreda ima 700 primerkov, oznaka slabega razreda pa 300 primerkov.
Za vizualizacijo vseh atributov nabora podatkov kliknite »Visualize All«.
# 5) Če želite izvedeti samo številske atribute, kliknite gumb Filter. Od tam kliknite Izberite -> WEKA> FILTRI -> Nenadzorovani tip -> Odstrani vrsto.
Filtri WEKA imajo veliko funkcij za pretvorbo vrednosti atributov nabora podatkov, da je primeren za algoritme. Na primer numerična transformacija atributov.
Filtriranje nominalnih in realno vrednotenih atributov iz nabora podatkov je še en primer uporabe filtrov WEKA.
# 6) Na zavihku filtra kliknite RemoveType. Odpre se okno urejevalnika predmetov. Izberite attributeType »Delete numeric attributes« in kliknite V redu.
# 7) Uporabi filter. Prikazani bodo samo številski atributi.
Atribut razreda je nominalnega tipa. Razvrsti izhodne podatke in ga zato ni mogoče izbrisati. Tako se vidi s številskim atributom.
Izhod:
V naboru podatkov so opredeljeni atributi realne in nominalne vrednosti. Vizualizacija z oznako razreda je prikazana v obliki histogramov.
Weka algoritmi za klasifikacijo dreves odločanja
Zdaj bomo videli, kako uporabiti klasifikacijo drevesa odločitev na naboru podatkov weather.nominal.arff z uporabo klasifikatorja J48.
vreme.nominal.arff
To je vzorec nabora podatkov, ki je prisoten v neposredni spletni strani WEKA. Ta nabor podatkov predvideva, ali je vreme primerno za igranje kriketa. Nabor podatkov ima 5 atributov in 14 primerkov. Oznaka predavanja 'play' razvrsti izhodne podatke kot 'da' ali 'ne'.
Kaj je drevo odločanja
Odločitveno drevo je tehnika razvrščanja, ki jo sestavljajo trije sestavni deli korenskega vozla, veje (roba ali povezave) in listnega vozlišča. Root predstavlja preskusni pogoj za različne atribute, veja predstavlja vse možne rezultate, ki so lahko v testu, in vozlišča listov vsebujejo oznako razreda, ki mu pripada. Koreninsko vozlišče je na začetku drevesa, ki se imenuje tudi vrh drevesa.
J48 klasifikator
Gre za algoritem za ustvarjanje drevesa odločitev, ki ga ustvari C4.5 (razširitev ID3). Znan je tudi kot statistični klasifikator. Za razvrstitev drevesa odločitev potrebujemo bazo podatkov.
Koraki vključujejo:
# 1) Odprite raziskovalec WEKA.
#two) Izberite datoteko weather.nominal.arff v razdelku »izberite datoteko« pod možnostjo zavihka za predhodno obdelavo.
# 3) Pojdite na zavihek »Razvrsti« za razvrščanje nerazvrščenih podatkov. Kliknite gumb 'Izberi'. Med tem izberite “drevesa -> J48”. Hitro si oglejmo tudi druge možnosti v gumbu Izberi:
- Bayes: To je ocena gostote za numerične atribute.
- Meta: Gre za linearno regresijo z več odzivi.
- Funkcije: Gre za logistično regresijo.
- Leni: Samodejno nastavi entropijo mešanja.
- Pravilo: Praviloma se uči.
- Drevesa: Drevesa razvrščajo podatke.
# 4) Kliknite gumb Start. Izhod klasifikatorja bo prikazan na desni plošči. Informacije o zagonu na plošči prikažejo kot:
- Shema: Uporabljeni klasifikacijski algoritem.
- Primeri: Število podatkovnih vrstic v naboru podatkov.
- Lastnosti: Nabor podatkov ima 5 atributov.
- Število listov in velikost drevesa opisuje drevo odločanja.
- Čas, potreben za izdelavo modela: Čas za izhod.
- Popolna klasifikacija J48 obrezanega z atributi in številom primerov.
# 5) Če želite vizualizirati drevo, z desno miškino tipko kliknite rezultat in izberite vizualiziranje drevesa.
Izhod :
Rezultat je v obliki drevesa odločitev. Glavni atribut je 'obeti'.
Če so obeti sončni, nato drevo še analizira vlažnost. Če je vlaga visoka, je oznaka razreda predvajana = 'da'.
Če so obeti motni, razred, igra je 'da'. Število primerov, ki ustrezajo klasifikaciji, je 4.
Če je napoved deževna, nadaljnja razvrstitev poteka za analizo lastnosti 'vetrovno'. Če je vetrovno = res, je igra = 'ne'. Število primerov, ki upoštevajo klasifikacijo za napoved = vetrovno in vetrovno = res, je 2.
Zaključek
WEKA ponuja široko paleto vzorčnih naborov podatkov za uporabo algoritmov strojnega učenja. Uporabniki lahko na teh vzorčnih naborih podatkov izvajajo naloge strojnega učenja, kot so klasifikacija, regresija, izbira atributov, povezovanje, orodje pa se lahko naučijo tudi z njihovo uporabo.
WEKA explorer se uporablja za izvajanje več funkcij, od predobdelave. Predobdelava sprejme vhod kot datoteko .arff, obdela vhod in da izhod, ki ga lahko uporabljajo drugi računalniški programi. V programu WEKA izhodni podatki predhodne obdelave dajejo atribute v naboru podatkov, ki jih je mogoče nadalje uporabiti za statistično analizo in primerjavo z oznakami razredov.
WEKA ponuja tudi številne algoritme za razvrščanje drevesa odločitev. J48 je eden izmed priljubljenih algoritmov za razvrščanje, ki daje odločitveno drevo. Na zavihku Classify lahko uporabnik vizualizira drevo odločitev. Če je drevo odločitev preveč poseljeno, lahko obrezovanje drevesa uporabite na zavihku Predobdelava, tako da odstranite nepotrebne atribute in znova zaženete postopek razvrščanja.
=> Obiščite tukaj za ekskluzivno serijo strojnega učenja
Priporočeno branje
- Vadnica za Weka - Kako prenesti, namestiti in uporabiti orodje Weka
- Kako napisati kompleksne scenarije preizkusa poslovne logike s tehniko odločitvenih tabel
- WEKA Explorer: Vizualizacija, združevanje v skupine, rudarjenje pravil pridruževanja
- Primeri algoritma drevesa odločanja v rudarjenju podatkov
- Konstrukcije odločanja v jeziku C ++
- Struktura podatkov o drevesu B in drevesu B + v jeziku C ++
- Struktura podatkov binarnega drevesa v jeziku C ++
- Struktura podatkov drevesa in kopice AVL v jeziku C ++