what is hadoop apache hadoop tutorial
Ta vadnica Apache Hadoop za začetnike podrobno razlaga vse o Hadoopu za velike podatke, njegovih značilnostih, okviru in arhitekturi:
brezplačen program za varnostno kopiranje za Windows 7
V prejšnji vadnici smo podrobno razpravljali o velikih podatkih. Zdaj je vprašanje, kako lahko obdelamo in obdelamo tako velik obseg podatkov z zanesljivimi in natančnimi rezultati.
Zares obstaja odlična rešitev, ki jo ponuja Apache in jo poganja Java, tj. Hadoop Framework .
=> Preberite serijo Easy BigData Training Series.
Kaj se boste naučili:
Kaj je Hadoop?
Apache Hadoop je odprtokodni okvir za upravljanje vseh vrst podatkov (strukturirani, nestrukturirani in polstrukturirani).
Kot vsi vemo, če želimo obdelati, shraniti in upravljati svoje podatke, je RDBMS najboljša rešitev. Vendar bi morali biti podatki v strukturirani obliki, da bi jih lahko obravnavali z RDBMS. Če se velikost podatkov poveča, potem RDBMS z njimi ne more ravnati in moramo redno izvajati čiščenje zbirke podatkov.
To lahko povzroči preteklo izgubo podatkov in ne more ustvariti natančnih in zanesljivih rezultatov v nekaterih panogah, kot so vremenska napoved, bančništvo, zavarovalništvo, prodaja itd. Druga težava RDBMS je, da če glavni strežnik ne deluje, lahko izgubimo pomembne podatke. podatkov in veliko trpijo.
V tej vadnici bomo videli, kako lahko rešimo te težave z Apache Hadoop.
Hadoop je porazdeljeni datotečni sistem in lahko shrani velike količine podatkov (podatki v petabajtu in terabajtu). Hitrost obdelave podatkov je tudi zelo hitra in zagotavlja zanesljive rezultate, saj ima zelo visok sistem odpornosti na napake.
Hadoop je odprtokodni programski okvir, ki temelji na Javi in podpira shranjevanje in obdelavo naborov velikih podatkov v porazdeljenem računalniškem okolju.
Hadoop temelji na konceptu grozdov z uporabo blagovne strojne opreme. Ne zahteva nobene zapletene konfiguracije, okolje Hadoop pa lahko vzpostavimo s cenejšo, preprosto in lahko konfiguracijsko strojno opremo.
Koncept grozda z enostavnimi besedami so podatki, ki so shranjeni v obliki kopiranja na več računalnikih, tako da mora biti, kadar se kakšna težava ali nesreča zgodi na enem od lokacij, kjer prebivajo podatki, podvojena kopija teh podatkov, ki je varno na voljo na drugem mestu. .
Hadoop Vs RDMBS
Spodaj je navedenih nekaj točk, ki opisujejo prednosti Hadoopa pred RDBMS.
Lastnosti | Hadoop | RDBMS |
---|---|---|
Skladiščenje | Zelo velika kapaciteta shranjevanja. | Bigdata ni mogoče shraniti. |
Arhitektura | Hadoop temelji na HDFS, MapReduce in YARN. | RDBMS temelji na lastnostih ACID. |
Glasnost | Zmore obdelati veliko količino podatkov. | RDBMS ne more obdelati velike količine podatkov. |
Raznolikost / vrste podatkov | Lahko obdeluje strukturirane, polstrukturirane in nestrukturirane podatke, kot so video, slike, datoteke CSV, xml itd. | Obravnavajte samo strukturirane podatke. |
Hitrost | Hitra obdelava velike količine podatkov. | Zelo počasno med obdelavo velike količine podatkov. |
Pretočnost | Velika prepustnost. | Nizka prepustnost. |
Odpornost na napake | Zelo dobro | Izgubljenih podatkov ni mogoče obnoviti, če glavni strežnik ne deluje. |
Zanesljivo | Zelo zanesljivo in ustvarja natančna zgodovinska in trenutna poročila. | Ni zanesljiv v smislu Bigdata. |
Funkcije Hadoop
Zdaj poznamo natančno definicijo Hadoop. Pomaknimo se korak naprej in se seznanimo s terminologijami, ki jih uporabljamo v Hadoopu, se naučimo njegove arhitekture in si oglejmo, kako natančno deluje na Bigdata.
Hadoop ogrodje temelji na naslednjih konceptih ali modulih:
- Hadoop PREJA
- Hadoop Common
- Hadoop HDFS ( H adoop D istributed F s S ystem)
- Hadoop MapReduce
# 1) Hadoop PREJA: YARN pomeni „ Y. in TO noter R vir N egotiator «, ki se uporablja za upravljanje grozdne tehnologije oblaka. Uporablja se za razporejanje opravil.
# 2) Hadoop pogosti: To so podrobne knjižnice ali pripomočki, ki se uporabljajo za komunikacijo z drugimi funkcijami Hadoopa, kot so YARN, MapReduce in HDFS.
# 3) Hadoop HDFS: Distribuirani datotečni sistem se v Hadoopu uporablja za shranjevanje in obdelavo velike količine podatkov. Uporablja se tudi za dostop do podatkov iz gruče.
# 4) Hadoop MapReduce: MapReduce je glavna značilnost Hadoopa, ki je odgovorna za obdelavo podatkov v gruči. Uporablja se za razporejanje opravil in spremljanje obdelave podatkov.
Tukaj smo pravkar vključili definicijo teh funkcij, vendar bomo v naslednjih vadnicah videli podroben opis vseh teh funkcij.
Hadoop arhitektura
Naučimo se arhitekture ogrodja in poglejmo, katere komponente so v njem uporabljene. Ta okvir sledi arhitekturi master-slave v gruči.
Sledijo komponente Hadoop:
- HDFS
- MapReduce
- PREJA
To so trije pomembni sestavni deli arhitekture Hadoop. Prav tako bi morali razumeti nekatere terminologije ali koncepte arhitekture in videti, kako delujejo.
- Ime vozlišče
- Podatkovno vozlišče
- Vozlišče sekundarnega imena
- Bloki
# 1) Ime vozlišče
Name Node je glavno vozlišče v HDFS. Vsebuje metapodatke HDFS, kot so informacije o datotekah, struktura imenika, informacije o blokih in vse informacije o vozlišču podatkov itd. Ime vozlišče je odgovorno samo za dostop do podatkov ali datoteke iz odjemalca. Sledi vsem transakcijam ali spremembam v datotekah.
Deluje predvsem na dveh datotekah, tj. FsImage in EditLogs . Ime vozlišče ima JobTracker, ki vsebuje vse podrobnosti podatkovnega vozlišča, na primer, katero podatkovno vozlišče ima kakšno nalogo, koliko blokov je z vsakim podatkovnim vozliščem, srčni utrip vsakega podatkovnega vozlišča, podrobnosti načrtovanja opravil v gruči itd.
Na kratko lahko rečemo, da JobTracker vsebuje TaskTracker vsakega podatkovnega vozlišča.
# 2) Podatkovno vozlišče
Podatkovno vozlišče je podrejeno vozlišče v HDFS. Data Node je odgovoren za dejansko shranjevanje in obdelavo podatkov. Njegova glavna naloga je razdeliti opravilo na tri bloke in ga shraniti v različnih podatkovnih vozliščih. Po tem se začne obdelava podatkov.
Ima tudi TaskTracker, ki ima popolne informacije o vsakem bloku in kateri blok je odgovoren za katero nalogo, kateri bloki zaključijo nalogo itd. In po obdelavi podatkov podatke pošlje v Name Node. Vsakič, ko se podatkovno vozlišče zažene, vse informacije znova pošlje v vozlišče imena.
# 3) Vozlišče sekundarnega imena
Vozlišče sekundarnega imena se uporablja v primeru odpornosti na napake. Obstajata dva scenarija, ko Ime vozlišče ne deluje in celotna struktura Hadoop ne bo uspela, ker je vozlišče imena ena točka napake.
(i) Če se Name Node zaradi kakršne koli težave znova zažene, kot je bilo potrebno, da se znova prikaže, ker ima ogromno podatkov, potem je za obnovitev potreben čas.
(ii) V primeru zrušitve Name Node bodo vsi podatki HDFS izgubljeni in jih ne bodo mogli več obnoviti, saj je Name Node edina točka okvare. Tako je za premagovanje teh težav na voljo Sekundarno imensko vozlišče. Vsebuje tudi sliko imenskega prostora in dnevnike urejanja, ki so enaki kot vozlišče imen.
Po določenem obdobju bo kopiral sliko imenskega prostora in iz vozlišča imena posodobil dnevnike Urejanje. Tako v primeru okvare Name Node v sliko pride sekundarno vozlišče, ki se obnaša kot primarno Name Node. Zaradi tega postopka preprečuje popolno okvaro.
# 4) Bloki
Bloki so najmanjša enota v HDFS. Hadoop lahko obdela veliko količino datoteke, saj jo razdeli na majhne bloke. Lahko rečemo, da bloki niso nič drugega kot podatki velike datoteke. Velikost vsakega bloka je 128 MB. Ti bloki se shranijo v podatkovna vozlišča in obdelajo podatke.
Zdaj pa se naučimo arhitekture Hadoopa, da bomo razumeli njegovo delovanje.
Razdeljeni datotečni sistem Hadoop (HDFS) je datotečni sistem, ki se uporablja v gruči Hadoop. Za shranjevanje podatkov Hadoop v gruči se uporablja predvsem HDFS. HDFS običajno dela na zaporedni obdelavi podatkov. Kot že vemo, temelji na arhitekturi Master-Slave.
Vsi metapodatki grozda se shranijo v imensko vozlišče v JobTrackerju, dejanski podatki pa se shranijo v podatkovno vozlišče HDFS v TaskTrackerju.
MapReduce je odgovoren za obdelavo podatkov. Kadar koli katera datoteka pride v gručo za obdelavo, jo prvo podatkovno vozlišče razdeli na bloke, vsak blok pa vsebuje 64 MB podatkov in lahko shrani 128 MB. Nato se bo vsak blok dvakrat podvojil in shranil v različna podatkovna vozlišča kjer koli v gruči.
Vse te informacije bodo poslane v vozlišče z imeni, v vozlišču z imenom pa bodo shranjene v obliki metapodatkov. Nato bo dejanska obdelava podatkov zagnala podatkovno vozlišče in vsake tri sekunde v vozlišče imena poslala srčni utrip, tako da bo ime vozlišče imelo informacije, na katerih deluje to vozlišče podatkov.
Če kdo iz podatkovnega vozlišča ne pošlje srčnega utripa, potem vozlišče imena znova ustvari kopijo tega bloka na drugem podatkovnem vozlišču in začne obdelavo.
Vse te informacije ali posnetki bodo shranjeni v FsImage, in če bo opravljena katera koli transakcija, potem urejanje dnevnika združi nove informacije in vedno hrani novo kopijo dnevnikov.
Blok, ki najprej konča nalogo, bo zajet, podatkovno vozlišče pa pošlje informacije v imensko vozlišče in imensko vozlišče bo ustrezno ukrepalo.
V celotnem tem procesu bo YARN podpiral in zagotavljal potrebna sredstva sistemu, tako da ne bo vplival na obdelavo podatkov in hitrost. Po obdelavi podatkov bodo rezultati shranjeni v HDFS za nadaljnjo analizo.
Zaključek
V tej vadnici smo izvedeli, kaj je Hadoop, razlike med RDBMS in Hadoop, Prednosti, komponente in arhitektura Hadoop.
Ta okvir je odgovoren za obdelavo velikih podatkov in njihovo analizo. Videli smo, da MapReduce, YARN in HDFS delujejo v gruči.
Opomba: Sledijo podrobnosti o konfiguraciji Name Node in Data Node. Vozlišče sekundarnega imena bo imelo enako konfiguracijo kot vozlišče imena.
Konfiguracija imenskega vozlišča:
Procesorji: 2 štirijedrna procesorja, ki delujejo pri 2 GHz
RAM: 128 GB
Disk: 6 x 1 TB SATA
Omrežje: 10 Gigabit Ethernet
Konfiguracija podatkovnega vozlišča:
Procesorji: 2 štirijedrna procesorja, ki delujejo pri 2 GHz
RAM: 64 GB
Disk: 12-24 x 1TB SATA
Omrežje: 10 Gigabit Ethernet
=> Tu si oglejte Vodnik za začetnike velikih podatkov.
Priporočeno branje
- Vadnica za velike podatke za začetnike | Kaj so veliki podatki?
- 20+ MongoDB vadnica za začetnike: brezplačen tečaj MongoDB
- Kako nastaviti Node.js preskusno ogrodje: Vadnica za Node.js
- Data Mart Vadnica - Vrste, primeri in izvedba Data Mart
- Vadnice za globinsko zasenčenje za začetnike
- Vadnica za Python za začetnike (praktično BREZPLAČNO usposabljanje za Python)
- Podatkovni okvir v programu Selenium WebDriver z uporabo Apache POI
- LoadRunnerjeva vadnica za začetnike (brezplačen 8-dnevni poglobljeni tečaj)