Kaj je Hadoop? Vadnica Apache Hadoop za začetnike

what is hadoop apache hadoop tutorial

Preizkusite Naš Instrument Za Odpravo Težav

Izberite Operacijski Sistem Izberite Program Projekcije (Neobvezno)

Opišite Svoj Problem

Ta vadnica Apache Hadoop za začetnike podrobno razlaga vse o Hadoopu za velike podatke, njegovih značilnostih, okviru in arhitekturi:

brezplačen program za varnostno kopiranje za Windows 7

V prejšnji vadnici smo podrobno razpravljali o velikih podatkih. Zdaj je vprašanje, kako lahko obdelamo in obdelamo tako velik obseg podatkov z zanesljivimi in natančnimi rezultati.

Zares obstaja odlična rešitev, ki jo ponuja Apache in jo poganja Java, tj. Hadoop Framework .

=> Preberite serijo Easy BigData Training Series.

Vadnica za Apache Hadoop

Kaj se boste naučili:

Kaj je Hadoop?
Zaključek
- Priporočeno branje

Kaj je Hadoop?

Apache Hadoop je odprtokodni okvir za upravljanje vseh vrst podatkov (strukturirani, nestrukturirani in polstrukturirani).

Kot vsi vemo, če želimo obdelati, shraniti in upravljati svoje podatke, je RDBMS najboljša rešitev. Vendar bi morali biti podatki v strukturirani obliki, da bi jih lahko obravnavali z RDBMS. Če se velikost podatkov poveča, potem RDBMS z njimi ne more ravnati in moramo redno izvajati čiščenje zbirke podatkov.

To lahko povzroči preteklo izgubo podatkov in ne more ustvariti natančnih in zanesljivih rezultatov v nekaterih panogah, kot so vremenska napoved, bančništvo, zavarovalništvo, prodaja itd. Druga težava RDBMS je, da če glavni strežnik ne deluje, lahko izgubimo pomembne podatke. podatkov in veliko trpijo.

V tej vadnici bomo videli, kako lahko rešimo te težave z Apache Hadoop.

Hadoop je porazdeljeni datotečni sistem in lahko shrani velike količine podatkov (podatki v petabajtu in terabajtu). Hitrost obdelave podatkov je tudi zelo hitra in zagotavlja zanesljive rezultate, saj ima zelo visok sistem odpornosti na napake.

Hadoop je odprtokodni programski okvir, ki temelji na Javi in podpira shranjevanje in obdelavo naborov velikih podatkov v porazdeljenem računalniškem okolju.

Hadoop temelji na konceptu grozdov z uporabo blagovne strojne opreme. Ne zahteva nobene zapletene konfiguracije, okolje Hadoop pa lahko vzpostavimo s cenejšo, preprosto in lahko konfiguracijsko strojno opremo.

Koncept grozda z enostavnimi besedami so podatki, ki so shranjeni v obliki kopiranja na več računalnikih, tako da mora biti, kadar se kakšna težava ali nesreča zgodi na enem od lokacij, kjer prebivajo podatki, podvojena kopija teh podatkov, ki je varno na voljo na drugem mestu. .

Hadoop Vs RDMBS

Spodaj je navedenih nekaj točk, ki opisujejo prednosti Hadoopa pred RDBMS.

Lastnosti	Hadoop	RDBMS
Skladiščenje	Zelo velika kapaciteta shranjevanja.	Bigdata ni mogoče shraniti.
Arhitektura	Hadoop temelji na HDFS, MapReduce in YARN.	RDBMS temelji na lastnostih ACID.
Glasnost	Zmore obdelati veliko količino podatkov.	RDBMS ne more obdelati velike količine podatkov.
Raznolikost / vrste podatkov	Lahko obdeluje strukturirane, polstrukturirane in nestrukturirane podatke, kot so video, slike, datoteke CSV, xml itd.	Obravnavajte samo strukturirane podatke.
Hitrost	Hitra obdelava velike količine podatkov.	Zelo počasno med obdelavo velike količine podatkov.
Pretočnost	Velika prepustnost.	Nizka prepustnost.
Odpornost na napake	Zelo dobro	Izgubljenih podatkov ni mogoče obnoviti, če glavni strežnik ne deluje.
Zanesljivo	Zelo zanesljivo in ustvarja natančna zgodovinska in trenutna poročila.	Ni zanesljiv v smislu Bigdata.

Funkcije Hadoop

Zdaj poznamo natančno definicijo Hadoop. Pomaknimo se korak naprej in se seznanimo s terminologijami, ki jih uporabljamo v Hadoopu, se naučimo njegove arhitekture in si oglejmo, kako natančno deluje na Bigdata.

Hadoop ogrodje temelji na naslednjih konceptih ali modulih:

Lastnosti

Hadoop PREJA
Hadoop Common
Hadoop HDFS ( H adoop D istributed F s S ystem)
Hadoop MapReduce

# 1) Hadoop PREJA: YARN pomeni „ Y. in TO noter R vir N egotiator «, ki se uporablja za upravljanje grozdne tehnologije oblaka. Uporablja se za razporejanje opravil.

# 2) Hadoop pogosti: To so podrobne knjižnice ali pripomočki, ki se uporabljajo za komunikacijo z drugimi funkcijami Hadoopa, kot so YARN, MapReduce in HDFS.

# 3) Hadoop HDFS: Distribuirani datotečni sistem se v Hadoopu uporablja za shranjevanje in obdelavo velike količine podatkov. Uporablja se tudi za dostop do podatkov iz gruče.

# 4) Hadoop MapReduce: MapReduce je glavna značilnost Hadoopa, ki je odgovorna za obdelavo podatkov v gruči. Uporablja se za razporejanje opravil in spremljanje obdelave podatkov.

Tukaj smo pravkar vključili definicijo teh funkcij, vendar bomo v naslednjih vadnicah videli podroben opis vseh teh funkcij.

Hadoop arhitektura

Naučimo se arhitekture ogrodja in poglejmo, katere komponente so v njem uporabljene. Ta okvir sledi arhitekturi master-slave v gruči.

Sledijo komponente Hadoop:

HDFS
MapReduce
PREJA

Hadoop arhitektura

To so trije pomembni sestavni deli arhitekture Hadoop. Prav tako bi morali razumeti nekatere terminologije ali koncepte arhitekture in videti, kako delujejo.

Ime vozlišče
Podatkovno vozlišče
Vozlišče sekundarnega imena
Bloki

# 1) Ime vozlišče

Name Node je glavno vozlišče v HDFS. Vsebuje metapodatke HDFS, kot so informacije o datotekah, struktura imenika, informacije o blokih in vse informacije o vozlišču podatkov itd. Ime vozlišče je odgovorno samo za dostop do podatkov ali datoteke iz odjemalca. Sledi vsem transakcijam ali spremembam v datotekah.

Deluje predvsem na dveh datotekah, tj. FsImage in EditLogs . Ime vozlišče ima JobTracker, ki vsebuje vse podrobnosti podatkovnega vozlišča, na primer, katero podatkovno vozlišče ima kakšno nalogo, koliko blokov je z vsakim podatkovnim vozliščem, srčni utrip vsakega podatkovnega vozlišča, podrobnosti načrtovanja opravil v gruči itd.

Na kratko lahko rečemo, da JobTracker vsebuje TaskTracker vsakega podatkovnega vozlišča.

# 2) Podatkovno vozlišče

Podatkovno vozlišče je podrejeno vozlišče v HDFS. Data Node je odgovoren za dejansko shranjevanje in obdelavo podatkov. Njegova glavna naloga je razdeliti opravilo na tri bloke in ga shraniti v različnih podatkovnih vozliščih. Po tem se začne obdelava podatkov.

Ima tudi TaskTracker, ki ima popolne informacije o vsakem bloku in kateri blok je odgovoren za katero nalogo, kateri bloki zaključijo nalogo itd. In po obdelavi podatkov podatke pošlje v Name Node. Vsakič, ko se podatkovno vozlišče zažene, vse informacije znova pošlje v vozlišče imena.

# 3) Vozlišče sekundarnega imena

Vozlišče sekundarnega imena se uporablja v primeru odpornosti na napake. Obstajata dva scenarija, ko Ime vozlišče ne deluje in celotna struktura Hadoop ne bo uspela, ker je vozlišče imena ena točka napake.

(i) Če se Name Node zaradi kakršne koli težave znova zažene, kot je bilo potrebno, da se znova prikaže, ker ima ogromno podatkov, potem je za obnovitev potreben čas.

(ii) V primeru zrušitve Name Node bodo vsi podatki HDFS izgubljeni in jih ne bodo mogli več obnoviti, saj je Name Node edina točka okvare. Tako je za premagovanje teh težav na voljo Sekundarno imensko vozlišče. Vsebuje tudi sliko imenskega prostora in dnevnike urejanja, ki so enaki kot vozlišče imen.

Po določenem obdobju bo kopiral sliko imenskega prostora in iz vozlišča imena posodobil dnevnike Urejanje. Tako v primeru okvare Name Node v sliko pride sekundarno vozlišče, ki se obnaša kot primarno Name Node. Zaradi tega postopka preprečuje popolno okvaro.

# 4) Bloki

Bloki so najmanjša enota v HDFS. Hadoop lahko obdela veliko količino datoteke, saj jo razdeli na majhne bloke. Lahko rečemo, da bloki niso nič drugega kot podatki velike datoteke. Velikost vsakega bloka je 128 MB. Ti bloki se shranijo v podatkovna vozlišča in obdelajo podatke.

Sestavni deli, ki se uporabljajo v Hadoopu

Zdaj pa se naučimo arhitekture Hadoopa, da bomo razumeli njegovo delovanje.

Razdeljeni datotečni sistem Hadoop (HDFS) je datotečni sistem, ki se uporablja v gruči Hadoop. Za shranjevanje podatkov Hadoop v gruči se uporablja predvsem HDFS. HDFS običajno dela na zaporedni obdelavi podatkov. Kot že vemo, temelji na arhitekturi Master-Slave.

Vsi metapodatki grozda se shranijo v imensko vozlišče v JobTrackerju, dejanski podatki pa se shranijo v podatkovno vozlišče HDFS v TaskTrackerju.

MapReduce je odgovoren za obdelavo podatkov. Kadar koli katera datoteka pride v gručo za obdelavo, jo prvo podatkovno vozlišče razdeli na bloke, vsak blok pa vsebuje 64 MB podatkov in lahko shrani 128 MB. Nato se bo vsak blok dvakrat podvojil in shranil v različna podatkovna vozlišča kjer koli v gruči.

Vse te informacije bodo poslane v vozlišče z imeni, v vozlišču z imenom pa bodo shranjene v obliki metapodatkov. Nato bo dejanska obdelava podatkov zagnala podatkovno vozlišče in vsake tri sekunde v vozlišče imena poslala srčni utrip, tako da bo ime vozlišče imelo informacije, na katerih deluje to vozlišče podatkov.

Če kdo iz podatkovnega vozlišča ne pošlje srčnega utripa, potem vozlišče imena znova ustvari kopijo tega bloka na drugem podatkovnem vozlišču in začne obdelavo.

Vse te informacije ali posnetki bodo shranjeni v FsImage, in če bo opravljena katera koli transakcija, potem urejanje dnevnika združi nove informacije in vedno hrani novo kopijo dnevnikov.

Blok, ki najprej konča nalogo, bo zajet, podatkovno vozlišče pa pošlje informacije v imensko vozlišče in imensko vozlišče bo ustrezno ukrepalo.

V celotnem tem procesu bo YARN podpiral in zagotavljal potrebna sredstva sistemu, tako da ne bo vplival na obdelavo podatkov in hitrost. Po obdelavi podatkov bodo rezultati shranjeni v HDFS za nadaljnjo analizo.

Zaključek

V tej vadnici smo izvedeli, kaj je Hadoop, razlike med RDBMS in Hadoop, Prednosti, komponente in arhitektura Hadoop.

Ta okvir je odgovoren za obdelavo velikih podatkov in njihovo analizo. Videli smo, da MapReduce, YARN in HDFS delujejo v gruči.

Opomba: Sledijo podrobnosti o konfiguraciji Name Node in Data Node. Vozlišče sekundarnega imena bo imelo enako konfiguracijo kot vozlišče imena.

Konfiguracija imenskega vozlišča:

Procesorji: 2 štirijedrna procesorja, ki delujejo pri 2 GHz
RAM: 128 GB
Disk: 6 x 1 TB SATA
Omrežje: 10 Gigabit Ethernet

Konfiguracija podatkovnega vozlišča:

Procesorji: 2 štirijedrna procesorja, ki delujejo pri 2 GHz
RAM: 64 GB
Disk: 12-24 x 1TB SATA
Omrežje: 10 Gigabit Ethernet

=> Tu si oglejte Vodnik za začetnike velikih podatkov.

Kaj je Hadoop? Vadnica Apache Hadoop za začetnike

Kaj je Hadoop?

Hadoop Vs RDMBS

Funkcije Hadoop

Hadoop arhitektura

# 1) Ime vozlišče

# 2) Podatkovno vozlišče

# 3) Vozlišče sekundarnega imena

# 4) Bloki

Zaključek

Priporočeno branje

Zanimivi Članki

Izbira Urednika

ISTQB Foundation level Exam Vzorčni članek - III

Pregled orodja za upravljanje testov TestLodge

Novi vizualizator Stonesense omogoča igranje Dwarf Fortress

Razstava Radiohead KID A MNESIA se bo odprla 18. novembra

Spider-Man 2 je osvojil devet nominacij za D.I.C.E

No Man’s Sky se s posodobitvijo Outlaws loti tihotapljenja in sončnih ladij

Cotton Fantasy prihaja na osebne računalnike pod vrhunskim japonskim naslovom

Street Fighter 6 prikazuje nadomestne kostume svojega lansiranja

Kako najeti avtomobile v Forza Motorsport

Razprodaja za konec leta PlayStation ima veliko ponudb PS4, PS3 in Vita

Pripovedna pustolovska igra Under the Waves je 'ljubezensko pismo oceanom'

Portal: Companion Collection prinaša serijo na Nintendo Switch