big data tutorial beginners what is big data
Ta vadnica pojasnjuje vse o osnovah velikih podatkov. Vadnica vključuje prednosti, izzive, tehnologije in orodja skupaj z aplikacijami velikih podatkov:
V tem digitalnem svetu s tehnološkim napredkom si dnevno izmenjujemo velike količine podatkov, kot smo jih Terabajti ali Petabajti .
Če si dnevno izmenjujemo to količino podatkov, jo moramo tudi ohraniti in nekje shraniti. Rešitev za obdelavo velikih količin podatkov z visoko hitrostjo in različno raznolikostjo je Veliki podatki.
Lahko obdeluje zapletene podatke, ki prihajajo iz več virov, kot so različne zbirke podatkov, spletna mesta, pripomočki itd. Prav tako lahko poveže in poveže podatke, ki prihajajo iz različnih virov. Resnično omogoča hitrejši dostop do podatkov ( Na primer, socialni mediji).
Seznam vadnic v tej veliki podatkovni seriji
Vadnica št. 1: Kaj so veliki podatki? (Ta vadnica)
Vadnica # 2: Kaj je Hadoop? Vadnica Apache Hadoop za začetnike
Vadnica št. 3: Hadoop HDFS - Hadoop porazdeljeni datotečni sistem
Vadnica # 4: Vodnik po arhitekturi Hadoop in HDFS
Vadnica št. 5: Hadoop MapReduce Vadnica s primeri | Kaj je MapReduce?
Vadnica # 6: Vadnica Apache Hadoop YARN za začetnike | Kaj je preja?
Vadnica št. 7: Celovita vaja za preizkušanje Hadoop | Priročnik za preizkušanje velikih podatkov
Kaj se boste naučili:
Kaj so veliki podatki?
Beseda Ogromno ni dovolj za razlago BigData, nekatere značilnosti razvrščajo podatke v BigData.
Imamo tri glavne značilnosti BigData in če kateri koli podatek izpolnjuje te značilnosti, bo obravnavan kot BigData. jaz t je kombinacija treh spodaj omenjenih V:
- Glasnost
- Hitrost
- Raznolikost
Glasnost : Podatki naj bodo ogromni. Big Data ima rešitev za vzdrževanje velike količine podatkov, ki so v terabajtu ali petabajtu. Operacije CRUD (ustvarjanje, branje, posodabljanje in brisanje) lahko na BigData izvajamo enostavno in učinkovito.
Hitrost : Odgovoren je za hitrejši dostop do podatkov. Na primer, Dandanes družbeni mediji v kratkem času potrebujejo hitro izmenjavo podatkov in BigData je za to najboljša rešitev. Zato je hitrost še ena značilnost in je hitrost obdelave podatkov.
Raznolikost : V družabnih medijih imamo opravka z nestrukturiranimi podatki, kot so avdio ali video posnetki, slike itd. Tudi različni sektorji, kot je bančna domena, potrebujejo strukturirane in polstrukturirane podatke. BigData je rešitev za vzdrževanje obeh vrst podatkov na enem mestu.
Raznolikost pomeni različne vrste podatkov, kot so strukturirani / nestrukturirani podatki, ki prihajajo iz več virov.
Strukturirani podatki : Podatki, ki imajo pravilno strukturo ali tisti, ki jih je mogoče enostavno shraniti v obliki tabele v kateri koli relacijski bazi podatkov, kot so Oracle, SQL Server ali MySQL, so znani kot strukturirani podatki. Lahko ga obdelamo ali analiziramo enostavno in učinkovito.
Primer strukturiranih podatkov so podatki, shranjeni v relacijski bazi podatkov, ki jih je mogoče upravljati s pomočjo SQL (jezik strukturiranih poizvedb). Na primer, Podatke o zaposlenih (ime, ID, oznaka in plača) lahko shranite v obliki tabele.
V tradicionalni zbirki podatkov lahko izvajamo operacije ali obdelujemo nestrukturirane ali polstrukturirane podatke šele potem, ko so formatirani ali se prilegajo relacijski bazi podatkov. Primeri strukturiranih podatkov so ERP, CRM itd.
Polstrukturirani podatki: Polstrukturirani podatki so podatki, ki niso v celoti oblikovani. Ni shranjena v podatkovnih tabelah ali kateri koli zbirki podatkov. A vseeno ga lahko enostavno pripravimo in obdelamo, saj ti podatki vsebujejo oznake ali vrednosti, ločene z vejico itd. Primer polstrukturiranih podatkov so datoteke XML, datoteke CSV itd.
Nestrukturirani podatki: Nestrukturirani podatki so podatki, ki nimajo nobene strukture. Lahko je v kakršni koli obliki, vnaprej določenega podatkovnega modela ni. Ne moremo ga shraniti v tradicionalnih zbirkah podatkov. Iskanje in obdelava je zapletena.
Tudi obseg nestrukturiranih podatkov je zelo velik. Primer nestrukturiranih podatkov je telo e-pošte, zvok, video, slike, doseženi dokumenti itd.
Izzivi tradicionalnih zbirk podatkov
- Tradicionalna zbirka podatkov ne podpira različnih podatkov, torej ne more obdelati nestrukturiranih in polstrukturiranih podatkov.
- Tradicionalna baza podatkov je počasna, medtem ko se ukvarja z veliko količino podatkov.
- V tradicionalnih zbirkah podatkov je obdelava ali analiza velike količine podatkov zelo težka.
- Tradicionalna baza podatkov lahko shranjuje podatke v terabajtih ali petabajtih.
- Tradicionalna zbirka podatkov ne more obdelovati zgodovinskih podatkov in poročil.
- Po določenem času je potrebno čiščenje podatkovne baze.
- Stroški vzdrževanja velike količine podatkov so pri tradicionalni bazi podatkov zelo visoki.
- Natančnost podatkov je v tradicionalni zbirki podatkov manjša, saj v njej ne obstajajo popolni zgodovinski podatki.
Veliki podatkiPrednosti v primerjavi s tradicionalno bazo podatkov
- Big Data je odgovoren za obdelavo, upravljanje in obdelavo različnih vrst podatkov, kot so strukturirani, polstrukturirani in nestrukturirani.
- Je stroškovno učinkovit v smislu vzdrževanja velike količine podatkov. Deluje na sistemu porazdeljene baze podatkov.
- S tehnikami BigData lahko dolgo časa shranjujemo velike količine podatkov. Tako je enostavno ravnati s preteklimi podatki in ustvarjati natančna poročila.
- Hitrost obdelave podatkov je zelo hitra, zato družbeni mediji uporabljajo tehnike velikih podatkov.
- Natančnost podatkov je velika prednost Big Data.
- Uporabnikom omogoča, da na podlagi trenutnih in preteklih podatkov sprejemajo učinkovite odločitve za svoje podjetje.
- Ravnanje z napakami, nadzor različic in izkušnje strank so v storitvi BigData zelo učinkoviti.
Predlagano branje => Big Data vs Big Data Analytics vs Data Science
vprašanja in odgovori za intervju za perl pdf
Izzivi in tveganja v BigData
Izzivi:
- Eden največjih izzivov pri velikih podatkih je upravljanje velikih količin podatkov. Danes podatki prihajajo v sistem iz različnih virov z raznolikostjo. Zato je zelo velik izziv za podjetja, da ga pravilno vodijo. Na primer, če želite ustvariti poročilo, ki vsebuje podatke o zadnjih 20 letih, je treba shraniti in vzdrževati zadnjih 20 let podatkov sistema. Za natančno poročilo je treba v sistem vnesti le ustrezne podatke. Ne sme vsebovati nepomembnih ali nepotrebnih podatkov, sicer bo vzdrževanje te količine podatkov velik izziv za podjetja.
- Drugi izziv te tehnologije je sinhronizacija različnih vrst podatkov. Kot vsi vemo, Big Data podpira strukturirane, nestrukturirane in polstrukturirane podatke, ki prihajajo iz različnih virov, je njihovo sinhroniziranje in doslednost podatkov zelo težko.
- Naslednji izziv, s katerim se podjetja soočajo, je pomanjkanje strokovnjakov, ki lahko pomagajo in uresničijo težave, s katerimi se srečujejo v sistemu. Na tem področju obstaja velika vrzel v talentih.
- Obravnavanje vidika skladnosti je drago.
- Zbiranje, združevanje, shranjevanje, analiza in poročanje podatkov BigData ima ogromne stroške. Organizacija bi morala biti sposobna obvladovati vse te stroške.
Tveganja:
- Obvladuje lahko različne podatke, vendar če podjetja ne morejo pravilno razumeti zahtev in nadzorovati vira podatkov, bo to omogočilo napačne rezultate. Posledično bo treba veliko časa in denarja za raziskovanje in popravljanje rezultatov.
- Varnost podatkov je še eno tveganje pri BigData. Z veliko količino podatkov obstaja večja verjetnost, da jih bo kdo ukradel. Podatkovni hekerji lahko ukradejo in prodajo pomembne informacije (vključno s preteklimi podatki) podjetja.
- Zasebnost podatkov je še eno tveganje za BigData. Če želimo zaščititi osebne in občutljive podatke pred hekerji, jih je treba zaščititi in morajo izpolnjevati vse pravilnike o zasebnosti.
Tehnologije velikih podatkov
Sledijo tehnologije, ki se lahko uporabljajo za upravljanje velikih podatkov:
- Apache Hadoop
- Microsoft HDInsight
- Brez SQL
- Panj
- Sqoop
- BigData v Excelu
Podroben opis teh tehnologij bo zajet v naslednjih vajah.
Orodja za uporabo konceptov velikih podatkov
Spodaj so navedena odprtokodna orodja, ki lahko pomagajo uporabljati koncepte velikih podatkov:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
java posreduje matriko metodi po vrednosti
# 6) MongoDB
# 7) HPCC sistem BigData
Aplikacije velikih podatkov
Sledijo domene, kjer se uporablja:
- Bančništvo
- Mediji in zabava
- Izvajalci zdravstvenega varstva
- Zavarovanje
- Izobraževanje
- Trgovina na drobno
- Predelovalne dejavnosti
- Vlada
Skladišče BigData in podatkov
Skladišče podatkov je osnovni koncept, ki ga moramo razumeti, preden razpravljamo o testiranju Hadoop ali BigData.
Razumimo skladišče podatkov na primeru v realnem času. Na primer , obstaja podjetje, ki je ustanovilo svoje podružnice v treh različnih državah, predpostavimo podružnico v Indiji, Avstraliji in na Japonskem.
V vsaki podružnici so celotni podatki o strankah shranjeni v lokalni zbirki podatkov. Te lokalne zbirke podatkov so lahko običajni klasični RDBMS, kot so Oracle ali MySQL ali SQL Server itd., In vsi podatki o strankah bodo v njih shranjeni vsak dan.
Zdaj želi organizacija vsako četrtletje, polletje ali letno analizirati te podatke za poslovni razvoj. Da bi storila enako, bo organizacija zbrala vse te podatke iz več virov, nato pa jih zbrala na enem mestu in to mesto se pokliče 'Podatkovno skladišče'.
Podatkovno skladišče je neke vrste baza podatkov, ki vsebuje vse podatke, pridobljene iz več virov ali več vrst baz podatkov skozi 'ETL' (kar je JE xtract, T ransform in L oad) postopek. Ko so podatki pripravljeni v skladišču podatkov, jih lahko uporabimo za analitične namene.
Torej lahko za analizo ustvarimo poročila iz podatkov, ki so na voljo v skladišču podatkov. Z orodji za poslovno obveščanje lahko ustvarite več grafikonov in poročil.
Skladišče podatkov potrebujemo za analitične namene za rast poslovanja in sprejemanje ustreznih odločitev za organizacije.
V tem postopku se dogajajo tri stvari, najprej je, da smo podatke povlekli iz več virov in jih postavili na eno lokacijo, ki je Skladišče podatkov.
Tu uporabljamo postopek 'ETL', zato ga bomo med nalaganjem podatkov iz več virov na enem mestu uporabili v koreninah preoblikovanja, nato pa bomo tukaj lahko uporabili različne vrste orodij ETL.
Ko so podatki pripravljeni v podatkovno skladišče, lahko z orodji za poslovno inteligenco (BI) ali pa jih poimenujemo tudi orodja za poročanje, ustvarimo različna poročila za analizo poslovnih podatkov. Orodja, kot sta Tableau ali Cognos, lahko uporabite za ustvarjanje poročil in nadzornih plošč za analizo podatkov za podjetja.
OLTP IN OLAP
Razumejmo, kaj sta OLTP in kaj OLAP?
Pokličejo se zbirke podatkov, ki se vzdržujejo lokalno in se uporabljajo za transakcijske namene OLTP, tj. Obdelava spletnih transakcij. Vsakodnevne transakcije bodo tukaj shranjene in takoj posodobljene, zato smo jih poimenovali sistem OLTP.
Tu uporabljamo tradicionalne zbirke podatkov, imamo več tabel in obstajajo odnosi, zato je vse načrtno načrtovano glede na bazo podatkov. Teh podatkov ne uporabljamo v analitične namene. Tu lahko uporabimo klasične baze podatkov RDMBS, kot so Oracle, MySQL, SQL Server itd.
Ko pridemo do dela Data Warehouse, uporabimo Teradata ali Hadoop Systems, ki sta prav tako nekakšna baza podatkov, vendar se podatki v DataWarehouse običajno uporabljajo v analitične namene in se imenujejo OLAP ali Spletna analitična obdelava.
Tu se lahko podatki posodabljajo četrtletno, polletno ali letno. Včasih se podatki posodobijo tudi »Offerly«, pri čemer »Offerly« pomeni, da se podatki posodobijo in pridobijo za analizo na zahteve kupca.
Prav tako se podatki za analizo ne posodabljajo vsak dan, ker bomo podatke dobivali iz več virov, in sicer po urniku in lahko izvedemo to nalogo ETL. Tako deluje spletni analitični sistem za obdelavo.
Tudi tu lahko orodja BI ali orodja za poročanje ustvarjajo poročila, pa tudi nadzorne plošče, na podlagi tega pa se bodo poslovneži odločali za izboljšanje svojega poslovanja.
Kje se BigData pojavlja v sliki?
BigData so podatki, ki presegajo zmogljivosti shranjevanja in obdelave običajnih zbirk podatkov in so v strukturirani in nestrukturirani obliki, zato jih lokalni sistemi RDBMS ne morejo obdelati.
Tovrstni podatki se bodo ustvarjali v TeraBytes (TB) ali PetaBytes (PB) ali pozneje in se v današnjem času hitro povečujejo. Obstaja več virov za pridobivanje tovrstnih podatkov, kot so Facebook, WhatsApp (ki so povezani s socialnimi omrežji); Amazon, Flipkart v zvezi z e-poslovanjem; Gmail, Yahoo, Rediff, povezani z e-pošto in Googlom ter drugimi iskalniki. Bigdata dobimo tudi iz mobilnih telefonov, kot so podatki SMS, snemanje klicev, dnevniki klicev itd.
Zaključek
Veliki podatki so rešitev za učinkovito in varno obdelavo velikih količin podatkov. Odgovorna je tudi za vzdrževanje zgodovinskih podatkov. Prednosti te tehnologije so številne, zato želi vsako podjetje preiti na velike podatke
Avtor: Vaishali Tarey, tehnični vodja @ Syntel
Priporočeno branje
- Data Mart Vadnica - Vrste, primeri in izvedba Data Mart
- 10 najboljših orodij za oblikovanje zbirk podatkov za izdelavo kompleksnih podatkovnih modelov
- 20+ MongoDB vadnica za začetnike: brezplačen tečaj MongoDB
- Kaj je podatkovno jezero | Skladišče podatkov v primerjavi s podatkovnim jezerom
- 10 najboljših orodij za testiranje in preverjanje strukturiranih podatkov za SEO
- Dimenzijski podatkovni model v skladišču podatkov - Vadnica s primeri
- Podatkovno rudarjenje: postopek, tehnike in glavna vprašanja pri analizi podatkov
- Kako izvesti preskušanje na podlagi podatkov v programu SoapUI Pro - Vadnica SoapUI št. 14