complete guide big data analytics
To je izčrpen vodnik za Big Data Analytics s primeri uporabe, arhitekturo, primeri in primerjavo z Big Data in Data Science:
Analitika velikih podatkov se je okrepila, ker so korporacije, kot so Facebook, Google in Amazon, vzpostavile svoje lastne paradigme porazdeljene obdelave podatkov in analitike, da bi razumele nagnjenost svojih strank k pridobivanju vrednosti iz velikih podatkov.
V tej vadnici razlagamo analitiko velikih podatkov in jo primerjamo z Big Data in Data Science. Zajeli bomo potrebne atribute, ki jih morajo podjetja imeti v svoji strategiji velikih podatkov in v metodologiji, ki deluje. Omenili bomo tudi najnovejše trende in nekatere primere uporabe podatkovne analitike.
Kot je prikazano na spodnji sliki, Google Analytics potrebuje znanje za uporabo IT veščin, poslovnih veščin in znanosti o podatkih. Analitika velikih podatkov je v središču uporabe vrednosti iz velikih podatkov in pomaga pri pridobivanju potrošnih vpogledov v organizacijo.
(slika vir )
Kaj se boste naučili:
- Kaj je analitika velikih podatkov
- Big Data Vs Big Data Analytics Vs Data Science
- Kaj bi morala imeti vsaka strategija analize velikih podatkov
- Podatkovni cevovod in postopek za podatkovno analitiko
- Arhitektura analitike velikih podatkov
- Trenutna gibanja v podatkovni analitiki
- Uporaba analitike velikih podatkov
- Pogosto zastavljena vprašanja
- Zaključek
Kaj je analitika velikih podatkov
Big Data Analytics se ukvarja z uporabo zbirke statističnih tehnik, orodij in postopkov analitike za Big Data.
Priporočeno Branje => Uvod v velike podatke
Analitika je tista, ki pomaga pri pridobivanju dragocenih vzorcev in pomembnih vpogledov iz velikih podatkov za podporo odločanju na podlagi podatkov. Zaradi pojava novih virov podatkov, kot so družbeni mediji in podatki interneta stvari, so veliki podatki in analitika postali priljubljeni.
Ta trend ustvarja področje prakse in študij, imenovano 'znanost o podatkih', ki zajema tehnike, orodja, tehnologije in procese za podatkovno rudarjenje, čiščenje, modeliranje in vizualizacijo.
Big Data Vs Big Data Analytics Vs Data Science
TO primerjava med velikimi podatki, znanostjo o podatkih in analitiko velikih podatkov je razvidno iz spodnje tabele.
Osnova | Veliki podatki | Podatkovna znanost | Analiza velikih podatkov |
---|---|---|---|
Orodja in tehnologije | Ekosistem Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Delovne vloge in spretnosti | Vzdrževanje shranjevalne infrastrukture, obdelava podatkov in znanje o Hadoopu ter njegovo povezovanje z drugimi orodji. | Preoblikovanje podatkov, podatkovno inženirstvo, premeščanje podatkov, modeliranje podatkov in vizualizacija | BI in napredna analitika, statistika, modeliranje podatkov in strojno učenje, matematične veščine, komunikacija, svetovanje. |
Oznake | Arhitekt velikih podatkov Razvijalec velikih podatkov Inženir velikih podatkov | Data Scientist Inženir strojnega učenja | Analitik velikih podatkov Poslovni analitik Inženir poslovne inteligence Specialist za poslovno analitiko Razvijalec vizualizacije podatkov Upravitelj analitike |
Pribl. Povprečna letna plača v USD | 100.000 | 90.000 | 70.000 |
Predlagano branje = >> Data Science Vs Computer Science
Kaj bi morala imeti vsaka strategija analize velikih podatkov
Dobro opredeljena, integrirana in celovita strategija prispeva in podpira dragoceno podatkovno usmerjeno odločanje v organizaciji. V tem poglavju smo našteli najpomembnejše korake, ki jih je treba upoštevati pri določanju strategije analitike velikih podatkov.
1. korak: Ocenjevanje
Ocena, ki je že usklajena s poslovnimi cilji, zahteva vključitev ključnih zainteresiranih strani, oblikovanje skupine članov s pravim naborom znanj, oceno politik, ljudi, procesov ter tehnologije in podatkovnih sredstev. Če je potrebno, lahko v ta postopek vključite stranke ocenjevanja.
2. korak: Prednostna razvrstitev
Po oceni je treba izpeljati primere uporabe, jim dati prednost s pomočjo napovedne analitike velikih podatkov, analitike na recept in kognitivne analitike. Uporabite lahko tudi orodje, kot je matrika za določanje prednostnih nalog, in nadalje filtrirate primere uporabe s pomočjo povratnih informacij in prispevkov ključnih zainteresiranih strani.
3. korak: RoadMap
V tem koraku morate ustvariti časovno omejen načrt in ga objaviti za vse. Načrt mora vsebovati vse podrobnosti o zapletenosti, sredstvih, lastnih koristih primerov uporabe in preslikanih projektih.
4. korak: Upravljanje sprememb
Izvajanje upravljanja sprememb zahteva upravljanje razpoložljivosti, celovitosti, varnosti in uporabnosti podatkov. Učinkovit program upravljanja sprememb, ki uporablja obstoječe upravljanje podatkov, spodbuja dejavnosti in člane na podlagi stalnega spremljanja.
5. korak: Desni komplet spretnosti
Ugotovitev ustreznega nabora spretnosti je ključnega pomena za uspeh organizacije med trenutnimi trendi v panogi. Zato je treba slediti pravim voditeljem in uvesti izobraževalne programe za izobraževanje kritičnih deležnikov.
6. korak: Zanesljivost, razširljivost in varnost
Pravi pristop in učinkovita strategija analitike velikih podatkov omogočata analitični postopek zanesljiv z učinkovito uporabo interpretativnih modelov, ki vključujejo načela znanosti o podatkih. Strategija analitike velikih podatkov mora že od začetka vključevati tudi vidike varnosti za močan in tesno integriran analitični plinovod.
Podatkovni cevovod in postopek za podatkovno analitiko
Pri načrtovanju cevovoda za analitiko podatkov moramo upoštevati tri temeljne vidike. Ti so naslednji:
- Vhod: Podatkovna oblika in izbira tehnologije za obdelavo temelji na osnovni naravi podatkov, tj. ali so podatki časovne vrste in kakovosti.
- Izhod: Izbira konektorjev , poročila in vizualizacija so odvisni od tehničnega znanja končnih uporabnikov in njihovih zahtev po porabi podatkov.
- Prostornina: Rešitve za skaliranje se načrtujejo glede na količino podatkov, da se prepreči preobremenitev sistema za obdelavo velikih podatkov.
Zdaj pa razpravljajmo o tipičnem postopku in fazah za plinovod za analizo velikih podatkov.
Faza 1: Zaužitje podatkov
Zaužitje podatkov je prvi in najpomembnejši korak v podatkovnem traku. Upošteva tri vidike podatkov.
- Vir podatkov - Pomembno je pri izbiri arhitekture cevovoda za velike podatke.
- Struktura podatkov - Serializacija je ključnega pomena za ohranjanje homogene strukture v cevovodu.
- Čistost podatkov - Analitika je tako dobra kot podatki brez težav, kot so manjkajoče vrednosti, odstopanja itd.
Faza 2: ETL / Skladiščenje
Naslednji pomemben modul so orodja za shranjevanje podatkov za izvajanje ETL (Extract Transform Load). Shranjevanje podatkov v ustreznem podatkovnem centru je odvisno od,
- Strojna oprema
- Strokovno znanje
- Proračun
(slika vir )
Nekaj časa preizkušena orodja za ETL / skladiščenje v podatkovnih centrih so:
- Apache Hadoop
- Apache panj
- Apache parket
- Presto Query engine
Podjetja v oblaku, kot so Google, AWS, Microsoft Azure, ta orodja ponujajo plačno in prihranijo začetne kapitalske izdatke.
Faza 3: Analitika in vizualizacija
Glede na omejitev Hadoopa pri hitrem poizvedovanju je treba uporabiti analitične platforme in orodja, ki omogočajo hitro in ad hoc poizvedovanje z zahtevano vizualizacijo rezultatov.
>> Priporočeno branje: Orodja za velike podatke
Faza 4: Spremljanje
Po vzpostavitvi infrastrukture za zaužitje, shranjevanje in analitiko z orodji za vizualizacijo je naslednji korak imeti orodja za spremljanje IT in podatkov. Tej vključujejo:
- Uporaba CPU ali GPU
- Poraba pomnilnika in virov
- Omrežja
Nekatera orodja, ki jih je vredno razmisliti, so:
- Podatkovni pes
- Grafana
Orodja za spremljanje so nepogrešljiva v cevovodu za analizo velikih podatkov in pomagajo spremljati kakovost in celovitost cevovoda.
Arhitektura analitike velikih podatkov
Spodnji arhitekturni diagram prikazuje, kako sodobne tehnologije uporabljajo nestrukturirane in strukturirane vire podatkov za obdelavo Hadoop & Map-reduce, analitične sisteme v pomnilniku in analitiko v realnem času, da prinesejo skupne rezultate za sprotno delovanje in odločanje.
(slika vir )
Trenutna gibanja v podatkovni analitiki
V tem poglavju smo našteli bistvene vidike, ki jih je treba iskati pri izvajanju ali sledenju trendom analitike velikih podatkov v industriji.
# 1) Veliki viri podatkov
Obstajajo predvsem trije viri velikih podatkov. Ti so navedeni spodaj:
- Socialni podatki: Podatki, ustvarjeni zaradi uporabe družbenih medijev. Ti podatki pomagajo pri razumevanju občutki in vedenje kupcev in je lahko koristen pri tržni analitiki.
- Strojni podatki: Ti podatki so zajeti iz industrijske opreme in aplikacij z uporabo IoT senzorjev. Pomaga pri razumevanju ljudi vedenje in daje vpogled v procesov .
- Transakcijski podatki: Ustvari se kot posledica delovanja uporabnikov brez povezave in prek spleta glede plačilnih nalogov, računov, računov itd. Večina tovrstnih podatkov potrebuje pred obdelavo in čiščenje preden ga lahko uporabimo za analitiko.
# 2) Shranjevanje podatkov SQL / NoSQL
V primerjavi s tradicionalnimi zbirkami podatkov ali RDBMS se izkaže, da so baze podatkov NoSQL boljše za naloge, potrebne za analitiko velikih podatkov.
Podatkovne zbirke NoSQL lahko že po naravi precej dobro obravnavajo nestrukturirane podatke in niso omejene na drage spremembe shem, vertikalno skaliranje in motnje lastnosti ACID.
# 3) Napovedna analitika
Predictive Analytics ponuja prilagojene vpoglede, ki vodijo organizacije, da ustvarijo nove odzive strank ali nakupe in priložnosti za navzkrižno prodajo. Organizacije uporabljajo napovedno analitiko za napovedovanje posameznih elementov na podrobnih ravneh za napovedovanje prihodnjih rezultatov in preprečevanje morebitnih težav. To se nadalje kombinira z zgodovinskimi podatki in spremeni v analitiko na recept.
Nekatera področja, na katerih se uspešno uporablja napovedna analitika za velike podatke, so poslovanje, zaščita otrok, sistemi za podporo kliničnim odločitvam, napovedovanje portfelja, napovedi na ekonomski ravni in sklepanje pogodb.
# 4) Globoko učenje
Velikih podatkov je za običajne računalnike ogromno. Izkazalo se je, da se tradicionalne tehnike strojnega učenja analize podatkov z večanjem raznolikosti in obsega podatkov izravnajo.
Analitika se sooča z izzivi glede različic formatov, močno porazdeljenih vhodnih virov, neuravnoteženih vhodnih podatkov in hitrih pretočnih podatkov, algoritmi globokega učenja pa se s takšnimi izzivi zelo učinkovito spopadajo.
Poglobljeno učenje je učinkovito uporabilo pri semantičnem indeksiranju, izvajanju diskriminacijskih nalog, semantični podobi in označevanju videoposnetkov, družbenem ciljanju ter tudi pri hierarhičnih pristopih na več ravneh na področjih prepoznavanja predmetov, označevanja podatkov, iskanja informacij in naravnega jezika obravnavati.
# 5) Podatkovna jezera
Shranjevanje različnih naborov podatkov v različnih sistemih in njihovo kombiniranje za analitiko s tradicionalnimi pristopi upravljanja podatkov se izkažeta za drago in skoraj neizvedljivo. Zato organizacije izdelujejo podatkovna jezera, ki podatke shranjujejo v njihovi surovi, izvorni obliki za učinkovito analizo.
Spodnja slika prikazuje primer podatkovnega jezera v arhitekturi velikih podatkov.
(slika vir )
Uporaba analitike velikih podatkov
Spodaj smo našteli nekaj najpogostejših primerov uporabe:
# 1) Analiza strank
Big Data Analytics je uporaben za različne namene, kot so mikro trženje, trženje z enim samim, natančnejša segmentacija in množično prilagajanje strankam podjetja. Podjetja lahko oblikujejo strategije za prilagajanje svojih izdelkov in storitev glede na nagnjenost kupcev, da prodajo ali prodajo podobno ali drugačno paleto izdelkov in storitev.
# 2) Operacijska analitika
Operativna analitika pomaga pri izboljšanju splošnega odločanja in poslovnih rezultatov z izkoriščanjem obstoječih podatkov in obogatitvijo s podatki o strojih in IoT.
Na primer, Analitika velikih podatkov v zdravstvu je omogočila soočanje z izzivi in novimi možnostmi, povezanimi z optimizacijo izdatkov za zdravstveno varstvo, izboljšanjem spremljanja kliničnih preskušanj, napovedovanjem in načrtovanjem odzivov na epidemije bolezni, kot je COVID-19.
# 3) Preprečevanje goljufij
Analitika velikih podatkov lahko prinese velike koristi, saj pomaga predvideti in zmanjšati število poskusov goljufij, predvsem v finančnem in zavarovalniškem sektorju.
Na primer, Zavarovalnice v realnem času zajemajo podatke o demografiji, zaslužku, zdravstvenih zahtevkih, odvetniških stroških, vremenu, glasovnih posnetkih stranke in opombah klicnega centra. Določene podrobnosti v realnem času pomagajo izpeljati napovedne modele, tako da zgoraj omenjene informacije združijo s preteklimi podatki za zgodnje prepoznavanje špekuliranih goljufij.
# 4) Optimizacija cen
Podjetja uporabljajo analitiko velikih podatkov za povečanje stopnje dobička z iskanjem najboljše cene na ravni izdelka in ne na ravni kategorije. Velika podjetja se jim zdijo presenetljiva, da bi dobili podrobne podrobnosti in zapletenost spremenljivk cen, ki se pri tisočih izdelkih redno spreminjajo.
Analitična strategija optimizacije cen, kot je dinamično točkovanje poslov, podjetjem omogoča, da na podlagi svojih podatkov in vpogledov na posamezne ravni poslov določijo cene grozdov izdelkov in segmentov, s katerimi lahko hitro pridobijo zahtevne stranke.
Pogosto zastavljena vprašanja
V # 1) Ali je analitika velikih podatkov dobra kariera?
Odgovor: Je dodana vrednost za vsako organizacijo, ki ji omogoča sprejemanje utemeljenih odločitev in zagotavlja prednost pred konkurenti. Premik v karieri Big Data poveča vaše možnosti, da postanete ključni odločevalec organizacije.
V # 2) Zakaj je pomembna analitika velikih podatkov?
Odgovor: Organizacijam pomaga ustvariti nove priložnosti za rast in popolnoma nove kategorije izdelkov, ki lahko združujejo in analizirajo podatke o panogi. Ta podjetja imajo veliko informacij o izdelkih in storitvah, kupcih in dobaviteljih, potrošniških željah, ki jih je mogoče zajeti in analizirati.
V # 3) Kaj je potrebno za analitiko velikih podatkov?
Odgovor: Nabor tehnologij, ki jih mora poznati dober analitik velikih podatkov, je ogromen. Če želite obvladati analitiko Big Data, potrebuje razumevanje različnih orodij, programske opreme, strojne opreme in platform. Na primer, Preglednice, poizvedbe SQL in R / R Studio ter Python so nekaj osnovnih orodij.
Na ravni podjetja so poleg Linux, Hadoop, Java, Scala, Python, Spark, Hadoop in HIVE pomembna orodja, kot so MATLAB, SPSS, SAS in Congnos.
Cilj vprašanja:
V # 4) Katera od spodnjih zbirk podatkov ni baza podatkov NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Odgovor: PostgreSQL
V # 5) Ali je Cassandra NoSQL?
- Prav
- Lažno
Odgovor: Prav
V # 6) Kaj od naštetega ni last Hadoopa?
predloga poročila o izvedbi testa v
- Odprtokodno
- Temelji na Javi
- Porazdeljena obdelava
- V realnem času
Odgovor: V realnem času
V # 7) Izberite vse dejavnosti, ki jih Data Scientist NE izvaja.
- Izdelajte modele strojnega učenja in izboljšajte njihovo zmogljivost.
- Vrednotenje statističnih modelov za potrditev analiz
- Povzemite napredne analize z uporabo orodij za vizualizacijo podatkov
- Predstavitev rezultatov tehnične analize notranjim skupinam in poslovnim strankam
Odgovor: Predstavitev rezultatov tehnične analize notranjim skupinam in poslovnim strankam
Nadaljnje branje = >> Ključne razlike med Data Analyst in Data Scientist
V # 8) Katere dejavnosti izvaja analitik podatkov?
- Očistite in uredite neobdelane podatke
- Iskanje zanimivih trendov v podatkih
- ustvarite nadzorne plošče in vizualizacije za enostavno interpretacijo
- Vse našteto
Odgovor: Vse našteto
V # 9) Kaj od naštetega izvede podatkovni inženir?
- Vključevanje novih virov podatkov v obstoječi cevovod za analitiko podatkov
- Razvoj API-jev za porabo podatkov
- spremljanje in preskušanje sistema za nadaljnje delovanje
- Vse našteto
Odgovor: Vse našteto
V # 10) Pravilno zaporedje pretoka podatkov za analitiko je
- Viri podatkov, priprava podatkov, preoblikovanje podatkov, oblikovanje algoritmov, analiza podatkov
- Viri podatkov, Preoblikovanje podatkov, Oblikovanje algoritmov, Priprava podatkov, Analiza podatkov
- Viri podatkov, oblikovanje algoritmov, priprava podatkov, preoblikovanje podatkov, analiza podatkov
- Viri podatkov, priprava podatkov, oblikovanje algoritmov, preoblikovanje podatkov, analiza podatkov
Odgovor: Viri podatkov, priprava podatkov, preoblikovanje podatkov, oblikovanje algoritmov, analiza podatkov
V # 11) Analiza podatkov je linearni postopek.
- Prav
- Lažno
Odgovor: Lažno
V # 12) Raziskovalna analiza NI
- Odgovor podrobna vprašanja o začetni analizi podatkov
- Ugotovite težave z naborom podatkov
- Razvijte skico odgovora na vprašanje
- Ugotovite, ali so podatki pravilni za odgovor na vprašanje
Odgovor: Odgovorpodrobna vprašanja o začetni analizi podatkov
V # 13) Vprašanje za napovedovanje je drugo ime, ki je dano referenčnemu vprašanju.
- Prav
- Lažno
Odgovor: Lažno
Zaključek
Obravnavali smo najpomembnejše vidike analitike velikih podatkov. Razložili smo najpogostejše primere uporabe in trende v industriji analitike velikih podatkov, da bi imeli največ koristi.
Priporočeno branje
- 7 najboljših podjetij za analizo podatkov v letu 2021 (seznam posodobljenih 2021)
- 15 najboljših orodij za velike podatke (Big Data Analytics Tools) v letu 2021
- 10 najboljših orodij za analizo podatkov za popolno upravljanje podatkov (SEZNAM 2021)
- 10 najboljših orodij za podatkovno znanost v letu 2021 za odpravo programiranja
- Vadnica za velike podatke za začetnike | Kaj so veliki podatki?
- 13 najboljših velikih podatkovnih podjetij leta 2021
- 10 najboljših orodij za modeliranje podatkov za upravljanje kompleksnih modelov
- 10+ najboljših orodij za upravljanje podatkov za izpolnitev vaših podatkovnih potreb v letu 2021