oracle data warehouse
Vodnik po podatkovnem skladišču Oracle s prednostmi, arhitekturo, tveganji in primerjavo s sistemom OLTP (spletna obdelava transakcij):
V prejšnji vadnici Izčrpen vodnik po Oracle , spoznali smo Oraclove izdelke in storitve na različnih področjih, kot so aplikacije, zbirke podatkov, OS itd. Ta članek bo poglobil znanje o skladiščenju podatkov Oracle. Pred tem pa najprej razumimo koncept poslovne inteligence (BI).
Poslovna inteligenca
Business Intelligence je programska domena, ki vključuje nekatere metode, tehnologije, orodja in aplikacije, ki pomagajo pri strukturiranju, izboljšanju in pretvorbi množičnih podatkov v inteligentno in razumljivo obliko, ki jo lahko stranke uporabijo za ustvarjanje prilagojenih poročil in pomaga tudi pri poslovanju odločitve.
Na voljo so različne možnosti, kot so skladiščenje podatkov, OLAP (spletna obdelava transakcij), rudarjenje podatkov, integracija podatkov, odločanje, preglednice itd.
Skladiščenje podatkov v podjetju (EDW) je ena od temeljnih komponent BI, ki služi analitičnim potrebam podjetij in poročanju. Data Warehouse je sistem relacijskega upravljanja baz podatkov (RDBMS), ki vsebuje konsolidirane podatke, prejete iz več virov, za kasnejšo uporabo.
aplikacije Java v resničnem svetu
Kaj se boste naučili:
- Pregled skladišča podatkov Oracle
- Primerjava skladišča podatkov OLTP Vs
- Kontrastno skladišče podatkov in podatki Mart
- Pregled postopka ETL
- Arhitektura podatkovnega skladišča
- Zaključek
Pregled skladišča podatkov Oracle
Zakaj se imenuje „skladišče podatkov“?
Poskusimo se spomniti pomena besede 'skladišče', da bi se navezali na izraz 'skladišče podatkov'.
Fizično skladišče je skladišče, ki se uporablja za shranjevanje blaga, prejetega iz različnih virov, ki ga lahko kasneje kupcu dostavimo glede na njegove potrebe.
(slika vir )
Podobno je podatkovno skladišče skladišče podatkov, prejetih iz različnih izvornih sistemov. Ti viri so lahko kateri koli sistem za shranjevanje, kot so podatkovne oznake, ploščate datoteke ali katere koli medijske naprave za shranjevanje, ki vsebujejo podatke za različne domene podjetja, kot so HR, prodaja, poslovanje, upravljanje virov in trženje itd.
Namen skladišča podatkov
Podjetje je morda že slišalo za koncept podatkovnega skladišča, vendar se ne morejo prepričati, ali naj ga vključi v svoje podjetje. Kljub temu bi bilo vedno treba podatke iz različnih virov prenašati na skupna tla in jih arhivirati, da bi lahko sprostili prostor za shranjevanje iz transakcijskih sistemov. Tu postane sistem skladiščenja podatkov poslovna zahteva.
Za rast na trgu bi moralo vodstvo dobro sprejemati odločitve, ki jih je mogoče sprejeti šele po temeljitem preučevanju preteklih trendov organizacije. Arhivirani podatki se zato hranijo v podatkovnem skladišču v dobro organizirani in preračunani obliki, tako da jih je mogoče v prihodnje napotiti v poslovno analizo.
Prednosti skladiščenja podatkov
Skladišče podatkov bi lahko bilo uspešno izvedeno na naslednje načine:
# 1) Poenostavila je delovna mesta analitikov z zagotavljanjem izboljšane različice rešitev poslovne inteligence. Izvleče podatke iz več izvornih sistemov, jih preoblikuje in shrani, kar lahko podjetje neposredno zaprosi za analizo.
Ponuja tudi različna orodja, ki podpirajo naslednje:
- Ustvarjanje prilagojenih poslovnih poročil.
- Interaktivne nadzorne plošče, ki prikazujejo zahtevane informacije.
- Zmožnost vrtanja po armaturnih ploščah samo za pridobitev podrobnosti.
- Podatkovno rudarjenje in analiza trendov.
#two) Tudi po prejemu podatkov iz različnih izvornih sistemov ostanejo podatki v podatkovnem skladišču dosledni kot rezultat transformacij, ki so se zgodile med postopkom ETL. Dosledni podatki dajejo odločujočemu zaupanje glede natančnosti.
# 3) Skladišča podatkov so opredeljena tudi kot prihranek časa, saj so ključni podatki, ki jih zainteresirane strani potrebujejo za sprejemanje poslovnih odločitev, na voljo na enem mestu in jih je mogoče enostavno dobiti.
# 4) Zasnovani so tako, da hranijo zgodovinske podatke, zato jih je mogoče povpraševati za preučevanje trendov v različnih časovnih obdobjih. Prav tako pomaga zainteresiranim stranem pri iskanju prihodnje poti rasti.
Tveganja pri uporabi skladišča podatkov
Vsaka nova izvedba skupaj s koristmi vključuje tudi vrsto tveganj, za katera je treba poskrbeti.
Spodaj je navedenih nekaj tveganj:
- Nezdružljivost izvornih sistemov s sistemom za shranjevanje podatkov lahko na koncu opravi veliko ročnega dela.
- Napačna ocena časa postopka ETL lahko privede do prekinitve dela.
- To so zelo vrhunski sistemi za shranjevanje, zato jih je treba zelo vzdrževati. Kakršen koli potek dela ali poslovne spremembe lahko stanejo zelo visoko.
- Vzpostavitev podatkovnega skladišča je dolgotrajen proces, saj potrebuje veliko časa za razumevanje poslovnih tokov in prepoznavanje integracijskih zmožnosti za načrtovanje skladišča.
- Varnost podatkov je tu vedno tveganje, saj vsebuje starodavne zgodovinske podatke, ki lahko, če pride do uhajanja, vplivajo na poslovanje.
Primerjava skladišča podatkov OLTP Vs
Razlike med OLTP in Data Warehouseom lahko razberemo iz spodnje tabele.
OLTP | Skladiščenje podatkov |
---|---|
Vstavljanje in posodobitve so glavne operacije, ki jih končni uporabniki izvajajo v sistemih OLTP. | Skladišča podatkov se večinoma iščejo z uporabo stavka SELECT in jih je mogoče posodobiti samo s storitvami ETL. |
Sistemi OLTP podpirajo poslovne transakcije. | Data Warehouse podpira poslovne odločitve, sprejete po analizi zaključenih poslovnih transakcij. |
Podatki ostanejo nestanovitni, tj. Se še naprej spreminjajo | Podatkov naj ne bi spreminjali. |
Vsebujejo najnovejše podatke. | Imajo zgodovinske podatke. |
Hrani neobdelane podatke brez kakršnih koli izračunov. | Vsebuje strnjene in dobro izračunane podatke. |
Podatki bodo normalizirani. | Podatki bodo ostali normalizirani. |
Velikost baze podatkov Oracle se lahko razlikuje od 50 MB do 100 GB. | Velikost baze podatkov Oracle se lahko giblje od 100 GB do 2 TB. |
Kontrastno skladišče podatkov in podatki Mart
Data Warehouse in DataMart, nista oba izraza podobna in se zdita povezana s shranjevanjem podatkov.
Da, povezani so in oba se uporabljata za shranjevanje podatkov. Glavna razlika med obema je sposobnost hrambe podatkov in ta razlika končnim uporabnikom pomaga, da izberejo pravo pomnilniško enoto za svoj sistem.
kako razviti programsko opremo za umetno inteligenco
Data Mart ima manj zmogljivosti za shranjevanje podatkov v primerjavi s podatkovnim skladiščem, zato ga lahko štejemo za njegovo podskupino. Podatkovne oznake so ponavadi identificirane za shranjevanje omejenih podatkov, ki bi lahko bili določenega oddelka ali področja poslovanja, medtem ko lahko podatkovna skladišča shranijo konsolidirane podatke za vse.
Vzemimo primer spletnega mesta za e-poslovanje, ki vsebuje različne kategorije blaga, kot so moda, dodatki, izdelki za gospodinjstvo, knjige in šolski pripomočki, elektronski aparati itd.
Podatkovne oznake so torej lahko zasnovane tako, da pametno shranjujejo kategorijo podatkov o izdelkih, medtem ko lahko podatkovna skladišča na enem mestu shranjujejo celotne podatke o spletnih mestih, vključno z zgodovino.
Podatkovni pasovi so manjši in jih je mogoče ustvariti veliko hitreje brez večje analize, ki je potrebna za načrtovanje podatkovnega skladišča. Vendar si je treba veliko prizadevati, da se več podatkovnih pasov sinhronizira, da se ohrani doslednost podatkov.
Pregled postopka ETL
ETL (pridobivanje, preoblikovanje in nalaganje) je postopek pridobivanja podatkov iz različnih izvornih sistemov, njihovo preoblikovanje in nalaganje v sistem Data Warehouse. To je zapleten postopek, ki mora sodelovati z različnimi izvornimi sistemi za pridobivanje podatkov in s tem tudi tehnično zahteven.
Za preoblikovanje je spet treba veliko analizirati, da bi razumeli obliko izvornih sistemov in podatke pripeljali v skupno obliko, tako da je mogoče iste podatke shraniti v podatkovno skladišče.
Postopek ETL je ponavljajoča se naloga, ki se lahko izvaja dnevno, tedensko ali celo mesečno, odvisno od poslovnih zahtev.
Arhitektura podatkovnega skladišča
Razumejmo arhitekturo skladišča podatkov, ki je v glavnem zasnovano za shranjevanje izpopolnjenih podatkov za vnaprej določene poslovne zahteve. Arhitektura je sestavljena iz 5 komponent s pretokom podatkov od zgoraj navzdol.
Sestavni deli so naslednji:
- Viri podatkov
- Stopnjevanje podatkov
- Skladišče podatkov (shranjevanje podatkov)
- Data March (shranjevanje podatkov)
- Predstavitev podatkov
Dovolite nam, da razumemo vse stopnje, navedene zgoraj, eno po eno.
# 1) Viri podatkov
Obstajajo različni izvorni sistemi, ki delujejo kot vhod v sisteme podatkovnih skladišč.
Ti izvorni sistemi so lahko:
- Relacijske zbirke podatkov, kot so Oracle, DB2, MySQL, MS Access itd., Ki se lahko uporabljajo za beleženje dnevnih transakcij katere koli organizacije. Te dnevne poslovne transakcije so lahko povezane z ERP, CRM, prodajo, financami in trženjem itd.
- Ploščate datoteke
- Spletne storitve
- Viri RSS in podobni viri.
# 2) Stopnjevanje podatkov
Ko so viri podatkov vzpostavljeni, je naslednji korak izvlečenje teh podatkov iz izvornih sistemov v območje skladiščenja skladišča.
Ker so bili podatki pridobljeni iz različnih sistemov, ki sledijo različnim formatom shranjevanja, je treba podatke prestrukturirati tako, da jih pripeljejo v skupno obliko. Zato je preoblikovanje podatkov naslednji korak.
Med preoblikovanjem pride do čiščenja podatkov, ki vključuje uporabo poslovnih pravil, filtriranje podatkov, odstranjevanje odvečnih delov, oblikovanje podatkov, razvrščanje podatkov itd.
# 3) Skladišče podatkov (shranjevanje podatkov)
Ko so podatki izvlečeni in transformirani, se naložijo v večdimenzionalno okolje, tj. Data Warehouse. Zdaj lahko te obdelane podatke končni uporabniki uporabljajo za analizo in druge namene.
# 4) Podatkovne oznake (shranjevanje podatkov)
Kot smo že omenili, da so končni uporabniki zdaj pripravljeni na porabo, je kot naslednji korak neobvezen postopek ustvarjanja podatkovnih oznak. Te podatkovne polja se lahko uporabljajo za shranjevanje strnjenih podatkov določenega oddelka ali poslovnega področja za namensko uporabo.
Na primer, ločene podatkovne oznake lahko dodate za oddelke, kot so prodaja, finance in trženje itd., kot naslednji korak, ki bo vseboval določene podatke in bo analitiku omogočil podrobna poizvedbe za poslovne potrebe. Prav tako preprečuje vsakemu končnemu uporabniku dostop do celotnega skladišča in s tem zagotavlja varnost podatkov.
# 5) Orodja za dostop do podatkov (predstavitev podatkov)
vprašanje in odgovor na razgovor za tehnično podporo
Obstajajo številna vnaprej določena orodja za poslovno inteligenco, ki jih lahko uporabniki uporabljajo za dostop do podatkovnih skladišč ali podatkovnih točk. Ta front-end orodja so zasnovana na zelo uporabniku prijazen način, saj uporabnikom omogočajo različne možnosti dostopa do podatkov.
Spodaj so navedene možnosti:
- Z uporabo poizvedbe za Oracle ali katero koli drugo bazo podatkov neposredno prek SQL.
- Ustvarjanje poročil.
- Razvoj aplikacije.
- Uporaba orodij za pridobivanje podatkov itd.
Nekaj priljubljenih skladiščnih orodij, ki so na voljo na trgu, so:
- Analytix DS
- Amazon Redshift
- Programska oprema Ab Initio
- Code Futures
- Celovito upravljanje podatkov
- Korporacija za informatiko
Skladiščenje podatkov v oblaku
Skladišča podatkov svet pretirano priznava. Naslednje vprašanje, ki se pojavi: Ali uporabljamo optimiziran pristop za uvajanje skladišč podatkov?
Nato je bilo uvedeno skladiščenje podatkov v oblaku, ki ima prednost pri skladiščenju podatkov v podjetju (EDW). Koncept podatkovnih skladišč v oblaku ponuja različne prednosti.
Ti so naslednji:
(i) Razširljivost: Podatke v oblačnih sistemih je enostavno razširiti navzgor in navzdol, brez težav, medtem ko poraba veliko časa in sredstev porabi za skaliranje v tradicionalnih podatkovnih skladiščih.
(ii) Prihranek stroškov: Podatkovna skladišča v oblaku so bistveno vplivala na naložbo, potrebno za nastavitev skladišča. Znižali so večji vnaprejšnji strošek z odpravo stroškov
-
- Vzdrževanje strojne / strežniške sobe.
- Osebje, potrebno za vzdrževanje.
- Drugi operativni stroški.
(iii) Uspešnost: Zmogljivost je še en dejavnik, ki je sistemom v oblaku omogočil prevlado nad tradicionalnimi. Če se podjetje širi po vsem svetu in je do podatkov treba dostopati z različnih koncev sveta s hitrejšim preobratom, je najbolje uporabiti skladišča v oblaku.
Masivno paralelna obdelava (MPP) je ena od metod skupne obdelave, ki jo skladišča uporabljajo za dosego istega.
(iv) Povezljivost: Kot je bilo omenjeno zgoraj, če je treba do podatkov dostopati z več geografskih lokacij, uporabniki potrebujejo odlično povezavo s temi skladišči, skladišče v oblaku pa ponuja enako.
Zaključek
Upamo, da ste vsi po branju zgornjega članka dobili pošteno predstavo o sistemu skladiščenja podatkov Oracle. Sporočite nam, če potrebujete kakšen vpogled v določeno temo glede skladiščenja podatkov, da bomo to lahko zajeli v prihodnjih vajah.
PREV Vadnica | NASLEDNJA Vadnica
Priporočeno branje
- Kaj je podatkovno jezero | Skladišče podatkov v primerjavi s podatkovnim jezerom
- Vadnica za testiranje skladišča podatkov s primeri | Vodič za preizkušanje ETL
- 10 najbolj priljubljenih orodij za shranjevanje podatkov in preskusne tehnologije
- Dimenzijski podatkovni model v skladišču podatkov - Vadnica s primeri
- Metapodatki v podatkovnem skladišču (ETL), pojasnjeni s primeri
- Vadnica za testiranje skladišča podatkov ETL (popoln vodnik)
- Vrste shem pri modeliranju skladišča podatkov - shema Star & SnowFlake
- Kaj je postopek ETL (ekstrakt, pretvorba, nalaganje) v skladišču podatkov?