data mart tutorial types
Ta vadnica razlaga koncepte Data Mart, vključno z implementacijo Data Mart, vrstami, strukturo in razlikami med skladiščem podatkov in Data Martom:
V tem Popolna serija usposabljanja za skladišče podatkov , smo si ogledali različne Sheme skladišča podatkov Podrobno.
Ta vadnica vam bo pomagala podrobno spoznati koncepte Data Mart skupaj s preprostimi primeri.
Bomo videli Kaj je podatkovni mart? Kdaj potrebujemo podatkovno zbirko? Stroškovno učinkovito podatkovno vodenje, stroški podatkovnega pohoda, vrste podatkovnih zapisov, koraki pri izvedbi podatkovnega pohoda, struktura podatkovnega pohoda, kdaj je uporaben pilot Data Mart? Pomanjkljivosti Datamart in razlike med Data Warehouse in Data Mart.
Ciljna publika
- Razvijalci in preizkuševalci podatkovnega skladišča / ETL.
- Strokovnjaki za baze podatkov z osnovnim znanjem konceptov baz podatkov.
- Skrbniki baz podatkov / strokovnjaki za velike podatke, ki želijo razumeti koncepte Data warehouse / ETL.
- Diplomanti / osvežitelji, ki iščejo zaposlitve v skladišču podatkov.
Kaj se boste naučili:
- Kaj je Data Mart?
- Primerjava skladišča podatkov proti podatkom Mart
- Vrste podatkovnih oznak
- Koraki izvedbe Data Mart
- Struktura podatkovnega marca
- Kdaj je uporaben pilotni podatki?
- Pomanjkljivosti podatkov Mart
- Zaključek
Kaj je Data Mart?
Data mart je majhen del podatkovnega skladišča, ki je večinoma povezan z določeno poslovno domeno kot trženje (ali) prodaja itd.
Podatkov, shranjenih v sistemu DW, je ogromno, zato so podatkovni programi zasnovani s podmnožico podatkov, ki pripada posameznim oddelkom. Tako lahko določena skupina uporabnikov te podatke brez težav uporabi za analizo.
Za razliko od podatkovnega skladišča, ki ima veliko kombinacij uporabnikov, bo imel vsak podatkovni prostor določen nabor končnih uporabnikov. Manjše število končnih uporabnikov povzroči boljši odzivni čas.
Podatkovne oznake so dostopne tudi orodjem poslovne inteligence (BI). Podatkovni pasovi ne vsebujejo podvojenih (ali) neuporabljenih podatkov. Posodabljajo se v rednih intervalih. So predmetno usmerjene in prilagodljive zbirke podatkov. Vsaka ekipa ima pravico razvijati in vzdrževati svoje podatkovne sezname, ne da bi spreminjala podatkovno skladišče (ali) druge podatke.
Podatkovna zbirka je primernejša za mala podjetja, saj stane zelo manj kot sistem skladiščenja podatkov. Čas, potreben za izdelavo podatkovne zbirke, je prav tako krajši od časa, potrebnega za izdelavo podatkovnega skladišča.
Slikovna predstavitev več podatkovnih oznak:
Kdaj potrebujemo podatke Mart?
Glede na potrebo načrtujte in oblikujte podatkovno zbirko za svoj oddelek z vključevanjem zainteresiranih strani, ker so operativni stroški podatkovne zbirke lahko včasih visoki.
Upoštevajte spodnje razloge za izdelavo podatkovne zbirke:
- Če želite podatke razdeliti na nabor uporabniških strategij nadzora dostopa.
- Če želi določen oddelek videti rezultate poizvedbe veliko hitreje, namesto da bi skeniral ogromne podatke DW.
- Če oddelek želi, da se podatki gradijo na drugih strojnih (ali) programskih platformah.
- Če oddelek želi, da se podatki oblikujejo na način, ki ustreza njegovim orodjem.
Stroškovno ugodni podatki Mart
Stroškovno učinkovit podatkovni sistem lahko ustvarite z naslednjimi koraki:
- Ugotovite funkcionalne delitve: Podatke organizacije razdelite na posamezne podatke, ki ustrezajo zahtevam, brez kakršne koli nadaljnje organizacijske odvisnosti.
- Določite zahteve uporabniškega orodja za dostop: Na trgu so lahko različna uporabniška orodja za dostop, ki potrebujejo različne podatkovne strukture. Podatkovni pasovi se uporabljajo za podporo vsem tem notranjim strukturam, ne da bi motili podatke DW. En podatkovni mart je lahko povezan z enim orodjem glede na potrebe uporabnika. Podatkovni strežniki lahko takšnim orodjem dnevno posredujejo tudi posodobljene podatke.
- Ugotovite težave z nadzorom dostopa: Če različni segmenti podatkov v sistemu DW potrebujejo zasebnost in bi morali do njih dostopati nabor pooblaščenih uporabnikov, potem je mogoče vse take podatke premakniti v podatkovne polja.
Stroški podatkov Mart
Stroške podatkovnega marca lahko ocenimo na naslednji način:
- Stroški strojne in programske opreme: Vsak na novo dodan podatkovni tržnik bo morda potreboval dodatno strojno opremo, programsko opremo, procesorsko moč, omrežje in prostor za shranjevanje na disku za delo na poizvedbah, ki jih zahtevajo končni uporabniki. Zaradi tega je trženje podatkov draga strategija. Zato je treba proračun natančno načrtovati.
- Dostop do omrežja: Če se lokacija podatkovne zbirke razlikuje od lokacije podatkovnega skladišča, je treba vse podatke prenesti s postopkom nalaganja podatkovne zbirke. Tako je treba zagotoviti omrežje za prenos ogromnih količin podatkov, ki so lahko drage.
- Omejitve časovnega okna: Čas, potreben za postopek nalaganja podatkov, bo odvisen od različnih dejavnikov, kot so zapletenost in obseg podatkov, zmogljivost omrežja, mehanizmi prenosa podatkov itd.
Primerjava skladišča podatkov proti podatkom Mart
S. Št | Podatkovno skladišče | Data Mart |
---|---|---|
1. | Kompleksno in stane več za izvedbo. | Preprosto in ceneje za izvedbo. |
dva | Deluje na ravni organizacije za celotno podjetje. | Področje uporabe je omejeno na določen oddelek. |
3. | Poizvedovanje po DW je za poslovne uporabnike težko zaradi velike odvisnosti od podatkov. | Poizvedovanje po podatkovni zbirki je poslovnim uporabnikom enostavno zaradi omejenih podatkov. |
4. | Čas izvedbe je lahko več v mesecih ali letih. | Čas izvedbe je manjši, lahko v dneh, tednih ali mesecih. |
5. | Zbira podatke iz različnih zunanjih izvornih sistemov. | Zbira podatke iz nekaj centraliziranih sistemov DW (ali) notranjih (ali) zunanjih virov. |
6. | Sprejemajo se lahko strateške odločitve. | Sprejemajo se lahko poslovne odločitve. |
Vrste podatkovnih oznak
Podatkovne oznake so razvrščene v tri vrste, tj.odvisne, neodvisne in hibridne. Ta klasifikacija temelji na tem, kako so bile naseljene, tj. Iz podatkovnega skladišča (ali) iz katerega koli drugega vira podatkov.
Ekstrakcija, transformacija in transport (ETT) je postopek, ki se uporablja za zapolnitev podatkovnih podatkov iz katerega koli izvornega sistema.
Oglejmo si podrobno vsako vrsto !!
# 1) Odvisni podatki Mart
V odvisni podatkovni enoti podatki izvirajo iz samega obstoječega podatkovnega skladišča. To je pristop od zgoraj navzdol, ker se del prestrukturiranih podatkov v podatkovno zbirko pridobi iz centraliziranega podatkovnega skladišča.
Podatkovni trgovec lahko podatke DW uporablja logično ali fizično, kot je prikazano spodaj:
kako odpreti datoteko
- Logičen pogled: V tem primeru podatki data mart fizično niso ločeni od DW. Logično se nanaša na podatke DW prek tabel navideznih pogledov (ali).
- Fizična podskupina: V tem primeru so podatki data mart fizično ločeni od DW.
Ko je razvit eden ali več podatkovnih pasov, lahko uporabnikom dovolite dostop samo do podatkovnih pasov (ali) do podatkovnih martov in podatkovnih skladišč.
ETT je poenostavljen postopek v primeru odvisnih podatkovnih zapisov, ker uporabni podatki že obstajajo v centraliziranem DW. Natančen nabor povzetkov podatkov je treba samo premakniti na ustrezne podatkovne polja.
Slika odvisnih podatkov Mart je prikazana spodaj :
# 2) Neodvisni podatki Mart
Neodvisna podatkovna zbirka je najprimernejša za majhne oddelke v organizaciji. Tu podatki niso pridobljeni iz obstoječega skladišča podatkov. Independent data mart ni odvisen niti od DW podjetja niti od drugih podatkovnih oznak.
Neodvisni podatkovni pasovi so samostojni sistemi, pri katerih se podatki izvlečejo, preoblikujejo in naložijo iz zunanjih (ali) notranjih virov podatkov. Te je enostavno načrtovati in vzdrževati, dokler ne podpirajo preprostih poslovnih potreb pametnih oddelkov.
Z vsako fazo postopka ETT morate v primeru neodvisnih podatkovnih področij delati na podoben način kot pri obdelavi podatkov v centralizirani DW. Vendar pa je lahko število virov in podatkov, zapolnjenih na podatkovne polja, manjše.
Slikovna predstavitev Independent Data Mart :
# 3) Hibridni podatki Mart
V hibridni podatkovni zbirki so podatki integrirani tako iz DW kot iz drugih operativnih sistemov. Hibridni podatkovni sistemi so prilagodljivi z velikimi pomnilniškimi strukturami. Lahko se sklicuje tudi na druge podatke o podatkih.
Slikovna predstavitev Hybrid Data Mart:
Koraki izvedbe Data Mart
Izvedba Data Mart, ki velja za nekoliko zapleteno, je pojasnjena v spodnjih korakih:
- Oblikovanje: Ker čas, ko poslovni uporabniki zahtevajo podatkovni mart, faza načrtovanja vključuje zbiranje zahtev, ustvarjanje ustreznih podatkov iz ustreznih virov podatkov, ustvarjanje logičnih in fizičnih podatkovnih struktur in diagramov ER.
- Izdelava: Skupina bo oblikovala vse tabele, poglede, indekse itd. V sistemu data mart.
- Prebivalstvo: Podatki bodo ekstrahirani, preoblikovani in naloženi v podatkovno zbirko skupaj z metapodatki.
- Dostop do: Podatki Data Mart so na voljo za dostop končnim uporabnikom. Podatke lahko poizvedujejo za njihovo analizo in poročila.
- Upravljanje: To vključuje različne upravljavske naloge, kot so nadzor dostopa uporabnikov, natančna nastavitev zmogljivosti podatkovnega sistema, vzdrževanje obstoječih podatkovnih zapisov in ustvarjanje scenarijev za obnovitev podatkovnih podatkov, če sistem odpove.
Struktura podatkovnega marca
Struktura vsakega podatkovnega paketa je ustvarjena v skladu z zahtevo. Data Mart strukture se imenujejo zvezda. Ta struktura se bo med posameznimi podatki razlikovala.
Zvezdni priključki so večdimenzionalne strukture, ki so oblikovane s tabelami dejstev in dimenzij za podporo velikim količinam podatkov. Zvezno združevanje bo v sredini imelo tabelo z dejstvi, obdano z dimenzijskimi tabelami.
Podatki tabele dejanskih dejstev so povezani s podatki tabel dimenzij z referenco tujega ključa. Tabelo z dejstvi je lahko obdano z 20–30 dimenzijskih tabel.
Podobno kot sistem DW tudi v zvezdih tudi tabele z dejstvi vsebujejo samo številčne podatke, ustrezne besedilne podatke pa je mogoče opisati v tabelah dimenzij. Ta struktura spominja na shemo zvezd v DW.
Slikovna predstavitev strukture zvezde.
Toda podrobni podatki iz centraliziranega DW so osnova za podatke o vseh podatkovnih zbirkah. Številni izračuni bodo izvedeni na normaliziranih podatkih DW, da jih bodo pretvorili v večdimenzionalne podatke, ki bodo shranjeni v obliki kock.
To deluje podobno kot pri preoblikovanju podatkov iz starejših izvornih sistemov v normalizirane podatke DW.
Kdaj je uporaben pilotni podatki?
Pilot je mogoče razporediti v majhnem okolju z omejenim številom uporabnikov, da se zagotovi, ali je razmestitev uspešna pred polno uvedbo. Vendar to ni nujno ves čas. Ko bo namen izpolnjen, pilotne razmestitve ne bodo več uporabne.
najboljša programska oprema za nastavitev računalnika 2019
Upoštevati morate spodnje scenarije, ki priporočajo pilotno uvajanje:
- Če so končni uporabniki novi v sistemu skladišča podatkov.
- Če se končni uporabniki želijo počutiti udobno, da sami odnesejo podatke / poročila, preden gredo v proizvodnjo.
- Če končni uporabniki želijo praktično uporabo najnovejših orodij (ali) tehnologij.
- Če poslovodstvo želi prednosti videti kot dokaz koncepta, preden ga objavi kot veliko objavo.
- Če ekipa želi, če zagotovi, da vse komponente ETL (ali) infrastrukturne komponente delujejo pred izdajo.
Pomanjkljivosti podatkov Mart
Čeprav imajo podatkovni marki nekaj prednosti pred DW, imajo tudi nekatere pomanjkljivosti, kot je razloženo spodaj:
- Ustvarjene neželene podatke je težko vzdrževati.
- Podatkovne oznake so namenjene malim podjetjem. Povečanje velikosti podatkovnih zapisov bo zmanjšalo njegovo zmogljivost.
- Če ustvarjate večje število podatkovnih zapisov, bi moralo vodstvo pravilno poskrbeti za njihovo različico, varnost in zmogljivost.
- Podatkovne oznake lahko vsebujejo zgodovinske (ali) povzete (ali) podrobne podatke. Vendar se posodobitve podatkov DW in podatkov data mart morda ne bodo zgodile hkrati zaradi težav z nedoslednostjo podatkov.
Zaključek
Številne organizacije se usmerjajo k podatkovnim mestom s stališča prihranka stroškov. Zato se je ta vadnica osredotočila na tehnične vidike podatkovnih zapisov v sistemu skladišča podatkov.
Metapodatki v ETL so podrobno razloženi v naši prihajajoči vadnici.
=> Obiščite tukaj, da si ogledate serijo usposabljanja za skladiščenje podatkov za vse.
Priporočeno branje
- Vadnica za testiranje skladišča podatkov s primeri | Vodič za preizkušanje ETL
- Vrste podatkov Python
- Vrste podatkov C ++
- Dimenzijski podatkovni model v skladišču podatkov - Vadnica s primeri
- Apriorijev algoritem v rudarjenju podatkov: izvedba s primeri
- Primeri rudarjenja podatkov: najpogostejše uporabe podatkovnega rudarjenja 2021
- Osnove skladiščenja podatkov: končni vodnik s primeri
- Vadnica za preskušanje glasnosti: primeri in orodja za preizkušanje glasnosti