metadata data warehouse explained with examples
Ta vadnica razlaga vlogo metapodatkov v ETL, primere in vrste metapodatkov, skladišče metapodatkov in izzive pri upravljanju metapodatkov:
Data Mart v ETL je bilo podrobno razloženo v naši prejšnji vadnici.
Koncept metapodatkov je pri ETL zelo pomemben in ta vadnica vam bo razložila vse o metapodatkih.
Obsega vlogo metapodatkov, primere metapodatkov, pa tudi njihove vrste, skladišče metapodatkov, kako je mogoče upravljati metapodatke o skladiščenju podatkov, izzive pri upravljanju metapodatkov.
Spoznali boste tudi, kaj je ETL, ki ga vodijo metapodatki, in razliko med podatki in metapodatki.
=> Tukaj preberite serijo izobraževanj o brezplačnem skladišču podatkov.
Ciljna publika
- Razvijalci in preizkuševalci podatkovnega skladišča / ETL.
- Strokovnjaki za baze podatkov z osnovnim znanjem konceptov baz podatkov.
- Skrbniki baz podatkov / strokovnjaki za velike podatke, ki želijo razumeti področja podatkovnega skladišča / ETL.
- Diplomanti / izpopolnjevalci, ki iščejo zaposlitve v skladišču podatkov.
Kaj se boste naučili:
najboljša programska oprema za obnovitev podatkov za Windows
Metapodatki v ETL
Uporabniki (ali) uporabnikov podatkovnega skladišča lahko metapodatke v različnih situacijah uporabljajo za izgradnjo, vzdrževanje in upravljanje sistema. Osnovna definicija metapodatkov v podatkovnem skladišču je, 'To so podatki o podatkih' .
Metapodatki lahko vsebujejo vse vrste informacij o podatkih DW, kot so:
- Vir za vse pridobljene podatke.
- Uporaba teh podatkov DW.
- Kakršne koli podatke in njihove vrednosti.
- Značilnosti podatkov.
- Transformacijska logika za izločene podatke.
- DW tabele in njihovi atributi.
- DW predmeti
- Časovni žigi
Metapodatki delujejo kot kazalo podatkov v sistemu DW, ki prikazuje tehniko z več podrobnostmi o teh podatkih. Z enostavnimi besedami si lahko omislite kazalo v kateri koli knjigi, ki deluje kot metapodatki, za vsebino v tej knjigi.
Podobno tudi metapodatki delujejo kot indeks vsebine DW. Vsi taki metapodatki so shranjeni v repozitoriju. S pomočjo metapodatkov končni uporabniki spoznajo, od kod lahko začnejo analizirati sistem DW. V nasprotnem primeru je težko, da končni uporabniki vedo, od kod začeti analizo podatkov v tako velikem sistemu DW.
Vloga metapodatkov v skladišču podatkov
V prejšnjih dneh so bili metapodatki ustvarjeni in vzdrževani kot dokumenti. Toda v današnjem digitalnem svetu so različna orodja to delo olajšala s snemanjem metapodatkov na vsaki ravni procesa DW.
Metapodatke, ustvarjene z enim orodjem, je mogoče standardizirati (tj. Podatke je mogoče vnesti v enotno obliko) in jih znova uporabiti v drugih orodjih kjer koli v sistemu DW.
Ker se zavedamo, da operativni sistemi vzdržujejo trenutne podatke, sistemi DW ohranjajo pretekle in trenutne podatke.
Metapodatki morajo voditi evidenco vseh sprememb, ki se zgodijo v izvornih sistemih, metodah ekstrakcije / pretvorbe podatkov in v strukturi (ali) vsebine podatkov, ki bodo nastale v tem procesu. Metapodatki bodo ohranili različne različice, da bodo lahko spremljali vse te spremembe v nekaj letih.
Zadostni metapodatki v repozitoriju bodo pomagali vsakemu uporabniku pri učinkovitejši in neodvisnejši analizi sistema. Z razumevanjem metapodatkov lahko zaženete kakršne koli poizvedbe po podatkih DW za najboljše rezultate.
Slikovna predstavitev vloge metapodatkov:
Primeri metapodatkov v enostavnih izrazih
Spodaj je nekaj primerov metapodatkov.
- Metapodatki za spletno stran lahko vsebujejo jezik, v katerem je kodirana, orodja za njeno izdelavo, podporo brskalnikom itd.
- Metapodatki za digitalno sliko lahko vsebujejo velikost slike, ločljivost, intenzivnost barve, datum ustvarjanja slike itd.
- Metapodatki za dokument lahko vsebujejo datum ustvarjanja dokumenta, datum zadnje spremembe, njegovo velikost, avtorja, opis itd.
Primerjava podatkov in metapodatkov
S. Št | Podatki | Metapodatki |
---|---|---|
1. | Podatki so skupek informacij. | Metapodatki so informacije o podatkih. |
dva | Podatkov morda (ali) ni mogoče obdelati. | Metapodatki so vedno obdelani podatki. |
Vrste metapodatkov
Razvrstitev metapodatkov na različne vrste nam bo pomagala, da jih bomo bolje razumeli. Ta razvrstitev lahko temelji na njeni uporabi (ali) uporabnikih itd.
Spodaj raziščimo različne vrste metapodatkov:
# 1) Metapodatki v zakulisju: Usmerja DBA (ali) končne uporabnike v postopke ekstrakcije, čiščenja in nalaganja.
# 2) Metapodatki v sprednji sobi: Usmerja končne uporabnike k delu z orodji in poročili BI.
# 3) Obdelava metapodatkov: Ta shrani metapodatke procesa ETL, na primer število naloženih vrstic, zavrnjenih, obdelanih in čas, potreben za nalaganje v sistem DW itd. Te informacije so lahko dostopne tudi končnim uporabnikom.
Hkrati pa so za ekipo ETL pomembne tudi statistike uprizoritvenih tabel. Ti metapodatki bodo shranili podatke o obdelavi vmesnih tabel, kot so število vrstic, naloženih, zavrnjenih, obdelanih in čas, potreben za nalaganje v posamezno preglednico.
# 4) Podatkovno poreklo: To shrani logično preobrazbo za vsak izvorni sistemski element v ciljni element DW.
# 5) Opredelitve podjetij: Kontekst tabel DW izhaja iz poslovnih definicij. Vsak atribut v tabeli je povezan z definicijo podjetja. Zato jih je treba shraniti kot metapodatke (ali) katere koli druge dokumente za poznejšo uporabo. Končni uporabniki in skupina ETL so odvisni od teh opredelitev poslovanja.
# 6) Tehnične opredelitve: Tehnične opredelitve se uporabljajo izključno na področju usklajevanja podatkov kot poslovne definicije. Glavni namen je zmanjšati dvoumnost med ustvarjanjem preglednic in ponovno uporabiti obstoječe tabele. V tehničnih definicijah bodo shranjene podrobnosti vsake uprizoritvene tabele, na primer njena lokacija in struktura.
Vsaka uprizoritvena tabela je tukaj tehnično dokumentirana, če pa ni dokumentirana, to pomeni, da uprizoritvena tabela ne obstaja. S tem se izognemo rekreaciji iste uprizoritvene mize.
# 7) Poslovni metapodatki: Podatki bodo shranjeni v poslovnem smislu v korist končnih uporabnikov / analitikov / upraviteljev / vseh uporabnikov. Poslovni metapodatki so posredniki za izvorne sistemske podatke, torej z njimi ne bodo izvajane nobene manipulacije. Izhaja iz vseh poslovnih dokumentov in poslovnih pravil.
# 8) Tehnični metapodatki: To bo shranilo tehnične podatke, kot so atributi tabel, njihovi tipi podatkov, velikost, atributi primarnega ključa, atributi tujega ključa in morebitni indeksi. To je bolj strukturirano v primerjavi s poslovnimi metapodatki.
Tehnični metapodatki so v glavnem namenjeni ekipi DW, kot so razvijalci / preizkuševalci / analitiki / DBA, za izgradnjo (ali) vzdrževanje sistema. To skrbniki v veliki meri uporabljajo tudi za spremljanje obremenitev baze podatkov in varnostnih kopij itd.
# 9) Operativni metapodatki: Kot vemo, podatki v sistem DW izvirajo iz številnih operativnih sistemov z različnimi tipi in polji podatkov. DW izvlečki take podatke pretvorijo v edinstven tip in naložijo vse te podatke v sistem.
Hkrati mora biti sposoben povezati podatke nazaj s svojimi izvornimi sistemskimi podatki. Metapodatki, ki shranjujejo vse te podatke o operativnih virih podatkov, so znani kot operativni metapodatki.
# 10) Informacije o izvornem sistemu:
Iz različnih izvornih sistemov lahko zberete naslednje metapodatke:
- Datotečni sistem zbirke podatkov (ali): Tako bodo shranjena imena izvornih sistemskih zbirk podatkov (ali) datotek.
- Specifikacije tabele: To bo shranilo vse podrobnosti o tabelah, kot so ime tabele, njen namen, velikost, atributi, primarni ključi in tuji ključi.
- Pravila o ravnanju z izjemami: To bo shranilo različne metode obnovitve sistema v primeru okvar sistema.
- Poslovne opredelitve: To bo shranilo poslovne definicije za kratko razumevanje podatkov.
- Poslovna pravila: Tako boste shranili nabor pravil za vsako tabelo, da boste razumeli njene podatke in se izognili neskladju.
Izvirni sistemski metapodatki prihranijo veliko časa ekipi DW med analizo podatkov.
z uporabo regularnega izraza v c ++
# 11) Metapodatki o zaposlitvi ETL: Metapodatki o opravilih ETL so zelo pomembni, saj v njih shranijo podrobnosti o vseh opravilih, ki jih je treba obdelati, za nalaganje sistema ETL.
Ti metapodatki shranjujejo naslednje podatke:
- Ime delovnega mesta: Ime delovnega mesta ETL.
- Namen dela: Namen vodenja dela.
- Izvorne tabele / datoteke: Navaja imena in lokacijo vseh tabel in datotek, iz katerih se s tem opravilom ETL pridobijo podatki. Ta lahko vsebuje več kot eno datoteko tabele (ali).
- Ciljne tabele / datoteke: Navaja imena in lokacijo vseh tabel in datotek, v katere se s tem opravilom ETL transformirajo podatki. Ta lahko vsebuje več kot eno datoteko tabele (ali).
- Zavrnjeni podatki: Navaja imena in lokacijo vseh tabel in datotek, iz katerih predvideni izvorni podatki niso bili naloženi v cilj.
- Predprocesi: Ponuja imena opravil (ali) skriptov, od katerih je trenutno opravilo odvisno. To pomeni, da jih je treba uspešno izvesti, preden zaženete trenutno opravilo.
- Post procesi: Ponuja imena opravil (ali) skriptov, ki jih je treba zagnati takoj po trenutnem opravilu, da dokončate postopek.
- Pogostost: Zagotavlja informacije o tem, kako pogosto naj bi bilo delo opravljeno, tj. Dnevno, tedensko (ali) mesečno.
# 12) Metapodatki o preoblikovanju: Metapodatki o preoblikovanju shranjujejo vse gradbene informacije, povezane s postopkom ETL. Vsaka posamezna manipulacija podatkov v procesu ETL je znana kot preoblikovanje podatkov.
Vsak nabor funkcij, shranjenih postopkov, kazalcev, spremenljivk in zank v procesu ETL lahko štejemo za transformacije. Toda takšnih sprememb ni mogoče posebej dokumentirati kot metapodatke.
Celoten postopek ETL je sestavljen iz preoblikovanja podatkov. Nekaj transformacij v ETL je mogoče vnaprej določiti in uporabiti v sistemu DW. Razvijalci ETL svoj čas porabijo za (ali) ponovno obdelavo vseh pretvorb podatkov. Ponovna uporaba vnaprej določenih transformacij med razvojem postopka ETL bo delo pospešila.
Preberite spodnje transformacije podatkov, ki jih najdete v ETL:
- Izvlečki izvornih podatkov: To vključuje pretvorbo podatkov za branje iz izvornih sistemskih podatkov, kot je poizvedba SQL Select (ali) FTP (ali) branje podatkov XML / mainframe.
- Nadomestni generatorji ključev: Nova zaporedna številka, ki jo je treba ustvariti za vsako vrstico tabele baze podatkov, se shrani kot metapodatki.
- Iskanja: Iskanja je mogoče oblikovati z vsemi stavki IN, notranjimi in zunanjimi. Ti se v glavnem uporabljajo za držanje nadomestnih ključev iz vseh ustreznih tabel dimenzij med nalaganjem dejstva.
- Filtri: Priporočljivo je, da filtri razvrstijo podatke, ki jih je treba izvleči, naložiti in zavrniti v postopku ETL. Filtriranje podatkov v zgodnjih fazah sistema ETL je dobra praksa. Filtri se uporabljajo glede na omejitve poslovnih pravil (ali).
- Agregati: Glede na stopnjo razdrobljenosti podatkov lahko uporabimo metapodatke, povezane s skupnimi funkcijami, kot so vsota, štetje, povprečje itd.
- Posodobitev strategij: To so pravila, ki se uporabljajo za zapis med posodabljanjem podatkov. Če se obstoječi podatki spremenijo, bo to pokazalo, ali je treba zapis dodati, izbrisati (ali) posodobiti.
- Ciljni nakladalnik: Ciljni nalagalnik bo shranil podrobnosti baze podatkov, imen tabel in imen stolpcev, v katere naj bodo podatki naloženi skozi postopek ETL. Poleg tega bodo tukaj shranjene tudi podrobnosti o pomožnem programu za množično nalaganje, ki se izvede med nalaganjem podatkov v sistem ETL.
Vsako preobrazbo lahko poimenujemo ločeno s kratko opombo o njenem namenu.
kaj je najboljše brezplačno odstranjevanje virusov
Za zgornji seznam transformacij so tukaj navedeni nekateri primeri konvencij poimenovanja.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Repozitorij metapodatkov v ETL
Skladišče metapodatkov je kraj, kjer je kakršna koli vrsta metapodatkov shranjena v lokalni bazi podatkov (ali) v navidezni zbirki podatkov. Vsako vrsto metapodatkov, na primer poslovne metapodatke (ali) tehnične metapodatke, je mogoče v repozitoriju logično ločiti.
Poleg omenjenih dveh vrst ima skladišče tudi še eno komponento z imenom Information navigator.
Z informacijskim navigatorjem lahko izvajate naslednje naloge:
- Vmesnik iz orodja za poizvedbe: To zagotavlja vmesnik do poizvedbenih orodij za dostop do metapodatkov DW.
- Podrobnosti: To omogoča uporabniku, da podrobneje razčleni metapodatke. Kot primer lahko na prvi ravni uporabnik dobi definicijo podatkovne tabele. Z vrtanjem lahko dobi atribute tabele na naslednji ravni. Z večjim vrtanjem podatkov lahko dobi podrobnosti o vsakem atributu itd.
- Preglejte vnaprej določene poizvedbe in poročila: To uporabniku omogoča pregled vnaprej določenih poizvedb in poročil. To deluje kot referenca na poizvedbe po slikah z ustreznimi parametri itd.
Slikovna predstavitev skladišča metapodatkov:
Kako je mogoče upravljati z metapodatki o skladiščenju podatkov?
Ljudje, procesi in orodja so ključni viri za upravljanje metapodatkov.
- Ljudje bi morali metapodatke razumeti za primerno uporabo.
- Postopek bo vključil metapodatke v repozitorij orodij (ali) z napredovanjem življenjskega cikla DW za prihodnjo uporabo.
- Nato lahko metapodatke upravljate z orodji.
Izzivi za upravljanje metapodatkov
Ko so metapodatki ustvarjeni, se lahko med integracijo in upravljanjem metapodatkov v sistem soočite s spodnjimi izzivi.
- Če želite različne formate metapodatkov prenesti v standardni format, boste morda potrebovali več truda, če se v sistemu DW uporabljajo različna orodja, ker se lahko metapodatki shranjujejo v preglednice, aplikacije (ali) zbirke podatkov.
- Formati metapodatkov nimajo nobenih uveljavljenih industrijskih standardov. Zaradi pomanjkanja standardiziranega postopka je težko metapodatke prenašati skozi različne ravni sistema in orodij DW.
- Dosledno vzdrževanje različnih različic zgodovinskih metapodatkov je zapletena naloga.
Kaj je ETL na osnovi metapodatkov?
ETL, ki ga poganjajo metapodatki, vzpostavi sloj za poenostavitev postopka nalaganja podatkov v sistem DW. Odločite se lahko, ali boste podatke obdelali v sistem (ali), ne glede na metapodatke. Zato ga lahko pokličete kot ETL na osnovi metapodatkov.
Zaključek
Pomembna vloga metapodatkov pri določanju uspeha (ali) okvare sistema DW je bila podrobno pojasnjena v tej vadnici.
Podrobno smo raziskali tudi pomen, vlogo, primere, vrste, izzive metapodatkov, skupaj z zadevno slikovno predstavitvijo.
Upamo, da so vam te informativne vadnice iz te zbirke podatkovnega skladišča obogatile znanje o skladiščenju podatkov in s tem povezanih konceptih !!!
Veselo branje !!
=> Obiščite tukaj, če se želite naučiti skladiščenja podatkov iz nič.
Priporočeno branje
- Vadnica za testiranje skladišča podatkov z primeri | Vodič za preizkušanje ETL
- Vadnica za testiranje skladišča podatkov ETL (popoln vodnik)
- Dimenzijski podatkovni model v skladišču podatkov - Vadnica s primeri
- Data Mart Vadnica - Vrste, primeri in izvedba Data Mart
- Kaj je postopek ETL (ekstrakt, pretvorba, nalaganje) v skladišču podatkov?
- 10 najboljših orodij za preslikavo podatkov, uporabnih v postopku ETL (SEZNAM 2021)
- Primeri rudarjenja podatkov: najpogostejše uporabe podatkovnega rudarjenja 2021
- Vprašanja in odgovori za preizkušanje ETL