what is etl extract
Ta poglobljena vadnica o postopku ETL pojasnjuje tok postopka in korake, vključene v postopek ETL (ekstrakcija, preoblikovanje in nalaganje) v skladišču podatkov:
Ta vadnica v seriji pojasnjuje: Kaj je postopek ETL? Izvleček podatkov, preoblikovanje, nalaganje, ploščate datoteke, kaj je uprizoritev? ETL cikel itd.
Začnimo!!
=> Tukaj si oglejte Vodnik za popolno skladiščenje podatkov.
Kaj se boste naučili:
- Osnove procesa ETL (ekstrakt, preoblikovanje, nalaganje)
- Zaključek
Osnove procesa ETL (ekstrakt, preoblikovanje, nalaganje)
Ciljna publika
- Razvijalci in preizkuševalci podatkovnega skladišča / ETL.
- Strokovnjaki za baze podatkov z osnovnim znanjem konceptov baz podatkov.
- Skrbniki baz podatkov / strokovnjaki za velike podatke, ki želijo razumeti področja podatkovnega skladišča / ETL.
- Diplomanti / osvežitelji, ki iščejo zaposlitve v skladišču podatkov.
Kaj je postopek ETL v skladišču podatkov?
Vsi vemo, da je podatkovno skladišče zbirka ogromnih količin podatkov, ki poslovnim uporabnikom zagotavlja informacije s pomočjo orodij za poslovno inteligenco.
V ta namen je treba DW redno nalagati. Podatki v sistem se zbirajo iz enega ali več operativnih sistemov, ploščatih datotek itd. Postopek, ki podatke pripelje v DW, je znan kot ETL proces . Izvleček, preoblikovanje in nalaganje so naloge ETL.
# 1) Pridobivanje: Vsi prednostni podatki iz različnih izvornih sistemov, kot so zbirke podatkov, aplikacije in ploščate datoteke, so identificirani in izvlečeni. Izvleček podatkov lahko dokončate z izvajanjem opravil v zunaj delovnega časa.
# 2) Preoblikovanje: Večine pridobljenih podatkov ni mogoče neposredno naložiti v ciljni sistem. Na podlagi poslovnih pravil je mogoče pred nalaganjem podatkov narediti nekaj sprememb.
Na primer, podatki ciljnega stolpca lahko kot vhod pričakujejo združena dva izvorna stolpca. Prav tako obstaja lahko zapletena logika za preoblikovanje podatkov, ki zahteva strokovno znanje. Nekatere podatke, ki ne potrebujejo nobenih transformacij, je mogoče neposredno premakniti v ciljni sistem.
Postopek preoblikovanja prav tako popravi podatke, odstrani napačne podatke in odpravi napake v podatkih, preden jih naloži.
# 3) Nalaganje: Vse zbrane informacije se naložijo v ciljne tabele skladišča podatkov.
Izvleček podatkov
Izdelava podatkov igra glavno vlogo pri oblikovanju uspešnega sistema DW. Različni izvorni sistemi imajo lahko različne značilnosti podatkov, postopek ETL pa bo te razlike učinkovito obvladoval med pridobivanjem podatkov.
' Logični podatkovni zemljevid ”Je osnovni dokument za pridobivanje podatkov. To prikazuje, kateri izvorni podatki naj gredo v katero ciljno tabelo in kako se izvorna polja preslikajo v ustrezna polja ciljne tabele v procesu ETL.
Spodaj so navedeni koraki, ki jih je treba izvesti med načrtovanjem logičnih podatkovnih kart:
- Arhitekt podatkovnega skladišča oblikuje dokument logičnega podatkovnega zemljevida.
- S sklicevanjem na ta dokument bo razvijalec ETL ustvaril delovna mesta ETL, preizkuševalci ETL pa testne primere.
- V tem dokumentu bodo navedeni vsi posebni viri podatkov in posamezni podatkovni elementi, ki podpirajo poslovne odločitve. Ti podatkovni elementi bodo med postopkom ekstrakcije delovali kot vhodni podatki.
- Podatki iz vseh izvornih sistemov se analizirajo in dokumentirajo kakršne koli nepravilnosti podatkov, tako da to pomaga pri oblikovanju pravilnih poslovnih pravil, da se ustavi ekstrahiranje napačnih podatkov v DW. Takšni podatki so tukaj zavrnjeni.
- Ko končni izvorni in ciljni podatkovni model oblikujejo arhitekti ETL in poslovni analitiki, se lahko sprehodijo z razvijalci ETL in preizkuševalci. S tem bodo jasno razumeli, kako je treba izvajati poslovna pravila v vsaki fazi pridobivanja, preoblikovanja in nalaganja.
- Arhitekti ETL-ja, razvijalci in preizkuševalci bi morali s pregledovanjem pravil preslikave iz tega dokumenta dobro razumeti, kako se podatki pretakajo iz posamezne tabele kot dimenzije, dejstva in katere koli druge tabele.
- Tu se omenjajo tudi kakršna koli pravila ali formule za obdelavo podatkov, da se prepreči pridobivanje napačnih podatkov. Na primer, izvleči samo zadnjih 40 dni podatkov itd.
- Odgovornost ekipe ETL je, da podrobno razčleni podatke v skladu s poslovnimi zahtevami, da prikaže vse uporabne izvorne sisteme, tabele in stolpce, ki jih je treba naložiti v DW.
Dokument z logičnimi podatki je običajno preglednica, ki prikazuje naslednje komponente:
(tabela “” ni najdena /)Diagram pretoka ekstrakcije:
Navedite časovno okno za zagon opravil v vsakem izvornem sistemu vnaprej, tako da med ciklom ekstrakcije ne bodo zgrešeni nobeni izvorni podatki.
Z zgornjimi koraki z ekstrakcijo dosežemo cilj pretvorbe podatkov iz različnih formatov iz različnih virov v en format DW, kar koristi celotnim procesom ETL. Takšni logično postavljeni podatki so koristnejši za boljšo analizo.
Metode ekstrakcije v skladišču podatkov
Glede na izvorno in ciljno podatkovno okolje ter poslovne potrebe lahko izberete način ekstrakcije, primeren za vaš DW.
# 1) Logične metode ekstrakcije
Izvleček podatkov v sistemu podatkovnega skladišča je lahko enkratna polna obremenitev, ki se opravi na začetku (ali), lahko pa so postopne obremenitve, ki se pojavijo vsakič s stalnimi posodobitvami.
najboljši urejevalnik python mac os x
- Popolna ekstrakcija: Kot že samo ime pove, se izvorni sistemski podatki v celoti ekstrahirajo v ciljno tabelo. Vsakokrat tovrstno ekstrahiranje naloži celotne trenutne izvorne sistemske podatke brez upoštevanja zadnjih izvlečenih časovnih žigov. Po možnosti lahko uporabite začetno ekstrakcijo za začetne obremenitve ali tabele z manj podatki.
- Dodatna ekstrakcija: Podatki, ki so dodani / spremenjeni od določenega datuma, se bodo upoštevali pri postopnem pridobivanju. Ta datum je odvisen od podjetja kot zadnji izvlečeni datum (ali) zadnji datum naročila itd. Lahko se sklicujemo na stolpec časovnega žiga iz same izvorne tabele (ali) lahko se ustvari ločena tabela, ki bo spremljala samo podrobnosti datuma ekstrakcije. Sklicevanje na časovni žig je pomembna metoda med postopnim ekstrahiranjem. Logika brez časovnega žiga morda ne bo uspela, če ima tabela DW veliko podatkov.
# 2) Metode fizičnega pridobivanja
Glede na zmožnosti izvornih sistemov in omejitve podatkov lahko izvorni sistemi fizično zagotovijo podatke za pridobivanje kot spletno ekstrakcijo in ekstrakcijo brez povezave. To podpira katero koli logično vrsto ekstrakcije.
- Spletno pridobivanje :: Lahko se neposredno povežemo s katero koli izvorno sistemsko bazo podatkov s povezavnimi nizi, da izvlečemo podatke neposredno iz izvornih sistemskih tabel.
- Izvleček brez povezave :: Tu se ne bomo neposredno povezali z bazo podatkov izvornega sistema, temveč izvorni sistem podatke podaja izrecno v vnaprej določeni strukturi. Izvorni sistemi lahko zagotavljajo podatke v obliki ploščatih datotek, datotek izpisa, arhivskih dnevnikov in prostorov tabel.
Orodja ETL so najprimernejša za izvajanje zapletenih ekstrakcij podatkov, ne glede na to, kolikokrat so DW, čeprav so draga.
Izdvajanje spremenjenih podatkov
Ko je začetno nalaganje končano, je pomembno, da razmislite o nadaljnjem pridobivanju podatkov, ki so spremenjeni iz izvornega sistema. Skupina ETL Process naj na začetku samega projekta oblikuje načrt, kako izvesti ekstrakcijo za začetne in dodatne obremenitve.
Za zajemanje sprememb podatkov lahko večinoma upoštevate strategijo »Revizija stolpcev«. Na splošno lahko izvorne sistemske tabele vsebujejo revizijske stolpce, ki shranjujejo časovni žig za vsako vstavitev (ali) spremembo.
Časovni žig se lahko naseli s sprožilci baze podatkov (ali) iz same aplikacije. Zagotoviti morate točnost podatkov revizijskih stolpcev, tudi če se na kakršen koli način nalagajo, da ne boste zamudili spremenjenih podatkov za dodatne obremenitve.
Med postopnim nalaganjem lahko upoštevate največji datum in čas, ko se je zgodilo zadnje nalaganje, in iz izvornega sistema izvlečete vse podatke s časovnim žigom, večjim od zadnjega časovnega žiga.
Med pridobivanjem podatkov:
- Optimalno uporabljajte poizvedbe za pridobivanje samo tistih podatkov, ki jih potrebujete.
- Klavzule Distinct ne uporabljajte toliko, ker upočasnjuje delovanje poizvedb.
- Previdno uporabljajte operatorje SET, kot so Union, Minus, Intersect, saj poslabšajo delovanje.
- Uporabite ključne besede za primerjavo, kot so like, between itd., V stavku where, namesto funkcij, kot so substr (), to_char () itd.
Preoblikovanje podatkov
Transformacija je postopek, pri katerem se za ekstrahirane podatke uporabi nabor pravil, preden se izvorni sistemski podatki neposredno naložijo v ciljni sistem. Izvlečeni podatki se štejejo za surove podatke.
Proces pretvorbe z nizom standardov prinese vse različne podatke iz različnih izvornih sistemov v uporabne podatke v sistemu DW. Cilj preoblikovanja podatkov je kakovost podatkov. Za vsa pravila logične transformacije se lahko sklicujete na dokument preslikave podatkov.
Na podlagi pravil pretvorbe, če kateri koli izvorni podatki ne ustrezajo navodilom, se takšni izvorni podatki zavrnejo pred nalaganjem v ciljni sistem DW in se shranijo v datoteko zavrnitve ali tabelo zavrnitev.
Pravila preoblikovanja niso podana za podatke stolpcev z ravno obremenitvijo (ne potrebujejo sprememb) od vira do cilja. Zato lahko pretvorbe podatkov razvrstimo kot enostavne in zapletene. Preoblikovanje podatkov lahko vključuje pretvorbe stolpcev, preoblikovanje podatkovne strukture itd.
Spodaj je navedenih nekaj nalog, ki jih je treba opraviti med preoblikovanjem podatkov:
# 1) Izbira: Iz izvornih sistemov lahko izberete bodisi celotne podatke tabele bodisi določen nabor podatkov stolpcev. Izbor podatkov se običajno zaključi pri samem pridobivanju.
Obstajajo lahko primeri, ko izvorni sistem med fazo ekstrakcije ne dovoli izbrati določenega nabora podatkov stolpcev, nato izvleči celotne podatke in opravi izbor v fazi pretvorbe.
# 2) Delitev / združevanje: Z izbranimi podatki lahko manipulirate tako, da jih razdelite ali združite. Med preoblikovanjem boste morali izbrane izvorne podatke še bolj razdeliti.
Na primer, če je celoten naslov shranjen v enem velikem besedilnem polju v izvornem sistemu, lahko sistem DW zahteva, da naslov razdeli na ločena polja kot mesto, država, poštna številka itd. To je enostavno indeksirati in analizirati na podlagi vsakega komponento posebej.
Medtem ko se združevanje / združevanje dveh ali več podatkov stolpcev pogosto uporablja v fazi transformacije v sistemu DW. To ne pomeni združitve dveh polj v eno polje.
Na primer, če informacije o določeni entiteti prihajajo iz več virov podatkov, lahko zbiranje informacij kot eno samo entiteto imenujemo združevanje / združevanje podatkov.
# 3) Pretvorba: Izvlečeni izvorni sistemski podatki so lahko v različnih oblikah za vsako vrsto podatkov, zato bi bilo treba vse pridobljene podatke med fazo pretvorbe pretvoriti v standardizirano obliko. Ista oblika je enostavna za razumevanje in enostavna za poslovne odločitve.
# 4) Povzetek: V nekaterih primerih bo DW iskal povzete podatke namesto podrobnih podatkov na nizki ravni iz izvornih sistemov. Ker podatki na nizki ravni niso najbolj primerni za analizo in poizvedbe s strani poslovnih uporabnikov.
Na primer, podatkov o prodaji za vsako blagajno sistem DW morda ne bo zahteval, koristni so dnevni prodajni stranski proizvodi (ali) dnevna prodaja v trgovini. Zato lahko povzemanje podatkov v fazi preoblikovanja izvedemo v skladu s poslovnimi zahtevami.
# 5) Obogatitev: Ko se stolpec DW oblikuje s kombiniranjem enega ali več stolpcev iz več zapisov, bo obogatitev podatkov prerazporedila polja za boljši pregled podatkov v sistemu DW.
# 6) Revizije oblike: Revizije formatov se najpogosteje dogajajo v fazi preobrazbe. Vrsta podatkov in njegova dolžina se popravita za vsak stolpec.
Na primer, stolpec v enem izvornem sistemu je lahko številski, isti stolpec v drugem izvornem sistemu pa je lahko besedilo. Da bi to standardizirali, se med fazo pretvorbe tip podatkov za ta stolpec spremeni v besedilo.
# 7) Dekodiranje polj: Ko pridobivate podatke iz več izvornih sistemov, se lahko podatki v različnih sistemih dešifrirajo drugače.
Na primer, en izvorni sistem lahko predstavlja status stranke kot AC, IN in SU. Drugi sistem lahko predstavlja enak status kot 1, 0 in -1.
Med fazo pretvorbe podatkov morate takšne kode dešifrirati v ustrezne vrednosti, ki so razumljive poslovnim uporabnikom. Zato lahko zgornje kode spremenite v aktivne, neaktivne in onemogočene.
# 8) Izračunane in izpeljane vrednosti: Z upoštevanjem izvornih sistemskih podatkov lahko DW shrani dodatne podatke stolpcev za izračune. Preden shranite v DW, morate opraviti izračune na podlagi poslovne logike.
# 9) Pretvorba datuma / časa: To je ena ključnih podatkovnih vrst, na katero se je treba osredotočiti. Oblika datuma / časa se lahko razlikuje v več izvornih sistemih.
Na primer, en vir lahko shrani datum kot 10. november 1997. Drugi vir lahko isti datum shrani v obliki 10.11.1997. Zato bi bilo treba med preoblikovanjem podatkov vse vrednosti datuma / časa pretvoriti v standardno obliko.
# 10) Odstranjevanje podvajanja: Če ima izvorni sistem podvojene zapise, poskrbite, da bo v sistem DW naložen samo en zapis.
Diagram transformacijskega toka:
Kako izvesti preobrazbo?
Glede na zapletenost preoblikovanja podatkov lahko uporabite ročne metode, orodja za preoblikovanje (ali) kombinacijo obeh učinkov.
# 1) Ročne tehnike
Ročne tehnike so primerne za majhne sisteme DW. Podatkovni analitiki in razvijalci bodo ustvarili programe in skripte za ročno preoblikovanje podatkov. Ta metoda zahteva podrobno testiranje za vsak del kode.
Stroški vzdrževanja lahko postanejo visoki zaradi sprememb poslovnih pravil (ali) zaradi možnosti, da pride do napak s povečanjem obsega podatkov. Za metapodatke bi morali skrbeti na začetku in tudi pri vsaki spremembi v pravilih preoblikovanja.
# 2) Orodja za preoblikovanje
Če želite avtomatizirati večino postopka preoblikovanja, lahko orodja za preoblikovanje sprejmete glede na proračun in časovni okvir, ki je na voljo za projekt. Med avtomatizacijo bi morali porabiti dovolj časa za izbiro orodij, njihovo konfiguriranje, namestitev in integracijo s sistemom DW.
Praktično popolna transformacija s samimi orodji ni mogoča brez ročnega posega. Toda podatki, ki jih preoblikujejo orodja, so zagotovo učinkoviti in natančni.
Da bi to dosegli, bi morali v orodje za pretvorbo kot vhod vnesti ustrezne parametre, definicije podatkov in pravila. Iz podanih vhodov orodje samo zapiše metapodatke in ti metapodatki se dodajo celotnim metapodatkom DW.
Če pride do kakršnih koli sprememb v poslovnih pravilih, jih preprosto vnesite v orodje, za ostale spremembe preoblikovanja bo poskrbelo orodje samo. Zato je kombinacija obeh metod učinkovita za uporabo.
Nalaganje podatkov
Izvlečeni in preoblikovani podatki se v fazi nalaganja postopka ETL naložijo v ciljne tabele DW. Podjetje se odloči, kako naj poteka postopek nalaganja za vsako tabelo.
Postopek nalaganja se lahko izvede na naslednje načine:
- Začetna obremenitev: Nalaganje podatkov za prvo zapolnitev ustreznih tabel DW.
- Dodatna obremenitev: Ko so tabele DW naložene, se preostale spremembe v teku redno uporabljajo.
- Popolna osvežitev: Če katera koli tabela, ki je v uporabi, potrebuje osvežitev, se trenutni podatki iz te tabele popolnoma odstranijo in nato znova naložijo. Pretovarjanje je podobno začetni obremenitvi.
Za boljše razumevanje postopka nalaganja v ETL si oglejte spodnji primer:
ID izdelka | ime izdelka | Datum prodaje |
---|---|---|
1. | Slovnica | 3. junij 2007 |
dva | Marker | 3. junij 2007 |
3. | Torba nazaj | 4. junij 2007 |
4. | Pokrovček | 4. junij 2007 |
5. | Čevlji | 5. junij 2007 |
# 1) Med začetnim nalaganjem se podatki, ki se prodajo dne 3rdJunij 2007 se naloži v ciljno tabelo DW, ker so to začetni podatki iz zgornje tabele.
#two) Med inkrementalnim nalaganjem moramo naložiti podatke, ki se prodajo po 3rdJunij 2007. Upoštevati moramo vse zapise z datumom prodaje, ki je daljši od (>) prejšnjega datuma za naslednji dan. Torej, dne 4.thJunij 2007, prinesite vse zapise z datumom prodaje> 3rdJunija 2007 z uporabo poizvedb in naložite samo ta dva zapisa iz zgornje tabele.
5. dnethJunij 2007, prinesite vse zapise z datumom prodaje> 4thJunija 2007 in naložite le en zapis iz zgornje tabele.
# 3) Med popolno osvežitvijo se vsi zgornji podatki tabele naložijo v DW tabele hkrati, ne glede na prodani datum.
Naloženi podatki so shranjeni v ustreznih tabelah razsežnosti (ali). Podatke je mogoče naložiti, dodati ali združiti v tabele DW na naslednji način:
# 4) Obremenitev: Podatki se naložijo v ciljno tabelo, če je prazna. Če v tabeli obstajajo nekateri podatki, se obstoječi podatki odstranijo in nato naložijo z novimi podatki.
Na primer,
Obstoječi podatki tabele
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | Svinec |
Bob | Pomočnik direktorja |
Ronald | Razvijalec |
Spremenjeni podatki
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Rohan | direktor |
Četan | AVP |
The | VP |
Podatki po nalaganju
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Rohan | direktor |
Četan | AVP |
The | VP |
# 5) Dodaj: Append je razširitev zgornje obremenitve, saj deluje na že obstoječih tabelah podatkov. V ciljnih tabelah Append doda obstoječim podatkom več podatkov. Če najdete podvojen zapis z vhodnimi podatki, ga lahko dodate kot dvojnik (ali) pa zavrnete.
Na primer,
Obstoječi podatki tabele
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | Svinec |
Spremenjeni podatki
najboljši brezplačni pretvornik youtube v mp3
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Rohan | direktor |
Četan | AVP |
The | VP |
Podatki po dodajanju
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | Svinec |
Rohan | direktor |
Četan | AVP |
The | VP |
# 6) Uničujoča združitev: Tu se dohodni podatki primerjajo z obstoječimi ciljnimi podatki na podlagi primarnega ključa. Če obstaja ujemanje, se obstoječi ciljni zapis posodobi. Če ni mogoče najti nobenega ujemanja, se v ciljno tabelo vstavi nov zapis.
Na primer,
Obstoječi podatki tabele
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | Svinec |
Spremenjeni podatki
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | direktor |
Četan | AVP |
The | VP |
Podatki po konstruktivni združitvi
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | direktor |
Četan | AVP |
The | VP |
# 7) Konstruktivno gre: V nasprotju z uničujočo združitvijo, če obstaja ujemanje z obstoječim zapisom, ostane obstoječi zapis takšen, kot je, vstavi dohodni zapis in ga označi kot najnovejše podatke (časovni žig) glede na ta primarni ključ.
Na primer,
Obstoječi podatki tabele
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | Svinec |
Spremenjeni podatki
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | direktor |
Četan | AVP |
The | VP |
Podatki po konstruktivni združitvi
ime zaposlenega | Vloga |
---|---|
Janez | Manager |
Revanth | Direktor *** |
Revanth | Svinec |
Četan | AVP |
The | VP |
Tehnično je osvežitev lažja kot posodabljanje podatkov. Posodobitev potrebuje posebno strategijo za izločanje samo določenih sprememb in njihovo uporabo v sistemu DW, medtem ko Refresh samo nadomesti podatke. Toda osveževanje podatkov traja dlje časa, odvisno od količine podatkov.
Če imate takšna opravila osveževanja, ki jih je treba izvajati vsak dan, boste morda morali naložiti sistem DW, da naložite podatke. Namesto da bi sistem DW vsakič naložil podatke, lahko podatke razdelite in naložite v obliki nekaj datotek.
Med preskušanjem si zabeležite čas delovanja za vsako obremenitev. Če se kakršni koli podatki ne morejo naložiti v sistem DW zaradi kakršnih koli neusklajenosti ključev itd., Jim dajte načine za ravnanje s tovrstnimi podatki. Poskrbite, da bodo naloženi podatki temeljito preizkušeni.
Diagram toka nalaganja:
Ravne datoteke
Ploščate datoteke se pogosto uporabljajo za izmenjavo podatkov med heterogenimi sistemi, od različnih izvornih operacijskih sistemov in od različnih sistemov izvornih baz podatkov do aplikacij podatkovnega skladišča. Ravne datoteke so najučinkovitejše in enostavne za upravljanje tudi za homogene sisteme.
Ploščate datoteke se uporabljajo predvsem za naslednje namene:
# 1) Dostava izvornih podatkov: Morda je malo izvornih sistemov, ki uporabnikom DW zaradi varnostnih razlogov ne bodo omogočili dostopa do njihovih zbirk podatkov. V takih primerih se podatki dostavljajo prek pavšalnih datotek.
Podobno se podatki pridobivajo pri zunanjih prodajalcih ali sistemih mainframe, v bistvu v obliki pavšalnih datotek, uporabniki ETL pa jih bodo FTP oddali.
# 2) Delovne / uprizoritvene mize: Proces ETL ustvarja uprizoritvene tabele za svoj notranji namen. Povezovanje uprizoritvenih tabel s ploščatimi datotekami je veliko lažje kot DBMS, ker je branje in pisanje v datotečni sistem hitrejše kot vstavljanje in poizvedovanje po zbirki podatkov.
# 3) Priprava na razsuti tovor: Ko so postopki ekstrakcije in pretvorbe končani, če orodje ETL ne podpira množičnega nalaganja v toku (ali). Če želite podatke arhivirati, lahko ustvarite ravno datoteko. Te ploščate podatke datoteke prebere procesor in jih naloži v sistem DW.
Ploščate datoteke je mogoče ustvariti na dva načina, kot so »Plošče s fiksno dolžino« in »Deljene ravne datoteke«. Ravne datoteke lahko ustvarijo programerji, ki delajo za izvorni sistem.
Poglejmo, kako bomo obdelali te ploščate datoteke:
Obdelava ravnih datotek s fiksno dolžino
Na splošno so ploščate datoteke stolpcev s fiksno dolžino, zato jih imenujemo tudi pozicijske ploščate datoteke. Spodaj je postavitev ploščate datoteke, ki prikazuje natančna polja in njihove položaje v datoteki.
Ime polja | Dolžina | Začni | Konec | Tip | Komentarji |
---|---|---|---|---|---|
Ime | 10. | 1. | 10. | Besedilo | Ime stranke |
Srednje ime | 5. | enajst | petnajst | Besedilo | Srednje ime stranke |
Priimek | 10. | 16. | 25. | Besedilo | Priimek stranke |
Postavitev vsebuje ime polja, dolžina, začetni položaj na katerem se začne znak polja, končni položaj, na katerem se znak polja konča, vrsta podatkov kot besedilo, številka itd. in morebitni komentarji.
Glede na položaje podatkov bo skupina za testiranje ETL potrdila točnost podatkov v ploščati datoteki s fiksno dolžino.
Obdelava ločenih datotek
V ločenih datotekah je vsako podatkovno polje ločeno z ločili. Ta ločilo označuje začetni in končni položaj vsakega polja. Na splošno se vejica uporablja kot ločilo, lahko pa uporabite kateri koli drug simbol ali nabor simbolov.
Ločene datoteke imajo lahko končnico .CSV (ali) .TXT (ali) brez končnice. Razvijalci, ki ustvarijo datoteke ETL, bodo navedli dejanski simbol ločila za obdelavo te datoteke. V razmejeni postavitvi datoteke lahko prva vrstica predstavlja imena stolpcev.
Enako kot položajne ploščate datoteke bo skupina za testiranje ETL izrecno potrdila natančnost ločenih podatkov ploščate datoteke.
Namen odrskega prostora
Glavni namen uprizoritvenega območja je začasno shranjevanje podatkov za postopek ETL. Uprizoritveno območje se imenuje stranski prostor sistema DW. Arhitekt ETL se odloči, ali bo podatke shranil v uprizoritvenem območju ali ne.
Uprizoritev bo pripomogla k hitremu pridobivanju podatkov iz izvornih sistemov. Hkrati v primeru, da sistem DW odpove, vam ni treba znova zagnati postopka z zbiranjem podatkov iz izvornih sistemov, če podatki o uprizoritvi že obstajajo.
Po postopku pridobivanja podatkov so tukaj razlogi za namestitev podatkov v sistem DW:
# 1) Obnovljivost: Popolne preglednice bodo shranjene v sami bazi podatkov DW (ali), jih lahko premaknete v datotečne sisteme in jih lahko shranite ločeno. V določenem trenutku lahko uprizoritveni podatki delujejo kot obnovitveni podatki, če kateri koli korak preoblikovanja ali nalaganja ne uspe.
Obstajajo verjetnosti, da je izvorni sistem prepisal podatke, ki se uporabljajo za ETL, zato nam ohranjanje izločenih podatkov v uprizoritvi pomaga pri kakršni koli referenci.
# 2) Varnostno kopiranje: Težko je vzeti nazaj za ogromno količino tabel baz podatkov DW. Varnostne kopije pa so nujne za vsako obnovo po nesreči. Če imate na primer uprizoritvene podatke, ki so izvlečeni podatki, lahko zaženete opravila za preoblikovanje in nalaganje, s čimer lahko zrušene podatke znova naložite.
Če želite varnostno kopirati vmesne podatke, jih lahko pogosto premaknete v datotečne sisteme, tako da jih je enostavno stisniti in shraniti v omrežje. Kadar koli je potrebno, samo stisnite datoteke, naložite v preglednice in zaženite opravila, da znova naložite tabele DW.
# 3) Revizija: Včasih se lahko zgodi sistem revizije sistema ETL, da se preveri podatkovna povezava med izvornim sistemom in ciljnim sistemom. Revizorji lahko potrdijo izvirne vhodne podatke glede na izhodne podatke na podlagi pravil o preoblikovanju.
Tukaj so zelo koristni uprizoritveni podatki in varnostne kopije, tudi če ima izvorni sistem na voljo podatke ali ne. Ker se lahko revizija zgodi kadar koli in v katerem koli obdobju sedanjih (ali) preteklih podatkov. Arhitektura odrskega prostora mora biti dobro načrtovana.
Oblikovanje odrskega prostora
V podatkovnem skladišču lahko podatke o območju pripravljanja oblikujemo na naslednji način:
Z vsakim novim nalaganjem podatkov v uprizoritvene tabele lahko obstoječe podatke izbrišete (ali) ohranite kot pretekle podatke za sklicevanje. Če se podatki izbrišejo, se imenujejo »prehodno območje uprizoritve«.
Če se podatki ohranjajo kot zgodovina, se imenujejo 'trajno uprizoritveno območje'. Odrsko območje lahko oblikujete tudi s kombinacijo zgornjih dveh vrst, ki je 'hibridna'.
Tu so osnovna pravila, ki jih je treba poznati pri oblikovanju uprizoritvenega območja:
- Dostop do območja za upodabljanje podatkov bi morala imeti samo ekipa ETL. Poizvedovanje o uprizoritvenih podatkih je omejeno na druge uporabnike.
- Tabele v uprizoritvenem območju lahko arhitekt podatkov ETL doda, spremeni ali opusti, ne da bi pri tem sodelovali drugi uporabniki. Ker uprizoritveno območje ni predstavitveno območje za ustvarjanje poročil, deluje le kot delovna miza.
- Arhitekt ETL bi moral oceniti merilo za shranjevanje podatkov vmesnega območja, da bi podrobnosti posredoval skrbnikom DBA in OS. Skrbniki bodo dodelili prostor za uprizarjanje zbirk podatkov, datotečnih sistemov, imenikov itd.
Če pripravljalno območje in baza podatkov DW uporabljata isti strežnik, lahko podatke enostavno premaknete v sistem DW. Če so strežniki drugačni, uporabite povezave do baze podatkov FTP (ali).
Tok postopka ETL
Standardni cikel ETL bo šel skozi spodnje korake postopka:
- Zaženite cikel ETL, če želite zaporedoma izvajati opravila.
- Prepričajte se, da so vsi metapodatki pripravljeni.
- Cikel ETL pomaga pri pridobivanju podatkov iz različnih virov.
- Potrdite pridobljene podatke.
- Če se uporabljajo preglednice, potem cikel ETL naloži podatke v uprizoritev.
- ETL izvaja transformacije z uporabo poslovnih pravil, z ustvarjanjem agregatov itd
- Če pride do kakršnih koli napak, bo cikel ETL to opozoril v obliki poročil.
- Nato cikel ETL naloži podatke v ciljne tabele.
- Prejšnji podatki, ki jih je treba shraniti za zgodovinsko referenco, se arhivirajo.
- Preostali podatki, ki jih ni treba shraniti, se očistijo.
Diagram poteka ETL procesa:
Zaključek
V tej vadnici smo spoznali glavne koncepte procesa ETL v skladišču podatkov. Do zdaj bi morali razumeti, kaj je pridobivanje podatkov, preoblikovanje podatkov, nalaganje podatkov in tok postopka ETL.
Preberite prihajajočo vadnico, če želite izvedeti več o testiranju skladišča podatkov !!
=> Obiščite tukaj za ekskluzivno serijo skladiščenja podatkov.
Priporočeno branje
- Vadnica za testiranje skladišča podatkov s primeri | Vodič za preizkušanje ETL
- 10 najboljših orodij za preslikavo podatkov, uporabnih v postopku ETL (2021 LIST)
- Vadnica za testiranje skladišča podatkov ETL (popoln vodnik)
- Podatkovno rudarjenje: postopek, tehnike in glavna vprašanja pri analizi podatkov
- Proces rudarjenja podatkov: vključeni modeli, koraki in izzivi
- Vprašanja in odgovori za preizkušanje ETL
- 10 najboljših orodij za testiranje ETL v letu 2021
- 10 najbolj priljubljenih orodij za shranjevanje podatkov in preskusne tehnologije