top 24 data modeling interview questions with detailed answers
Seznam najpogostejših vprašanj in odgovorov za modeliranje podatkov, ki vam bodo v pomoč pri pripravi na prihodnji intervju:
Tukaj bom delil nekaj vprašanj o intervjujih za modeliranje podatkov in podrobne odgovore na podlagi lastnih izkušenj med interakcijami z intervjuji v nekaj priznanih IT MNC-jih.
Spodaj so vam lahko v veliko pomoč odgovori na vprašanja, če se boste lahko soočili ali se pogovarjali o modeliranju podatkov.
Najpogostejša vprašanja o intervjujih za modeliranje podatkov
Začnimo!
V # 1) Kaj razumete pri modeliranju podatkov?
Odgovor: Modeliranje podatkov je diagram, ki prikazuje, kako so entitete povezane med seboj. To je začetni korak k oblikovanju zbirke podatkov. Najprej izdelamo konceptualni model, nato logični model in na koncu preidemo na fizični model.
Podatkovni modeli so na splošno ustvarjeni v fazi analize in načrtovanja življenjskega cikla razvoja programske opreme.
Q # 2) Pojasnite svoje razumevanje različnih podatkovnih modelov?
Odgovor: Obstajajo tri vrste podatkovnih modelov - konceptualni, logični in fizični. Stopnja zapletenosti in podrobnosti narašča od konceptualnega do logičnega do fizičnega podatkovnega modela.
Konceptualni model prikazuje zelo osnovno visoko raven oblikovanja, fizični podatkovni model pa zelo podroben pogled na oblikovanje.
- Konceptualni model bo samo prikaz imen entitet in odnosov entitet. Slika 1, prikazana v nadaljevanju tega članka, prikazuje konceptualni model.
- Logični model bo prikazal imena entitet, razmerja entitet, atribute, primarne ključe in tuje ključe v vsaki entiteti. Slika 2, prikazana znotraj vprašanja št. 4 v tem članku, prikazuje logični model.
- Fizični podatkovni model bodo prikazani primarni ključi, tuji ključi, imena tabel, imena stolpcev in podatkovni tipi stolpcev. Ta pogled dejansko pojasnjuje, kako bo model dejansko implementiran v bazo podatkov.
Q # 3) Želite osvetliti svoje izkušnje z modeliranjem podatkov v zvezi s projekti, na katerih ste delali do danes?
Opomba: To je bilo prvo vprašanje v enem od mojih intervjujev za modeliranje podatkov. Torej, preden stopite v razpravo o intervjuju, bi morali imeti zelo jasno sliko o tem, kako modeliranje podatkov ustreza nalogam, pri katerih ste delali.
Odgovor: Sodeloval sem pri projektu za zdravstveno zavarovalnico, kjer imamo vgrajene vmesnike Računalništvo ki preoblikuje in obdela podatke, pridobljene iz baze podatkov Facets, in pošilja uporabne informacije prodajalcem.
Opomba: Facets je celovita rešitev za upravljanje vseh informacij za zdravstveno industrijo. Baza podatkov o vidikih v mojem projektu je bila ustvarjena s strežnikom SQL 2012.
Imeli smo različne entitete, ki so bile povezane skupaj. Ti subjekti so bili naročnik, član, ponudnik zdravstvenih storitev, zahtevek, račun, vpis, skupina, upravičenost, načrt / izdelek, provizija, kapitalizacija itd.
Spodaj je konceptualni podatkovni model, ki prikazuje, kako je izgledal projekt na visoki ravni
Slika 1:
Vsak od podatkovnih entitet ima svoje atribute podatkov. Na primer, podatkovni atribut ponudnika bo identifikacijska številka ponudnika, nekaj podatkovnih atributov članstva bo ID naročnika, ID člana, eden od podatkovnih atributov zahtevka bo zahteval ID, vsak zdravstveni izdelek ali načrt bo imel enolično ID izdelka in tako naprej.
V # 4) Kakšne so različne sheme načrtovanja pri modeliranju podatkov? Pojasnite sprimer?
Odgovor: Pri modeliranju podatkov obstajata dve različni shemi
- Zvezdni urnik
- Shema snežinke
Zdaj bom razlagal vsako od teh shem eno za drugo.
Najenostavnejša od shem je zvezdna shema, kjer imamo v središču tabelo dejstev, ki se sklicuje na več tabel dimenzij okoli nje. Vse tabele dimenzij so povezane s tabelo dejstev. Primarni ključ v vseh tabelah dimenzij deluje kot tuji ključ v tabeli dejstev.
The Diagram IS (glej sliko 2) te sheme spominja na obliko zvezde in zato je ta shema poimenovana kot zvezdna shema.
Slika 2:
Shema zvezd je precej preprosta, prilagodljiva in je v normalizirani obliki.
V shemi snežinke se raven normalizacije poveča. Tabela dejstev tukaj ostaja enaka kot v shemi zvezd. Vendar so tabele dimenzij normalizirane. Zaradi več plasti dimenzijskih tabel je videti kot snežinka in je zato poimenovana kot shema snežinke.
kako ustvariti novo datoteko java v eclipse
Slika 3:
V # 5) Katero shemo ste uporabili pri svojem projektu in zakaj?
V # 6) Katera shema je boljša - zvezda ali snežinka?
Odgovor: (kombinirano za Q # 5 in 6): Izbira sheme je vedno odvisna od projektnih zahtev in scenarijev.
Ker je shema zvezd v normalizirani obliki, potrebujete manj združitev za poizvedbo. Poizvedba je preprosta in teče hitreje v zvezdni shemi. Če gre za shemo snežinke, ker je v normalizirani obliki, bo v primerjavi s shemo zvezd zahteval številna združevanja, poizvedba bo zapletena, izvedba pa počasnejša od sheme zvezd.
Druga pomembna razlika med tema dvema shemama je ta, da shema snežinke ne vsebuje odvečnih podatkov, zato jo je enostavno vzdrževati. Nasprotno, zvezdna shema ima visoko stopnjo redundance in jo je zato težko vzdrževati.
Zdaj, katerega izbrati za svoj projekt? Če je namen vašega projekta narediti več analize dimenzij, uporabite shemo snežinke. Na primer, če morate to ugotoviti 'Koliko naročnikov je vezanih na določen načrt, ki je trenutno aktiven?' - pojdi z modelom snežinke.
Če je namen vašega projekta narediti več metrične analize, uporabite shemo zvezd. Na primer, če morate to ugotoviti 'Kakšen je znesek zahtevka, plačan določenemu naročniku?' - pojdi s shemo zvezd.
V mojem projektu smo uporabili shemo snežinke, ker smo morali opraviti analize v več razsežnostih in ustvariti zbirna poročila za podjetje. Drug razlog za uporabo sheme snežinke je bil manj porabe pomnilnika.
V # 7) Kaj razumete pod dimenzijo in atributom?
Odgovor: Dimenzije predstavljajo kvalitativne podatke. Na primer, načrt, izdelek, razred so vse dimenzije.
Tabela dimenzij vsebuje opisne ali besedilne atribute. Na primer, kategorija izdelka in ime izdelka sta atributa dimenzije izdelka.
V # 8) Kaj je tabela dejstev in dejstev?
Odgovor: Dejstva predstavljajo kvantitativne podatke.
Na primer, neto dolgovani znesek je dejstvo. Tabela z dejstvi vsebuje numerične podatke in tuje ključe iz sorodnih dimenzijskih tabel. Primer tabele dejstev je razviden iz zgornje slike 2.
V # 9) Katere so različne vrste dimenzij, na katere ste naleteli? Vsakega od njih podrobno razložite s primerom?
Odgovor: Običajno obstaja pet vrst dimenzij.
a) Ustrezne mere : Dimenzija, ki se uporablja kot del različnih področij, se imenuje usklajena dimenzija. Uporablja se lahko z različnimi tabelami dejstev v eni zbirki podatkov ali v številnih podatkovnih zbirkah / skladiščih.
Na primer, če je dimenzija naročnika povezana z dvema tabelama dejstev - obračunom in zahtevkom, bi bila dimenzija naročnika obravnavana kot usklajena dimenzija.
b) Neželena dimenzija : To je tabela dimenzij, ki vsebuje atribute, ki jim ni mesto v tabeli dejstev ali v kateri koli od trenutnih tabel dimenzij. Na splošno , to so lastnosti, kot so zastavice ali kazalci.
Na primer, lahko je zastavica primernosti člana, nastavljena na „Y“ ali „N“, ali kateri koli drug kazalnik, nastavljen kot true / false, kakršni koli posebni komentarji itd. Torej , združimo vse take atribute in vstavimo enorazsežno tabelo, imenovano neželeno dimenzijo, ki ima edinstvene neželene ID-je z možno kombinacijo vseh vrednosti indikatorjev.
c) Razsežnost igranja vlog : To so dimenzije, ki se v isti zbirki podatkov uporabljajo za več namenov.
Na primer, dimenzijo datuma je mogoče uporabiti za „Datum zahtevka“, „Datum obračuna“ ali „Datum termina načrta“. Torej , taka dimenzija se bo imenovala dimenzija igranja vlog. Primarni ključ dimenzije Date bo v tabeli dejstev povezan z več tujimi ključi.
d) Počasno spreminjanje dimenzij (SCD): Ti so med vsemi dimenzijami najpomembnejši. To so dimenzije, pri katerih se vrednosti atributov spreminjajo s časom. Spodaj so različne vrste SCD
- Tip-0: To so dimenzije, pri katerih vrednost atributa s časom ostane nespremenjena. Na primer, Naročniški DOB je SCD tipa 0, ker bo vedno ostal enak ne glede na čas.
- Tip 1: To so dimenzije, pri katerih se prejšnja vrednost atributa nadomesti s trenutno vrednostjo. V dimenziji Tip-1 se ne vzdržuje nobena zgodovina. Na primer, Naslov naročnika (kjer podjetje zahteva, da ohrani edini trenutni naslov naročnika) je lahko dimenzija tipa 1.
- Tip 2: To so razsežnosti ohranjanja neomejene zgodovine. Na primer, Naslov naročnika (kjer podjetje zahteva vodenje evidence o vseh prejšnjih naslovih naročnika). V tem primeru bo v tabelo vstavljenih več vrstic za naročnika z njegovimi različnimi naslovi. Obstaja nekaj stolpcev, ki bodo identificirali trenutni naslov. Na primer, „Začetni datum“ in „Končni datum“. Vrstica, v kateri bo vrednost »Končni datum« prazna, bi vsebovala trenutni naslov naročnika, vse ostale vrstice pa bodo imele prejšnje naslove naročnika.
- Tip 3: To so tiste dimenzije, pri katerih se ohranja omejena zgodovina. Za vzdrževanje zgodovine uporabljamo dodaten stolpec. Na primer, Naslov naročnika (kjer podjetje zahteva vodenje evidence trenutnega in samo enega prejšnjega naslova). V tem primeru lahko stolpec 'naslov' raztopimo v dva različna stolpca - 'trenutni naslov' in 'prejšnji naslov'. Namesto da imamo več vrstic, bomo imeli samo eno vrstico, ki prikazuje trenutni in prejšnji naslov naročnika.
- Tip 4: V tej vrsti razsežnosti so zgodovinski podatki ohranjeni v ločeni tabeli. Tabela glavnih dimenzij vsebuje samo trenutne podatke. Na primer, tabela glavnih dimenzij bo imela samo eno vrstico na naročnika s trenutnim naslovom. Vsi drugi prejšnji naslovi naročnika bodo shranjeni v ločeni zgodovinski tabeli. Ta vrsta dimenzij se skoraj nikoli ne uporablja.
e) Izročena dimenzija: Izrojena dimenzija je dimenzija, ki ni dejstvo, je pa v tabeli dejstev predstavljena kot primarni ključ. Nima lastne dimenzijske tabele. Poimenujemo jo lahko tudi kot eno tabelo dimenzij atributov.
Ampak , namesto da bi ga hranili ločeno v tabeli dimenzij in dodali dodaten spoj, smo ta atribut postavili v tabelo dejstev neposredno kot ključ. Ker nima lastne dimenzijske tabele, nikoli ne more delovati kot tuji ključ v tabeli dejstev.
V # 10) Povejte svojo idejo glede dejstev brez dejstev? In zakaj ga uporabljamo?
Odgovor: Tabela dejstev brez dejstev je tabela dejstev, ki v sebi ne vsebuje merila dejstev. V njej so samo dimenzijske tipke.
odprtokodni sistem upravljanja relacijskih baz podatkov
Včasih se lahko v poslu pojavijo določene situacije, ko morate imeti tabelo dejstev brez dejstev.
Na primer, predpostavimo, da vzdržujete sistem evidenc o prisotnosti zaposlenih, lahko imate tabelo dejstev z vsemi podatki, ki vsebuje tri ključe.
ID zaposlenega |
ID_oddelka |
ID_časa |
Vidite lahko, da zgornja tabela ne vsebuje nobene mere. Če želite odgovoriti na spodnje vprašanje, lahko preprosto uporabite zgornjo posamezno tabelo dejstev, ne da bi imeli dve ločeni tabeli dejstev:
'Koliko zaposlenih na določenem oddelku je bilo prisotnih na določen dan?'
Tabela dejstev brez dejstev ponuja prilagodljivost oblikovanju.
V # 11) Razlikovati med OLTP in OLAP?
Odgovor: OLTP pomeni Spletni sistem za obdelavo transakcij & OLAP pomeni Spletni analitični sistem za obdelavo . OLTP vzdržuje podatke o transakcijah podjetja in je na splošno zelo normaliziran. Nasprotno, OLAP je namenjen analizi in poročanju in je v normalizirani obliki.
Ta razlika med OLAP in OLTP vam daje tudi pot do izbire zasnove sheme. Če je vaš sistem OLTP, uporabite zasnovo sheme zvezd, če je sistem OLAP, pa shemo snežinke.
V # 12) Kaj razumete pod data martom?
Odgovor: Podatkovne oznake so večinoma namenjene samotni panogi poslovanja. Namenjeni so posameznim oddelkom.
Na primer, Včasih sem delal za zdravstveno zavarovalnico, v kateri so bili različni oddelki, kot so finance, poročanje, prodaja itd.
Imeli smo podatkovno skladišče, v katerem so bile informacije, ki se nanašajo na vse te oddelke, nato pa je na tem skladišču podatkov zgrajenih malo podatkovnih kart. Ti DataMart so bili specifični za vsak oddelek. Z enostavnimi besedami lahko rečete, da je DataMart podmnožica podatkovnega skladišča.
V # 13) Katere so različne vrste ukrepov?
Odgovor: Imamo tri vrste ukrepov, in sicer
- Neaditivni ukrepi
- Pol-aditivni ukrepi
- Dodatni ukrepi
Neaditivni ukrepi so tisti, pri katerih ni mogoče uporabiti nobene funkcije združevanja. Na primer, razmerje ali stolpec v odstotkih; zastavica ali stolpec kazalnika, ki je v tabeli v resnici vsebuje vrednosti, kot je Y / N itd., je neaditivni ukrep.
Semaditivni ukrepi so tisti, nad katerimi je mogoče uporabiti nekatere (vendar ne vse) funkcije združevanja. Na primer, stopnja provizije ali stanje na računu.
Aditivni ukrepi so tisti, nad katerimi je mogoče uporabiti vse funkcije združevanja. Na primer, kupljene enote.
V # 14) Kaj je nadomestni ključ? V čem se razlikuje od primarnega ključa?
Odgovor: Nadomestni ključ je enolični identifikator ali sistemsko generiran ključ zaporedne številke, ki lahko deluje kot primarni ključ. Lahko je stolpec ali kombinacija stolpcev. Za razliko od primarnega ključa se ne prevzame iz obstoječih podatkovnih polj aplikacije.
V # 15) Ali drži, da bi morale biti vse zbirke podatkov v 3NF?
Odgovor: Ni obvezno, da je baza podatkov v 3NF. Vendar , če je vaš namen enostavno vzdrževanje podatkov, manjša odvečnost in učinkovit dostop, potem raje uporabite normalizirano bazo podatkov.
V # 16) Ste že kdaj naleteli na scenarij rekurzivnih odnosov? Če je odgovor da, kako ste to storili?
Odgovor: Rekurzivno razmerje se pojavi v primeru, ko je entiteta povezana sama s seboj. Da, naletel sem na tak scenarij.
Če govorimo o zdravstveni domeni, obstaja možnost, da je izvajalec zdravstvenih storitev (recimo zdravnik) pacient pri katerem koli drugem izvajalcu zdravstvene dejavnosti. Ker , če zdravnik sam zboli in potrebuje operacijo, bo moral za kirurško zdravljenje obiskati drugega zdravnika.
Torej , v tem primeru je subjekt - izvajalec zdravstvenega varstva povezan sam s seboj. Tuji ključ številke izvajalca zdravstvenega zavarovanja bo moral biti v evidenci vsakega člana (pacienta).
V # 17) Naštejte nekaj pogostih napak, ki so se pojavile med modeliranjem podatkov?
Odgovor: Nekaj pogostih napak, ki so se pojavile med modeliranjem podatkov:
- Izdelava obsežnih podatkovnih modelov : Veliki podatkovni modeli imajo radi več napak pri načrtovanju. Poskusite omejiti svoj podatkovni model na največ 200 tabel.
- Pomanjkanje namena : Če ne veste, čemu je namenjena vaša poslovna rešitev, boste morda prišli do napačnega podatkovnega modela. Jasnost poslovnega namena je torej zelo pomembna za pripravo pravega podatkovnega modela.
- Neustrezna uporaba nadomestnih ključev : Nadomestnega ključa ne smete uporabljati po nepotrebnem. Uporabite nadomestni ključ le, če naravni ključ ne more služiti namenu primarnega ključa.
- Nepotrebna denormalizacija : Ne denormalizirajte, dokler za to ne boste imeli jasnih in jasnih poslovnih razlogov, ker de-normalizacija ustvari odvečne podatke, ki jih je težko vzdrževati.
V # 18) Koliko je podrejenih tabel, ki jih je mogoče ustvariti iz ene nadrejene tabele?
Odgovor: Število podrejenih tabel, ki jih je mogoče ustvariti iz nadrejene tabele, je enako številu polj / stolpcev v nadrejeni tabeli, ki niso ključi.
V # 19) Izvajalec zdravstvenega varstva pred svojim delodajalcem skrije zdravstvene podatke. Za katero stopnjo skrivanja podatkov gre? Konceptualni, fizični ali zunanji?
Odgovor: To je scenarij zunanje ravni skrivanja podatkov.
V # 20) Kakšna je oblika tabele dejstev in tabele dimenzij?
Odgovor: Na splošno je tabela dejstev v normalizirani obliki, tabela dimenzij pa v normalizirani obliki.
V # 21) Katere podrobnosti bi potrebovali, da bi pripravili konceptualni model v projektu na področju zdravstvene oskrbe?
Odgovor: Za projekt zdravstvenega varstva bi spodnje podrobnosti zadoščale zahtevi po oblikovanju osnovnega konceptualnega modela
- Različne kategorije zdravstvenih načrtov in izdelkov.
- Vrsta naročnine (skupinska ali individualna).
- Nabor izvajalcev zdravstvenih storitev.
- Pregled zahtevka in obračuna.
V # 22) Zapleteno: če je za stolpec uporabljena edinstvena omejitev, ali bo vrnil napako, če boste vanjo poskušali vstaviti dve ničelni vrednosti?
Odgovor: Ne, v tem primeru ne bo prišlo do napake, ker je ničelna vrednost neenaka drugi ničelni vrednosti. Torej bo v stolpec brez napak vstavljeno več kot ena nula.
V # 23) Ali lahko navedete primer entitete podtipa in supertipa?
Odgovor: Da, recimo, da imamo te različne entitete - vozilo, avto, kolo, ekonomični avtomobil, družinski avto, športni avtomobil.
Tu je vozilo supertip. Avtomobil in kolo sta njegovi podvrsti. Poleg tega so ekonomski, športni in družinski avtomobili podvrsta njegovega supertipskega osebnega avtomobila.
Subjekt super entitete je tisti, ki je na višji ravni. Podtipi so subjekti, ki so združeni na podlagi določenih značilnosti. Na primer, vsa kolesa so dvokolesna, vsi avtomobili pa štirikolesni. In ker sta oba vozili, je torej njihova supertipska entiteta 'vozilo'.
V # 24) Kakšen je pomen metapodatkov?
Odgovor: Metapodatki so podatki o podatkih. Pove vam, kakšni podatki so dejansko shranjeni v sistemu, kakšen je njihov namen in komu so namenjeni.
Zaključek
- Praktično razumevanje Modeliranje podatkov koncept in kako se prilega nalogam, ki ste jih opravili, je zelo potreben za razbijanje intervjuja za modeliranje podatkov.
- Najpogosteje vprašane teme v Modeliranje podatkov intervjuji so - različne vrste podatkovnih modelov, vrste shem, vrste dimenzij in normalizacija.
- Bodite dobro pripravljeni tudi na vprašanja, ki temeljijo na scenariju.
Predlagam, da kadar koli odgovorite na vprašanje anketarju, je bolje, da idejo razložite s primerom. To bi pokazalo, da ste dejansko delali na tem področju in zelo dobro razumete bistvo koncepta.
Vse najboljše!!
najboljši čistilec neželenih datotek za Windows 10