metadata data warehouse explained with examples
Acest tutorial explică rolul metadatelor în ETL, exemple și tipuri de metadate, depozit de metadate și provocări în gestionarea metadatelor:
Data Mart în ETL a fost explicat în detaliu în tutorialul nostru anterior.
Conceptul de metadate este foarte important în ETL și acest tutorial va explica totul despre metadate.
Acoperă rolul metadatelor, exemple de metadate, precum și tipurile sale, depozitul de metadate, modul în care pot fi gestionate metadatele de depozitare a datelor, provocările pentru gestionarea metadatelor.
De asemenea, veți afla ce este ETL bazat pe metadate și diferența dintre date și metadate.
=> Citiți aici seria de instruire gratuită pentru depozitul de date.
Public țintă
- Depozite de date / dezvoltatori și testeri ETL.
- Profesioniști în baze de date cu cunoștințe de bază despre conceptele bazelor de date.
- Administratori de baze de date / experți în big data care doresc să înțeleagă zonele Data warehouse / ETL.
- Absolvenți / perfecționari care caută locuri de muncă în depozit de date.
Ce veți învăța:
copiați matricea într-o altă matrice java
Metadate în ETL
Utilizatorii echipei (sau) depozitului de date pot utiliza metadatele într-o varietate de situații pentru a construi, întreține și gestiona sistemul. Definiția de bază a metadatelor din depozitul de date este, „Sunt date despre date” .
Metadatele pot conține tot felul de informații despre datele DW, cum ar fi:
- Sursa pentru orice date extrase.
- Utilizarea acestor date DW.
- Orice fel de date și valorile sale.
- Caracteristicile datelor.
- Logica transformării datelor extrase.
- Tabelele DW și atributele acestora.
- Obiecte DW
- Marcaje de timp
Metadatele acționează ca un cuprins pentru datele din sistemul DW, care arată tehnica cu mai multe detalii despre acele date. În cuvinte simple, vă puteți gândi la un index din orice carte care acționează ca metadate, pentru conținutul acelei cărți.
În mod similar, metadatele funcționează ca un index al conținutului DW. Toate aceste metadate sunt stocate într-un depozit. Trecând prin metadate, utilizatorii finali ajung să știe de unde pot începe analiza sistemului DW. Altfel, este greu pentru utilizatorii finali să știe de unde să înceapă analiza datelor într-un sistem DW atât de mare.
Rolul metadatelor în Data Warehouse
În zilele anterioare, metadatele au fost create și menținute ca documente. Dar, în lumea digitală de astăzi, diverse instrumente au ușurat această activitate, înregistrând metadate la fiecare nivel al procesului DW.
Metadatele create de un instrument pot fi standardizate (adică datele pot fi aduse într-un format unic) și pot fi refolosite în celelalte instrumente oriunde în sistemul DW.
Deoarece suntem conștienți de faptul că sistemele operaționale mențin datele curente, sistemele DW păstrează datele istorice și actuale.
Metadatele trebuie să țină evidența tuturor modificărilor care au loc în sistemele sursă, în metodele de extragere / transformare a datelor și în structura (sau) conținutul datelor care vor apărea în acest proces. Metadatele vor menține diferite versiuni pentru a ține evidența tuturor acestor schimbări pe parcursul mai multor ani.
Metadatele suficiente furnizate în depozit vor ajuta orice utilizator să analizeze sistemul mai eficient și independent. Înțelegând metadatele, puteți rula orice fel de interogări pe datele DW pentru cele mai bune rezultate.
Reprezentarea picturală a rolului metadatelor:
Exemple de metadate în termeni simpli
Mai jos sunt câteva dintre exemplele de metadate.
- Metadatele pentru o pagină web pot conține limba în care este codată, instrumentele folosite pentru a o construi, sprijinirea browserelor etc.
- Metadatele pentru o imagine digitală pot conține dimensiunea imaginii, rezoluția, intensitatea culorii, data creării imaginii etc.
- Metadatele pentru un document pot conține data creării documentului, data ultimei modificări, dimensiunea, autorul, descrierea etc.
Comparație între date și MetaData
S. Nu | Date | Metadate |
---|---|---|
1 | Datele sunt un set de informații. | Metadatele sunt informații despre date. |
Două | Datele pot (sau) să nu fie prelucrate. | Metadatele sunt întotdeauna date procesate. |
Tipuri de metadate
Clasificarea metadatelor în diferite tipuri ne va ajuta să o înțelegem mai bine. Această clasificare se poate baza pe utilizarea sa (sau) a utilizatorilor etc.
Să analizăm mai jos diferitele tipuri de metadate:
# 1) Metadate din camera din spate: Direcționează DBA (sau) utilizatorii finali cu privire la procesele de extragere, curățare și încărcare.
# 2) Metadate din camera din față: Indică utilizatorilor finali să lucreze cu instrumente și rapoarte BI.
# 3) Procesează metadatele: Aceasta stochează metadatele procesului ETL, cum ar fi numărul de rânduri încărcate, respinse, procesate și timpul necesar încărcării într-un sistem DW etc. Aceste informații pot fi accesibile și utilizatorilor finali.
În același timp, statisticile tabelelor de etapizare sunt, de asemenea, importante pentru echipa ETL. Aceste metadate vor stoca datele procesului tabelelor de etapizare, cum ar fi numărul de rânduri încărcate, respinse, procesate și timpul necesar încărcării în fiecare tabel de etapizare.
# 4) Linia de date: Aceasta stochează transformarea logică pentru fiecare element de sistem sursă la elementul țintă DW.
comanda tar în unix cu exemple
# 5) Definiții de afaceri: Contextul pentru tabelele DW a fost derivat din definițiile afacerii. Fiecare atribut dintr-un tabel este asociat cu o definiție a afacerii. Prin urmare, acestea ar trebui stocate ca metadate (sau) orice alt document pentru referință viitoare. Atât utilizatorii finali, cât și echipa ETL depind de aceste definiții de afaceri.
# 6) Definiții tehnice: Definițiile tehnice sunt utilizate exclusiv în zona de stocare a datelor mai mult decât definițiile de afaceri. Scopul principal este de a reduce ambiguitatea în timp ce se creează tabele de intermediere și de a reutiliza orice tabele existente. Definițiile tehnice vor stoca detaliile fiecărui tabel de etapizare, cum ar fi locația și structura acestuia.
Fiecare tabel de etapizare este documentat tehnic aici, dacă nu este documentat, înseamnă că tabelul de etapizare nu există. Acest lucru evită recreerea aceleiași mese de punere în scenă.
# 7) Metadate de afaceri: Datele vor fi stocate în termeni de afaceri în beneficiul utilizatorilor finali / analiștilor / managerilor / oricăror utilizatori. Metadatele de afaceri sunt proxy pentru datele sursei de sistem, adică nu se vor efectua manipulări ale datelor pe acestea. Poate fi derivat din orice documente comerciale și reguli comerciale.
# 8) Metadate tehnice: Aceasta va stoca date tehnice, cum ar fi atributele tabelelor, tipurile lor de date, dimensiunea, atributele cheii primare, atributele cheii străine și orice indici. Acest lucru este mai structurat în comparație cu metadatele de afaceri.
Metadatele tehnice sunt destinate în principal echipei DW, cum ar fi dezvoltatorii / testerii / analiștii / DBA-urile, pentru a construi (sau) a întreține sistemul. Acest lucru este, de asemenea, utilizat în mod semnificativ de către administratori pentru a monitoriza încărcările bazei de date și copiile de rezervă ale datelor etc.
# 9) Metadate operaționale: După cum știm, datele din sistemul DW provin din multe sisteme operaționale cu diverse tipuri de date și câmpuri. Extractele DW transformă astfel de date în tipul unic și încarcă toate aceste date în sistem.
În același timp, trebuie să poată lega datele înapoi la datele de sistem sursă. Metadatele care stochează toate aceste surse de date operaționale sunt cunoscute sub numele de metadate operaționale.
# 10) Informații despre sistem sursă:
Puteți colecta următoarele metadate din diferite sisteme sursă:
- Sistem de fișiere bază de date (sau): Aceasta va stoca numele fișierelor (sau) bazelor de date ale sistemului sursă.
- Specificațiile tabelului: Aceasta va stoca toate detaliile despre tabele precum numele tabelului, scopul, dimensiunea, atributele, cheile primare și cheile străine.
- Reguli de gestionare a excepțiilor: Aceasta va stoca diferite metode de recuperare a sistemului în caz de defecțiuni ale sistemului.
- Definiții comerciale: Aceasta va stoca definițiile de afaceri pentru o scurtă înțelegere a datelor.
- Reguli de afaceri: Aceasta va stoca un set de reguli pentru fiecare tabel pentru a-i înțelege datele și pentru a evita inconsecvența.
Metadatele sistemului sursă economisesc mult timp echipei DW în timp ce analizează datele.
# 11) Metadate ETL Job: Metadatele joburilor ETL sunt foarte importante deoarece stochează detaliile tuturor joburilor care urmează să fie procesate în program, pentru a încărca sistemul ETL.
Aceste metadate stochează următoarele informații:
- Numele locului de munca: Numele postului ETL.
- Scopul slujbei: Scopul executării jobului.
- Tabelele / fișierele sursă: Acesta oferă numele și locația tuturor tabelelor și fișierelor din care datele provin de la acest job ETL. Aceasta poate avea mai multe nume de tabel (sau) fișier.
- Tabelele / fișierele vizate: Acesta oferă numele și locația tuturor tabelelor și fișierelor în care datele sunt transformate de acest job ETL. Aceasta poate avea mai multe nume de tabel (sau) fișier.
- Date respinse: Acesta oferă numele și locația tuturor tabelelor și fișierelor din care datele sursă intenționate nu au fost încărcate în țintă.
- Procese anterioare: Oferă joburile (sau) numele scripturilor de care depinde jobul curent. Înseamnă că acestea trebuie executate cu succes înainte de a rula lucrarea curentă.
- Post Procese: Oferă joburile (sau) numele scripturilor care ar trebui să fie executate imediat după jobul curent pentru a finaliza procesul.
- Frecvență: Oferă informații cu privire la frecvența executării lucrării, adică zilnic, săptămânal (sau) lunar.
# 12) Metadate de transformare: Metadatele de transformare stochează toate informațiile de construcție legate de proces ETL. Fiecare manipulare a datelor în procesul ETL este cunoscută sub numele de transformare a datelor.
Orice set de funcții, proceduri stocate, cursoare, variabile și bucle în procesul ETL pot fi considerate transformări. Dar astfel de transformări nu pot fi documentate separat ca metadate.
Întregul proces ETL este construit cu transformări de date. Puține transformări în ETL pot fi predefinite și utilizate în sistemul DW. Dezvoltatorii ETL își petrec timpul construind (sau) re-procesând toate transformările de date. Reutilizarea transformărilor predefinite în timpul dezvoltării procesului ETL va accelera munca.
Citiți următoarele transformări de date pe care le puteți găsi în ETL:
- Extrageri de date sursă: Aceasta implică transformări de date pentru a citi din datele de sistem sursă, cum ar fi o interogare SQL Select (sau) FTP (sau) citind date XML / mainframe.
- Generatoare de chei surogate: Noul număr de secvență care ar trebui generat pentru fiecare rând al tabelului bazei de date este stocat ca metadate.
- Căutări: Căutările pot fi formate cu toate instrucțiunile IN, îmbinările interioare și îmbinările exterioare. Acestea sunt utilizate în principal pentru a ține cheile surogat din toate tabelele de dimensiuni respective în timpul încărcării unui fapt.
- Filtre: Se recomandă filtrele pentru a sorta datele care ar trebui extrase, încărcate și respinse în procesul ETL. Filtrarea datelor în primele etape ale sistemului ETL este o bună practică. Filtrele sunt aplicate în funcție de regulile (sau) constrângerile de afaceri.
- Agregate: În funcție de nivelul de granularitate al datelor, metadatele legate de funcțiile agregate pot fi utilizate, cum ar fi suma, numărul, media etc.
- Strategii de actualizare: Acestea sunt regulile aplicate unei înregistrări în timpul actualizării datelor. Dacă există vreo modificare în datele existente, atunci aceasta va indica dacă ar trebui adăugată, ștearsă (sau) actualizată o înregistrare.
- Încărcător țintă: Încărcătorul țintă va stoca detaliile bazei de date, numele tabelelor și numele coloanelor în care ar trebui încărcate datele prin procesul ETL. Mai mult, aceasta va stoca, de asemenea, detaliile utilității de încărcare în vrac, dacă există, care se efectuează în timpul încărcării datelor în sistemul ETL.
Fiecare transformare poate fi numită în mod distinct cu o scurtă notă despre scopul ei.
Unele exemple de convenții de denumire sunt prezentate aici pentru lista de transformări de mai sus.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Depozit de metadate în ETL
Un depozit de metadate este un loc în care orice tip de metadate este stocat fie într-o bază de date locală (fie) într-o bază de date virtuală. Fiecare tip de metadate, cum ar fi metadatele de afaceri (sau) metadatele tehnice, pot fi separate logic într-un depozit.
În plus față de cele două tipuri de mai sus, depozitul mai are o componentă numită Navigator de informații.
Navigatorul de informații poate fi utilizat pentru a efectua sarcinile de mai jos:
- Interfață din instrumentul de interogare: Aceasta oferă o interfață cu instrumentele de interogare pentru a accesa metadatele DW.
- Drill Down Pentru detalii: Acest lucru permite utilizatorului să descopere metadatele pentru informații mai detaliate. De exemplu, la primul nivel, utilizatorul poate obține o definiție a tabelului de date. Prin foraj, el poate obține atributele tabelului la nivelul următor. Prin detalierea mai multor date, el poate obține detaliile fiecărui atribut etc.
- Examinați interogările și rapoartele predefinite: Aceasta permite utilizatorului să revizuiască interogările și rapoartele predefinite. Aceasta acționează ca o referință la interogările de cadru pe cont propriu, cu parametri corespunzători etc.
Reprezentarea pictorială a depozitului de metadate:
cum să apelați o funcție în python principal
Cum pot fi gestionate metadatele de depozitare a datelor?
Oamenii, procesul și instrumentele sunt sursele cheie pentru gestionarea metadatelor.
- Oamenii ar trebui să înțeleagă metadatele pentru o utilizare adecvată.
- Procesul va încorpora metadate în instrumentele (sau) depozitului cu progresul ciclului de viață DW pentru utilizare viitoare.
- Ulterior, metadatele pot fi gestionate de instrumente.
Provocări pentru gestionarea metadatelor
Odată ce metadatele sunt create, vă puteți confrunta cu provocările de mai jos în timp ce integrați și gestionați metadatele în sistem.
- Aducerea diferitelor formate de metadate într-un format standard poate necesita mai mult efort dacă sunt utilizate diferite instrumente în sistemul DW, deoarece metadatele pot fi stocate pe foi de calcul, aplicații (sau) baze de date.
- Formatele de metadate nu au standarde stabilite la nivel de industrie. Cu această lipsă de proces standardizat, este greu să trimiți metadatele prin diferite niveluri ale sistemului și instrumentelor DW.
- Menținerea consecventă a diferitelor versiuni ale metadatelor istorice este o sarcină complexă.
Ce este ETL bazat pe metadate?
ETL bazat pe metadate stabilește un strat pentru a simplifica procesul de încărcare a datelor într-un sistem DW. Puteți decide dacă prelucrați datele în sistem (sau), în funcție de metadate. Prin urmare, îl puteți apela ca ETL bazat pe metadate.
Concluzie
Rolul semnificativ al metadatelor în determinarea succesului (sau) eșecului unui sistem DW a fost explicat în detaliu în acest tutorial.
De asemenea, am explorat în detaliu Semnificația, rolul, exemplele, tipurile, provocările metadatelor, împreună cu reprezentarea picturală în cauză.
Sperăm că aceste tutoriale informative din această serie Data Warehouse vă vor îmbogăți cunoștințele despre Data Warehousing și conceptele conexe !!!
Lectura placuta!!
=> Accesați aici pentru a afla stocarea datelor de la zero.
Lectură recomandată
- Tutorial privind testarea depozitului de date cu exemple | Ghid de testare ETL
- Tutorial de testare a depozitului de date ETL (ghid complet)
- Model de date dimensionale în Data Warehouse - Tutorial cu exemple
- Tutorial Data Mart - Tipuri, exemple și implementarea Data Mart
- Ce este procesul ETL (Extract, Transform, Load) în Data Warehouse?
- Cele mai bune 10 instrumente de cartografiere a datelor utile în procesul ETL (LISTA 2021)
- Exemple de minerit de date: cele mai frecvente aplicații de minerit de date 2021
- Întrebări și răspunsuri la interviuri de testare ETL