what is data lake data warehouse vs data lake
Acest tutorial explică totul despre Data Lake, inclusiv nevoia, definiția, arhitectura, avantajele și diferențele dintre Data Lake și Data Warehouse:
Termenul „Data Lake” este folosit destul de des în lumea IT actuală. V-ați întrebat vreodată ce este și de unde vine exact termenul?
În era tehnologiei informației în care datele se amplifică zi și noapte în numeroase forme, conceptul de lac de date devine cu siguranță important și util.
Să analizăm în detaliu ce este un lac de date și care sunt beneficiile, utilizările etc. etc.
Ce veți învăța:
- Ce este un lac de date și cum funcționează?
- Concluzie
Ce este un lac de date și cum funcționează?
Un lac de date este un sistem sau un depozit centralizat de date care vă permite să stocați toate datele structurate, semi-structurate, nestructurate și binare în formatul său natural / nativ / brut.
Datele structurate pot include tabele din RDBMS; datele semi-structurate includ fișiere CSV, fișiere XML, jurnale, JSON etc .; datele nestructurate pot include PDF-uri, documente Word, fișiere text, e-mailuri etc .; iar datele binare pot include fișiere audio, video, imagini.
Urmează o arhitectură plană pentru stocarea datelor. În general, datele sunt stocate sub formă de blob-uri obiect sau fișiere.
[imagine sursă ]
Cu un lac de date, puteți stoca toată întreprinderea dvs. întrucât este într-un singur loc, fără a mai fi nevoie să structurați mai întâi datele. Puteți executa direct diferitele tipuri de analize pe acesta, inclusiv învățarea automată, analiza în timp real, mișcarea locală a datelor, mișcarea datelor în timp real, tablouri de bord și vizualizări.
Păstrează toate datele în ea în forma originală și presupune că analiza va avea loc ulterior, la cerere.
Analogia lacului de date
[imagine sursă ]
Termenul Data Lake a fost inventat de James Dixon, CTO-ul de atunci de la Pentaho. El definește data mart (un subset al unui depozit de date) ca fiind similar cu o sticlă de apă umplută cu apă curată, distilată, ambalată și structurată pentru o utilizare directă și ușoară.
Pe de altă parte, este similar cu un corp de apă în forma sa naturală. Fluxurile de date de la fluxuri (diverse funcții de afaceri / sisteme sursă) către lac. Consumatorii de lac de date, adică utilizatorii au acces la lac pentru a analiza, examina, colecta probe și a se arunca cu capul.
La fel cum apa din lac satisface nevoile diferite ale oamenilor, cum ar fi pescuitul, plimbarea cu barca, furnizarea de apă potabilă etc., în mod similar, arhitectura lacului de date are mai multe scopuri.
protecție firewall gratuită pentru Windows 10
Un om de știință al datelor îl poate folosi pentru a explora datele și a crea o ipoteză. Acesta oferă o oportunitate pentru analiștii de date de a analiza datele și de a descoperi tipare. Acesta oferă un mod utilizatorilor de afaceri și părților interesate de a explora datele.
De asemenea, oferă o oportunitate pentru analiștii care raportează să proiecteze rapoarte și să le prezinte companiei. Dimpotrivă, depozitul de date a ambalat date în scopuri bine definite la fel ca o sticlă bisleri care poate fi utilizată doar pentru apă potabilă.
Data Lake Market - Creștere, tendințe și predicții
Piața lacurilor de date este împărțită pe baza produsului (soluție sau serviciu), implementare (on-prem sau cloud), industria clienților (comerț cu amănuntul, servicii bancare, utilități, asigurări, IT, asistență medicală, telecomunicații, editare, producție) și geografică regiuni.
Conform raportului publicat de Mordor Intelligence, mai jos este instantaneul pieței pentru data lake:
[imagine sursă ]
# 1) Rezumatul pieței
Piața Data Lakes a fost evaluată la 3,74 miliarde USD în 2019 și se anticipează că va atinge 17,60 miliarde USD până în 2025, la un CAGR (Rată anuală de creștere compusă) de 29,9% în perioada de proiecție 2020-2025.
Aceste rezervoare de date se transformă din ce în ce mai mult ca o opțiune economică pentru multe organizații în depozitele de date. Spre deosebire de lacurile de date, depozitarea datelor necesită prelucrare suplimentară a datelor înainte de a intra în depozit.
Cheltuielile legate de gestionarea unui lac de date sunt mai mici în comparație cu un depozit de date, din cauza multă procesare și este necesar spațiu pentru a crea baza de date pentru depozite.
# 2) Jucători majori
Se estimează că piața Data Lake va fi o piață consolidată dominată de cei cinci jucători cheie, așa cum se vede în imaginea de mai jos.
cum să faci un plan de testare
# 3) Tendințe cheie
- Se așteaptă ca utilizarea sa să crească considerabil în sectorul bancar. Băncile adoptă lacuri de date pentru a furniza analize din mers. De asemenea, contribuie la dizolvarea multor silozuri în sectorul bancar.
- Deoarece există o creștere uriașă a plăților digitale / utilizarea portofelelor mobile pe tot globul, domeniul de aplicare pentru analiza datelor mari și, prin urmare, oportunitatea pentru acestea este în creștere.
- Se anticipează că America de Nord va avea o adopție ridicată pentru lacurile de date. Un studiu realizat de Capgemini spune că peste 60% din organizațiile financiare din SUA consideră că analiza big data acționează ca un diferențiator pentru afaceri și le oferă un avantaj competitiv. Peste 90% din organizații consideră că investițiile în proiecte de date mari măresc șansele de succes în viitor.
- Acestea sunt necesare pentru utilizarea aplicațiilor de contorizare inteligentă, iar în SUA este de așteptat ca aproximativ 20 de milioane de contoare inteligente să fie instalate în 2021. Prin urmare, se prevede o cerere mare pentru acestea.
De ce este necesar Data Lake?
Scopul unui lac de date este de a oferi o viziune neprocesată a datelor (date în forma sa cea mai pură).
Exemple
În zilele noastre, multe companii mari, inclusiv Google, Amazon, Cloudera, Oracle, Microsoft și încă puține au oferte de date lake.
Multe organizații utilizează servicii de stocare în cloud, cum ar fi Azure Data Lake sau Amazon S3. Companiile folosesc, de asemenea, un sistem de fișiere distribuite, cum ar fi Apache Hadoop. Conceptul de lac de date personale care vă permite să gestionați și să partajați propriile date mari a evoluat, de asemenea.
Dacă vorbim despre utilizări industriale, atunci este o potrivire foarte potrivită pentru domeniul sănătății. Din cauza formatului nestructurat al multor date în domeniul sănătății ( De exemplu, Note medicale, date clinice, istoricul bolilor pacienților etc.) și cerința de informații în timp real, un lac de date este o opțiune excelentă față de depozitul de date.
Oferă soluții flexibile și în sectorul educațional, unde datele sunt foarte vaste și foarte brute.
În sectorul transporturilor, în principal în gestionarea lanțului de aprovizionare sau logistică, ajută la realizarea de previziuni și la realizarea beneficiilor de reducere a costurilor.
Industria aviației și a energiei electrice utilizează, de asemenea, lacuri de date.
Un exemplu de implementare a acestuia este GE Predix (dezvoltat de General Electric), care este o platformă industrială de date care oferă competențe puternice de guvernare a datelor pentru a crea, implementa și administra aplicații industriale care se leagă de active industriale, colectează și analizează date și oferă în timp real perspective pentru îmbunătățirea infrastructurii și proceselor industriale.
Diferența dintre Data Warehouse și Data Lake
Adesea oamenilor le este greu să înțeleagă diferența dintre un lac și un depozit de date. Ei susțin, de asemenea, că este același lucru cu depozitul de date. Dar aceasta nu este realitatea.
Singura comunitate între lacul de date și depozitul de date este că ambele sunt depozite de stocare a datelor. Odihnește-te, sunt diferiți. Au cazuri de utilizare și scopuri diferite.
Diferențele sunt clarificate mai jos:
Data Lake | Depozit de date | |
---|---|---|
Analize | Un lac de date poate fi utilizat pentru învățarea automată, profilarea datelor pentru descoperirea datelor și analiza predictivă. | Un depozit de date poate fi utilizat pentru Business Intelligence, vizualizări și raportare pe loturi. |
Date | Un lac de date va păstra în el toate datele brute. Poate fi structurat, nestructurat sau semi-structurat. Ar putea fi posibil ca unele date din lacul de date să nu fie utilizate niciodată. | Un Data Warehouse încorporează numai acele date care sunt procesate și rafinate, adică date structurate care sunt necesare pentru raportarea și rezolvarea problemelor specifice de afaceri. |
Utilizatori | În general, utilizatorii unui lac de date sunt oameni de știință și dezvoltatori de date. | În general, utilizatorii depozitului de date sunt profesioniști în afaceri, utilizatori operaționali și analiști de afaceri. |
Accesibilitate | Lacul de date este extrem de accesibil și ușor și rapid de actualizat, deoarece nu are nicio structură. | În depozitul de date, actualizarea datelor este o operațiune mai complicată și mai costisitoare, deoarece depozitele de date sunt structurate prin proiectare. |
Schemă | Schemă la scriere. Proiectat înainte de implementarea DW. | Schema la citire. Scris la momentul analizei. |
Arhitectură | Arhitectură plană | Arhitectura ierarhică |
Scop | Scopul datelor brute stocate în lacurile de date nu este fix sau este nedeterminat. Uneori, datele pot curge într-un lac de date, având în vedere anumite utilizări viitoare specifice sau doar pentru a avea datele la îndemână. Lacul de date are date mai puțin organizate și mai puțin filtrate. | Datele procesate stocate în depozitul de date au un scop specific și definit. Un DW a organizat și a filtrat datele. Prin urmare, necesită mai puțin spațiu de stocare decât lacul de date. |
Depozitare | Proiectat pentru stocare la prețuri reduse. Hardware-ul lacului de date este foarte diferit de hardware-ul depozitului de date. Folosește servere de tip raft combinate cu stocare ieftină. Acest lucru face ca lacul de date să fie destul de economic și foarte scalabil la terabyți și petabytes. Acest lucru se face pentru a păstra toate datele într-un lac de date, astfel încât să puteți reveni la timp în orice moment pentru a face analize. | Scump pentru volume mari de date. Depozitul de date are un spațiu de stocare pe disc scump pentru a-l face extrem de performant. Prin urmare, pentru a conserva spațiul, modelul de date este simplificat și numai datele necesare pentru a lua decizii de afaceri sunt păstrate în depozitul de date. |
Suport pentru tipuri de date | Un Data Lake acceptă foarte bine tipurile de date netradiționale precum jurnalele de server, datele senzorilor, activitatea în rețelele sociale, textul, imaginile, multimedia etc. Toate datele sunt păstrate indiferent de sursă și structură. | În general, un depozit de date constă în date preluate din sisteme tranzacționale. Nu suportă foarte bine tipurile de date netradiționale. Stocarea și consumarea datelor netradiționale pot fi costisitoare și dificile cu depozitul de date. |
Securitate | Securitatea lacurilor de date este în stadiul de „maturare”, deoarece acesta este un concept relativ nou decât depozitul de date. | Securitatea depozitelor de date se află în stadiul „maturizat”. |
Agilitate | Foarte agil; configurați și reconfigurați după cum este necesar. | Mai puțin agilă; configurație fixă. |
Data Lake Architecture
Diagrama de arhitectură
Mai sus este diagrama arhitecturală conceptuală a lacului de date. În partea cea mai stângă, puteți vedea că avem sursele de date care pot fi structurate, semi-structurate sau nestructurate.
Aceste surse de date sunt combinate într-un depozit de date brute care utilizează date în forma brută, adică date fără transformări. Acesta este un spațiu de stocare redus, permanent și scalabil.
Apoi, avem cutii de nisip analitice care pot fi utilizate pentru descoperirea datelor, analiza datelor exploratorii și modelarea predictivă. Practic, acest lucru este folosit de oamenii de știință pentru date pentru a explora date, a construi noi ipoteze și a defini cazuri de utilizare.
Apoi, există un motor de procesare în serie care procesează datele brute într-o formă utilizabilă de consum, adică într-un format structurat care poate fi utilizat pentru raportarea către utilizatorii finali.
Apoi, avem un motor de procesare în timp real, care este preluat în flux de date și le transformă.
Caracteristici cheie ale Data Lake
Pentru a fi clasificat drept Data Lake, un depozit de date big ar trebui să conțină următoarele trei atribute:
# 1) Un singur depozit comun de date găzduit de obicei într-un sistem de fișiere distribuite (DFS).
Lacurile de date Hadoop susțin datele în forma nativă și captează modificări ale datelor și semanticii relative în timpul ciclului de viață al datelor. Această abordare este benefică în special pentru verificările de conformitate și auditurile interne.
Aceasta este o îmbunătățire față de Enterprise Data Warehouse convențional, în care atunci când datele trec prin transformări, agregări și modificări, este dificil să pună datele în ansamblu atunci când este necesar, iar companiile se străduiesc să afle sursa / originea datelor.
# 2) Incorporează capacități de planificare și planificare a lucrărilor (de exemplu, prin orice instrument de planificare, cum ar fi YARN etc.).
Executarea sarcinii de lucru este o necesitate esențială pentru Hadoop și YARN oferă managementul resurselor și o platformă centrală pentru a furniza procese constante, Securitate , precum și instrumente de guvernare a datelor de-a lungul clusterelor Hadoop, asigurându-se că fluxurile de lucru analitice posedă nivelul necesar de acces la date și putere de calcul.
# 3) Cuprinde setul de utilități și funcții necesare consumării, procesării sau lucrării cu datele.
Accesibilitatea ușoară și rapidă pentru utilizatori este una dintre trăsăturile cheie ale unui lac de date, din cauza faptului că organizațiile stochează datele în forma sa nativă sau pură.
În orice formă datele sunt adică structurate, nestructurate sau semi-structurate, sunt inserate așa cum sunt în lacul de date. Permite proprietarilor de date să combine datele despre clienți, furnizori și operațiuni, scăpând de orice bariere tehnice sau politice pentru partajarea datelor.
Beneficii
[imagine sursă ]
- Versatil : Destul de competent pentru a stoca tot felul de date structurate / nestructurate, de la date CRM la activități de rețea socială.
- Mai multă flexibilitate a schemei : Nu are nevoie de planificare sau cunoștințe prealabile privind analiza datelor. Stochează toate datele așa cum sunt în formă originală și presupune că analiza va avea loc ulterior, la cerere. Acest lucru este foarte util pentru OLAP. De exemplu, lacul de date Hadoop vă permite să nu aveți schemă în care puteți decupla schema de date.
- Analiza deciziilor în timp real : Se bucură de avantajul unei cantități uriașe de date consistente și algoritmi de învățare profundă pentru a ajunge la analiza deciziilor în timp real. Capabil să obțină valoare din tipuri nelimitate de date.
- Scalabil: Acestea sunt mult mai scalabile decât depozitele de date tradiționale și, de asemenea, sunt mai puțin costisitoare.
- Analitică avansată / compatibilitate cu SQL și alte limbi: Cu lacurile de date, există numeroase modalități de interogare a datelor. Spre deosebire de depozitele de date tradiționale care acceptă numai SQL pentru analize simple, acestea vă oferă o mulțime de alte opțiuni și suport lingvistic pentru a analiza datele. De asemenea, acestea sunt compatibile cu instrumente de învățare automată precum Spark MLlib.
- Democratizați datele: Acces democratizat la date printr-o vizualizare unică și integrată a datelor în întreaga organizație, utilizând în același timp o platformă eficientă de gestionare a datelor. Acest lucru asigură disponibilitatea generală a datelor.
- Calitate mai bună a datelor: În general, obțineți o calitate mai bună a datelor cu ajutorul lacurilor de date prin beneficii tehnologice, cum ar fi stocarea datelor în format nativ, scalabilitate, versatilitate, flexibilitatea schemelor, suport SQL și alte limbi și analize avansate.
Provocări și riscuri
Lacurile de date oferă o mulțime de avantaje. Dar da, există și câteva provocări și riscuri asociate acestora pe care o organizație trebuie să le abordeze cu atenție.
Sunt:
- Dacă nu sunt proiectate corespunzător, se pot transforma în mlaștini de date. Uneori, organizațiile ajung să descarce date nelimitate în aceste lacuri fără nici o strategie și scop.
- Uneori, analiștii care doresc să utilizeze datele nu au cunoștințe despre cum să facă acest lucru, deoarece este destul de dificil să faci minerit în lacurile de date. Astfel, își pierd relevanța și impulsul după un timp. Organizațiile trebuie să lucreze la eliminarea acestei bariere pentru analiști.
- Deoarece avem o mulțime de date dezorganizate în lacurile de date, acestea nu sunt suficient de noi sau de curente pentru a fi utilizate în producție. Prin urmare, datele din aceste lacuri rămân în modul pilot și nu sunt puse niciodată în producție.
- Datele nestructurate pot duce la date inutilizabile.
- Uneori, organizațiile au experiența că nu are un impact semnificativ asupra afacerilor în ceea ce privește investițiile realizate. Acest lucru necesită o schimbare a mentalității. Pentru ca impactul să apară, companiile trebuie să încurajeze managerii și liderii să ia decizii pe baza analizelor derivate din aceste rezervoare de date.
- Securitatea și controlul accesului sunt, de asemenea, unul dintre riscuri atunci când lucrați cu ele. Unele dintre datele care pot avea confidențialitate și reglementări necesare sunt plasate în lacurile de date fără nici o supraveghere.
Implementare
Într-o întreprindere, este destul de sensibil să realizați implementarea lacului de date într-un mod agil.
Adică, pentru a implementa mai întâi un Data Lake MVP, acesta este testat de utilizatori în ceea ce privește calitatea, ușurința accesului, stocarea și capacitățile analitice, primește feedback și apoi adaugă cerințele și caracteristicile complexe pentru a adăuga valoare lacului.
În general, o organizație trece prin cele patru etape de bază de mai jos de implementare:
[imagine sursă ]
Etapa 1:
Lacul de date de bază: În această etapă, echipa se bazează pe arhitectura de bază, tehnologia (bazată pe cloud sau moștenită) și practicile de securitate și guvernare pentru lacul de date. Este capabil să stocheze toate datele brute provenind din diverse surse ale întreprinderii și să combine datele interne și externe pentru a furniza informații îmbogățite.
Etapa 2:
Sandbox: îmbunătățirea abilității analitice: În această etapă, oamenii de știință de date accesează rezervorul de date pentru a executa experimente preliminare pentru utilizarea datelor brute și pentru a proiecta modele analitice pentru a satisface nevoile afacerii.
Etapa 3:
cel mai bun software firewall pentru Windows 10
Depozite de date și colaborare Data Lake: În această etapă, organizația începe să folosească data lake în sinergie cu depozitele de date existente. Datele cu prioritate redusă le sunt trimise astfel încât limita de stocare a depozitelor de date să nu fie depășită.
Prezintă o perspectivă de a produce informații din date reci sau de a le interoga pentru a descoperi informații care nu sunt indexate de bazele de date convenționale.
Etapa 4:
Adoptarea de la capăt la cap a Data Lake: Aceasta este ultima etapă de achiziție a maturității în care se transformă într-un element cheie al arhitecturii datelor organizației și în operațiunea de căutare directă în mod eficient. În acest moment, lacul de date ar fi înlocuit EDW și vor deveni singura sursă a tuturor datelor întreprinderii.
O organizație poate face următoarele prin intermediul lacului de date:
- Creați soluții complexe de modelare și analiză a datelor pentru diferite nevoi de afaceri.
- Proiectați tablouri de bord interactive care să consolideze înțelegerile din lacul de date, plus diverse aplicații și surse de date.
- Implementați programe avansate de analiză sau robotică, deoarece gestionează operațiunile de calcul.
În acest moment, are măsuri de securitate și de guvernare puternice.
Data Lake Vendors
Există diferiți furnizori care furnizează instrumente de date lac în industrie.
[imagine sursă ]
Dacă ne uităm la marile companii:
- Tehnica de calcul oferă un instrument inteligent de date Lake. BDM (Big Data Management) 10.2.2 este cea mai recentă versiune disponibilă.
- Există un furnizor numit privitor cine furnizează și instrumentul.
- Compania Talend care este popular pentru instrumentele lor ETL oferă, de asemenea, instrumentul Data Lake.
- Apoi, avem un instrument open-source numit Kylo de la Teradata companie. Echipa numită echipa „Think Big” din compania Teradata a dezvoltat acest instrument.
- Compania Date cu butoi Inc oferă, de asemenea, aceste servicii.
- Din Microsoft , puteți găsi Lacul de date Azure disponibile în industrie.
- Hvr-software oferă, de asemenea, soluții de consolidare a lacurilor de date.
- Date despre podium, o companie Qlik furnizează produse pentru instrumente, cum ar fi conducte pentru lacuri de date, lacuri de date cu mai multe zone.
- Fulg de nea are, de asemenea, un produs lac de date.
- Zaloni este o companie de lacuri de date care gestionează date imense folosind Big Data.
Deci, toți aceștia sunt furnizorii de servicii populari, precum și furnizorii de astfel de instrumente.
Dacă sunteți în căutarea practicării și dezvoltării cunoștințelor dvs. despre lacurile de date, atunci puteți merge pentru Informatica sau Kylo. Dacă sunteți în căutarea unui serviciu cloud, atunci puteți opta pentru Looker, Informatica și Talend. Acești trei furnizori furnizează lacuri de date cloud AWS. De asemenea, puteți obține o perioadă de încercare gratuită de o lună de la Kylo.
Concluzie
În acest tutorial, am discutat în detaliu conceptul lacului de date. Am trecut prin ideea de bază din spatele lacului de date, arhitectura acestuia, caracteristicile cheie, beneficiile, împreună cu exemplele sale, cazurile de utilizare etc.
De asemenea, am văzut cum diferă un lac de date de depozitul de date. De asemenea, am acoperit furnizorii de top care furnizează servicii conexe.
Lectura placuta!!
Lectură recomandată
- Tutorial privind testarea depozitului de date cu exemple | Ghid de testare ETL
- Top 10 instrumente de testare și validare a datelor structurate pentru SEO
- Data Mining: Proces, tehnici și probleme majore în analiza datelor
- Tutorial Data Mart - Tipuri, exemple și implementarea Data Mart
- Top 10 instrumente populare de stocare a datelor și tehnologii de testare
- Model de date dimensionale în Data Warehouse - Tutorial cu exemple
- Cele mai bune 10 instrumente de colectare a datelor cu strategii de colectare a datelor
- Funcție Pool de date în IBM Rational Quality Manager pentru testarea gestionării datelor