complete guide big data analytics
Acesta este un ghid cuprinzător pentru analiza Big Data cu cazurile sale de utilizare, arhitectura, exemple și comparația cu Big Data și Data Science:
Analiza Big Data a câștigat atenție, deoarece corporații precum Facebook, Google și Amazon și-au creat propriile lor paradigme de procesare și analiză a datelor distribuite pentru a înțelege înclinațiile clienților lor pentru extragerea valorii din Big Data.
În acest tutorial, explicăm analiza big data și o comparăm cu Big Data și Data Science. Vom acoperi atributele necesare pe care întreprinderile trebuie să le aibă în strategia lor de date mari și în metodologia care funcționează. Vom menționa, de asemenea, cele mai recente tendințe și unele cazuri de utilizare a analizei datelor.
După cum se arată în imaginea de mai jos, Google Analytics necesită să utilizeze abilități IT, abilități de afaceri și știința datelor. Analiza Big Data este în centrul utilizării valorilor din Big Data și ajută la obținerea unor informații despre consumabile pentru o organizație.
(imagine sursă )
Ce veți învăța:
- Ce este Big Data Analytics
- Concluzie
Ce este Big Data Analytics
Big Data Analytics se ocupă cu utilizarea unei colecții de tehnici statistice, instrumente și proceduri de analiză a Big Data.
Recomandat Citirea => Introducere în Big Data
Analiza este cea care ajută la extragerea de modele valoroase și informații semnificative din datele mari pentru a sprijini luarea de decizii bazate pe date. Datorită apariției noilor surse de date, cum ar fi social media și date IoT, big data și analiza au devenit populare.
Această tendință dă naștere unui domeniu de practică și studiu numit „știința datelor” care cuprinde tehnicile, instrumentele, tehnologiile și procesele pentru extragerea datelor, curățarea, modelarea și vizualizarea.
Big Data vs. Big Data Analytics vs. Science Data
LA comparație între big data, știința datelor și analiza big data poate fi înțeles din tabelul de mai jos.
Bază | Date mare | Știința datelor | Analize Big Data |
---|---|---|---|
Instrumente și tehnologii | Hadoop Ecosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Roluri și abilități de lucru | Întreținerea infrastructurii de stocare, procesarea datelor și cunoștințele despre Hadoop și integrarea acestuia cu alte instrumente. | Transformarea datelor, ingineria datelor, disputarea datelor, modelarea datelor și vizualizarea | BI și analize avansate, statistici, modelare de date și învățare automată, abilități matematice, comunicare, consultanță. |
Denumiri | Arhitect Big Data Dezvoltator Big Data Inginer Big Data | Data Scientist Inginer Machine Learning | Analist Big Data Analist de afaceri Inginer Business Intelligence Specialist în analize de afaceri Dezvoltator de vizualizare date Manager Analytics |
Aproximativ. Salariul mediu anual în USD | 100.000 | 90.000 | 70.000 |
Citire sugerată = >> Știința datelor împotriva informaticii
Ce ar trebui să aibă fiecare strategie de analiză Big Data
O strategie bine definită, integrată și cuprinzătoare contribuie și sprijină luarea deciziilor valoroase bazate pe date într-o organizație. În această secțiune, am enumerat pașii cei mai importanți care trebuie luați în considerare la definirea unei strategii de analiză big data.
Pasul 1: Evaluare
O evaluare, deja aliniată la obiectivele afacerii, necesită implicarea părților interesate cheie, crearea unei echipe de membri cu setul adecvat de competențe, evaluarea politicilor, a persoanelor, a proceselor și a activelor tehnologice și de date. Dacă este necesar, se pot implica clienții celor evaluați în acest proces.
Pasul 2: stabilirea de priorități
După evaluare, trebuie să derivăm cazuri de utilizare, să le acordăm prioritate folosind analize predictive big data, analize prescriptive și analize cognitive. De asemenea, puteți utiliza un instrument, cum ar fi matricea de stabilire a priorităților, și puteți filtra în continuare cazurile de utilizare cu ajutorul feedback-ului și a contribuțiilor de la părțile interesate cheie.
Pasul 3: RoadMap
În acest pas, este necesar să creați o foaie de parcurs legată de timp și să o publicați pentru toată lumea. O foaie de parcurs trebuie să includă toate detaliile referitoare la complexități, fonduri, beneficiile inerente ale cazurilor de utilizare și proiectele cartografiate.
Pasul 4: Managementul schimbărilor
Implementarea gestionării schimbărilor necesită gestionarea disponibilității, integrității, securității și utilizabilității datelor. Un program eficient de gestionare a schimbărilor, care utilizează orice guvernare a datelor existentă, stimulează activitățile și membrii pe baza unei monitorizări continue.
Pasul 5: Set de abilități corecte
Identificarea setului adecvat de abilități este crucială pentru succesul organizației pe fondul tendințelor actuale din industrie. Prin urmare, trebuie să urmați liderii potriviți și să aduceți programe educaționale pentru a educa părțile interesate critice.
Pasul 6: Fiabilitate, scalabilitate și securitate
Abordarea corectă și strategia eficientă de analiză a datelor mari fac procesul de analiză fiabil, cu utilizarea eficientă a modelelor interpretabile care implică principiile științei datelor. O strategie de analiză big data trebuie să includă și aspecte ale securității încă de la început pentru o conductă de analiză robustă și bine integrată.
Conducte de date și proces pentru analiza datelor
Când planificați conducta de analiză a datelor, există trei aspecte fundamentale pe care trebuie să le luați în considerare. Acestea sunt după cum urmează:
- Intrare: Format date și selectarea tehnologiei de procesat, se bazează pe natura de bază a datelor. dacă datele sunt de serie și de calitate.
- Ieșire: Alegerea conectorilor , rapoarte și vizualizare depind de expertiza tehnică a utilizatorilor finali și de cerințele lor de consum de date.
- Volum: Soluții de scalare sunt planificate pe baza volumului de date pentru a evita supraîncărcarea pe sistemul de prelucrare a datelor mari.
Acum, haideți să discutăm despre un proces tipic și etapele pentru o conductă de analiză big data.
Etapa 1: Ingerarea datelor
Ingerarea datelor este primul și cel mai semnificativ pas în conducta de date. Acesta ia în considerare trei aspecte ale datelor.
- Sursa datelor - Este semnificativ în ceea ce privește alegerea arhitecturii conductei de date mari.
- Structura datelor - Serializarea este cheia pentru a menține o structură omogenă pe conductă.
- Curățenia datelor - Analiza este la fel de bună ca datele, fără probleme, cum ar fi valorile lipsă și valorile aberante etc.
Etapa 2: ETL / Depozitare
Următorul modul important este instrumentele de stocare a datelor pentru a efectua ETL (Extract Transform Load). Stocarea datelor într-un centru de date adecvat depinde de,
- Hardware
- Expertiză în management
- Buget
(imagine sursă )
Unele instrumente testate pentru ETL / Depozitare în centre de date sunt:
- Apache Hadoop
- Apache Hive
- Parchet Apache
- Motor de interogare Presto
Companiile cloud precum Google, AWS, Microsoft Azure furnizează aceste instrumente pe bază de plată pe bază și economisesc cheltuielile de capital inițiale.
Etapa 3: Analitică și vizualizare
Având în vedere limitarea Hadoop privind interogarea rapidă, trebuie să utilizați platforme și instrumente de analiză care să permită interogări rapide și ad-hoc cu vizualizarea necesară a rezultatelor.
>> Citire recomandată: Instrumente Big Data
Etapa 4: Monitorizare
După ce ați creat o infrastructură pentru ingestie, stocare și analiză cu instrumente de vizualizare, următorul pas este să aveți instrumente IT și de monitorizare a datelor pentru monitorizare. Acestea includ:
- Utilizarea CPU sau GPU
- Consum de memorie și resurse
- Rețele
Unele instrumente demne de luat în considerare sunt:
- Datadog
- Grafana
Instrumentele de monitorizare sunt indispensabile într-o conductă de analiză big data și ajută la monitorizarea calității și integrității conductei.
Arhitectură Big Data Analytics
Diagrama arhitecturală de mai jos arată modul în care tehnologiile moderne utilizează atât surse de date nestructurate, cât și structurate pentru procesarea Hadoop & Map-reduce, sisteme analitice în memorie și analize în timp real pentru a aduce rezultate combinate pentru operațiuni în timp real și luarea deciziilor.
(imagine sursă )
Tendințe actuale în analiza datelor
În această secțiune, am enumerat aspectele esențiale pe care trebuie să le căutați atunci când implementați sau urmăriți tendințele analizei Big Data în industrie.
# 1) Surse de date mari
Există în principal trei surse de Big Data. Acestea sunt enumerate mai jos:
- Date sociale: Date generate din cauza utilizării rețelelor sociale. Aceste date ajută la înțelegerea sentimente și comportamentul clienților și poate fi util în analiza de marketing.
- Date despre mașină: Aceste date sunt capturate din echipamente și aplicații industriale folosind senzori IoT. Ajută la înțelegere oamenilor comportament și oferă informații despre procese .
- Date tranzacționale: Acesta este generat ca urmare a activităților atât offline cât și online ale utilizatorilor în ceea ce privește ordinele de plată, facturile, chitanțele etc. Majoritatea acestor tipuri de date au nevoie preprocesare și curatenie înainte de a putea fi folosit pentru analize.
# 2) Stocare de date SQL / NoSQL
În comparație cu bazele de date tradiționale sau RDBMS, bazele de date NoSQL se dovedesc a fi mai bune pentru sarcinile necesare pentru analiza datelor mari.
Bazele de date NoSQL pot trata în mod inerent cu date nestructurate destul de bine și nu se limitează la modificări costisitoare ale schemelor, scalare verticală și interferențe ale proprietăților ACID.
# 3) Analiză predictivă
Analiza predictivă oferă informații personalizate care conduc organizațiile să genereze noi răspunsuri ale clienților sau achiziții și oportunități de vânzare încrucișată. Organizațiile folosesc analize predictive pentru a face predicții asupra elementelor individuale la niveluri granulare pentru a prezice rezultatele viitoare și a preveni posibilele probleme. Acest lucru este combinat în continuare cu date istorice și transformat în analize prescriptive.
Unele domenii în care analiza predictivă big data a fost utilizată cu succes sunt afacerile, protecția copilului, sistemele de sprijinire a deciziilor clinice, predicția portofoliului, predicțiile la nivel de economie și subscrierea.
# 4) Învățare profundă
Datele mari sunt copleșitoare pentru calculele convenționale. Se pare că tehnicile tradiționale de învățare automată de analiză a datelor se aplatizează în performanță odată cu creșterea varietății și volumului de date.
Analiza se confruntă cu provocări în ceea ce privește variațiile de format, sursele de intrare foarte distribuite, datele de intrare dezechilibrate și datele în flux rapid, iar algoritmii de învățare profundă se ocupă destul de eficient de astfel de provocări.
Învățarea profundă și-a găsit utilizarea eficientă în indexarea semantică, desfășurarea sarcinilor discriminatorii, imaginea semantică și etichetarea video, direcționarea socială, precum și în abordările ierarhice de învățare pe mai multe niveluri în domeniile recunoașterii obiectelor, etichetării datelor, regăsirii informațiilor și limbajului natural prelucrare.
# 5) Lacuri de date
Stocarea diferitelor seturi de date în diferite sisteme și combinarea acestora pentru analize cu abordările tradiționale de gestionare a datelor se dovedesc costisitoare și sunt aproape infezabile. Prin urmare, organizațiile realizează lacuri de date, care stochează date în formatul lor brut, nativ, pentru analize acționabile.
Imaginea de mai jos afișează un exemplu de lac de date în arhitectura big-data.
(imagine sursă )
Utilizări Big Data Analytics
Am enumerat mai jos câteva cazuri de utilizare predominante:
# 1) Analize pentru clienți
Analiza Big Data este utilă în diferite scopuri, cum ar fi micro-marketingul, marketingul individual, segmentarea mai fină și personalizarea în masă pentru clienții unei companii. Întreprinderile pot crea strategii pentru a-și personaliza produsele și serviciile în funcție de înclinațiile clienților de a vinde în sus sau de a vinde încrucișat o gamă similară sau diferită de produse și servicii.
# 2) Analiza funcționării
Analiza operațională ajută la îmbunătățirea luării deciziilor generale și a rezultatelor afacerii prin valorificarea datelor existente și îmbogățirea acestora cu datele despre mașină și IoT.
De exemplu, Analiza de date mari în domeniul asistenței medicale a făcut posibilă confruntarea cu provocări și noi oportunități legate de optimizarea cheltuielilor pentru asistență medicală, îmbunătățirea monitorizării studiilor clinice, prezicerea și planificarea răspunsurilor la epidemii de boală, cum ar fi COVID-19.
# 3) Prevenirea fraudei
Analiza Big Data este văzută cu potențialul de a oferi un beneficiu masiv, ajutând la anticiparea și reducerea încercărilor de fraudă, în principal în sectoarele financiar și asigurări.
De exemplu, Companiile de asigurări captează date în timp real despre demografie, câștiguri, daune medicale, cheltuieli de avocat, vreme, înregistrări vocale ale unui client și note de centru de apeluri. Detaliile specifice în timp real ajută la obținerea de modele predictive prin combinarea informațiilor menționate mai sus cu date istorice pentru a identifica anticipat revendicările frauduloase speculate.
# 4) Optimizarea prețurilor
Companiile folosesc analize de date mari pentru a crește marjele de profit, găsind cel mai bun preț la nivel de produs și nu la nivel de categorie. Companiilor mari le este prea copleșitor să obțină detalii granulare și complexitatea variabilelor de preț, care se schimbă în mod regulat pentru mii de produse.
O strategie de optimizare a prețurilor bazată pe analitici, cum ar fi scorul dinamic al tranzacțiilor, permite companiilor să stabilească prețuri pentru grupurile de produse și segmente pe baza datelor și a informațiilor pe nivelurile de tranzacții individuale pentru a obține câștiguri rapide de la clienți pretențioși.
întrebări frecvente
Q # 1) Analiza big data este o carieră bună?
Răspuns: Este o valoare adăugată pentru orice organizație, permițându-i să ia decizii în cunoștință de cauză și oferind un avantaj față de concurenți. O mișcare de carieră în Big Data vă crește șansele de a deveni un factor de decizie cheie pentru o organizație.
Î. 2) De ce este importantă analiza datelor mari?
Răspuns: Ajută organizațiile să creeze noi oportunități de creștere și categorii complet noi de produse care pot combina și analiza datele din industrie. Aceste companii au suficiente informații despre produse și servicii, cumpărători și furnizori, preferințele consumatorilor care pot fi capturate și analizate.
Î # 3) Ce este necesar pentru analiza big data?
Răspuns: Gama de tehnologii pe care un bun analist de date mari trebuie să le cunoască este imensă. Pentru ca cineva să stăpânească analiza Big Data, necesită înțelegerea diferitelor instrumente, software, hardware și platforme. De exemplu, Foi de calcul, interogări SQL și R / R Studio și Python sunt câteva instrumente de bază.
La nivel de întreprindere, instrumente precum MATLAB, SPSS, SAS și Congnos sunt importante pe lângă Linux, Hadoop, Java, Scala, Python, Spark, Hadoop și HIVE.
Întrebări obiective:
Q # 4) Care dintre bazele de date date mai jos nu este o bază de date NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Răspuns: PostgreSQL
Q # 5) Este Cassandra un NoSQL?
- Adevărat
- Fals
Răspuns: Adevărat
Q # 6) Care dintre următoarele nu este proprietatea Hadoop?
care sunt diferitele tipuri de testare
- Sursa deschisa
- Bazat pe Java
- Procesare distribuită
- Timp real
Răspuns: Timp real
Q # 7) Alegeți toate activitățile care NU sunt efectuate de un Data Scientist.
- Construiți modele de învățare automată și îmbunătățiți-le performanța.
- Evaluarea modelelor statistice pentru validarea analizelor
- Rezumați analize avansate utilizând instrumente de vizualizare a datelor
- Prezentarea rezultatelor analizei tehnice către echipele interne și clienții de afaceri
Răspuns: Prezentarea rezultatelor analizei tehnice către echipele interne și clienții de afaceri
Lecturi suplimentare = >> Diferențe cheie între Data Analyst și Data Scientist
Q # 8) Ce activități sunt efectuate de un analist de date?
- Curățați și organizați datele brute
- Găsirea tendințelor interesante în date
- creați tablouri de bord și vizualizări pentru o interpretare ușoară
- Toate cele de mai sus
Răspuns: Toate cele de mai sus
Q # 9) Care dintre următoarele este efectuată de un inginer de date?
- Integrarea noilor surse de date la conducta de analiză a datelor existentă
- Dezvoltarea API-urilor pentru consumul de date
- monitorizarea și testarea sistemului pentru performanțe continue
- Toate cele de mai sus
Răspuns: Toate cele de mai sus
Q # 10) Secvența corectă a fluxului de date pentru analize este
- Surse de date, Pregătirea datelor, Transformarea datelor, Proiectarea algoritmului, Analiza datelor
- Surse de date, Transformarea datelor, Proiectarea algoritmului, Pregătirea datelor, Analiza datelor
- Surse de date, Proiectare algoritmică, Pregătirea datelor, Transformarea datelor, Analiza datelor
- Surse de date, pregătirea datelor, proiectarea algoritmului, transformarea datelor, analiza datelor
Răspuns: Surse de date, Pregătirea datelor, Transformarea datelor, Proiectarea algoritmului, Analiza datelor
Q # 11) Analiza datelor este un proces liniar.
- Adevărat
- Fals
Răspuns: Fals
Q # 12) Analiza exploratorie NU este
- Răspuns întrebări inițiale de analiză a datelor în detaliu
- Determinați problemele cu setul de date
- Elaborați o schiță a unui răspuns la întrebare
- Stabiliți dacă datele sunt corecte pentru a răspunde la o întrebare
Răspuns: Răspunsîntrebări inițiale de analiză a datelor în detaliu
Q # 13) Întrebarea de predicție este un alt nume dat unei întrebări inferențiale.
- Adevărat
- Fals
Răspuns: Fals
Concluzie
Am acoperit cele mai importante aspecte ale analizei de date mari. Am explicat cele mai răspândite cazuri de utilizare și tendințele din industria analizei de date mari pentru a obține beneficii maxime.
Lectură recomandată
- Cele mai bune 7 companii de analiză a datelor din 2021 (Lista actualizată 2021)
- Top 15 instrumente Big Data (Big Data Analytics Tools) în 2021
- Cele mai bune 10 instrumente de analiză a datelor pentru o gestionare perfectă a datelor (LISTA 2021)
- Top 10 instrumente pentru știința datelor în 2021 pentru eliminarea programării
- Tutorial Big Data pentru începători | Ce este Big Data?
- Top 13 cele mai bune companii de Big Data din 2021
- Cele mai bune 10 instrumente de modelare a datelor pentru a gestiona modele complexe
- Cele mai bune 10 instrumente de guvernare a datelor pentru a vă satisface nevoile de date în 2021