data mining process models
Acest tutorial despre procesul de extragere a datelor acoperă modele de extragere a datelor, pașii și provocările implicate în procesul de extragere a datelor:
Tehnici de extragere a datelor au fost explicate în detaliu în tutorialul nostru anterior Instruire completă pentru minerit de date pentru toți . Data Mining este un domeniu promițător în lumea științei și tehnologiei.
Data Mining, cunoscut și sub numele de Discovery Knowledge in Database, este un proces de descoperire a informațiilor utile din volume mari de date stocate în baze de date și depozite de date. Această analiză se face pentru procesele de luare a deciziilor din companii.
Exploatarea datelor este realizată folosind diverse tehnici, cum ar fi clusterizarea, asocierea și analiza secvențială a modelelor și arborele decizional.
Ce veți învăța:
- Ce este Data Mining?
- Extragerea datelor ca proces
- Modele de minerit de date
- Pași în procesul de extragere a datelor
- Proces de extragere a datelor în Oracle DBMS
- Procesul de extragere a datelor în Datawarehouse
- Care sunt aplicațiile de extragere a datelor?
- Provocări miniere de date
- Concluzie
- Lectură recomandată
Ce este Data Mining?
Data Mining este un proces de descoperire de tipare și cunoștințe interesante din cantități mari de date. Sursele de date pot include baze de date, depozite de date, web și alte depozite de informații sau date care sunt transmise în sistem dinamic.
De ce întreprinderile au nevoie de extragerea datelor?
Odată cu apariția Big Data, exploatarea datelor a devenit mai răspândită. Big data este un set extrem de mare de date care poate fi analizat de computere pentru a dezvălui anumite tipare, asociații și tendințe care pot fi înțelese de oameni. Big data conține informații extinse despre tipuri variate și conținut variat.
Astfel, cu această cantitate de date, statisticile simple cu intervenție manuală nu ar funcționa. Această nevoie este îndeplinită de procesul de extragere a datelor. Acest lucru duce la schimbarea de la statistici simple de date la algoritmi complexi de extragere a datelor.
Procesul de extragere a datelor va extrage informații relevante din date brute, cum ar fi tranzacții, fotografii, videoclipuri, fișiere plate și va procesa automat informațiile pentru a genera rapoarte utile pentru ca întreprinderile să ia măsuri.
Astfel, procesul de extragere a datelor este esențial pentru ca întreprinderile să ia decizii mai bune, descoperind tipare și tendințe în date, rezumând datele și scoțând informații relevante.
Extragerea datelor ca proces
Orice problemă de afaceri va examina datele brute pentru a construi un model care să descrie informațiile și să scoată la iveală rapoartele care vor fi utilizate de companie. Construirea unui model din surse de date și formate de date este un proces iterativ, deoarece datele brute sunt disponibile în multe surse diferite și în multe forme.
Datele cresc în fiecare zi, prin urmare, când se găsește o nouă sursă de date, poate schimba rezultatele.
Mai jos este schița procesului.
(imagine sursă )
Modele de minerit de date
Multe industrii precum producția, marketingul, industria chimică și industria aerospațială profită de exploatarea datelor. Astfel, cererea pentru procese standard și fiabile de extragere a datelor este crescută drastic.
Printre modelele importante de data mining se numără:
# 1) Proces standard pentru industria minieră (CRISP-DM)
CRISP-DM este un model fiabil de extragere a datelor format din șase faze. Este un proces ciclic care oferă o abordare structurată a procesului de extragere a datelor. Cele șase faze pot fi implementate în orice ordine, dar uneori ar necesita retragerea la pașii anteriori și repetarea acțiunilor.
declarați o matrice de șiruri în java
Cele șase faze ale CRISP-DM includ:
# 1) Înțelegerea afacerii: În acest pas, obiectivele afacerilor sunt stabilite și sunt descoperiți factorii importanți care vor ajuta la atingerea obiectivului.
# 2) Înțelegerea datelor: Acest pas va colecta toate datele și va completa datele în instrument (dacă utilizați un instrument). Datele sunt listate cu sursa de date, locația, modul în care sunt achiziționate și dacă a apărut o problemă. Datele sunt vizualizate și interogate pentru a verifica integralitatea acestora.
# 3) Pregătirea datelor: Acest pas implică selectarea datelor adecvate, curățarea, construirea atributelor din date, integrarea datelor din mai multe baze de date.
# 4) Modelare: Selectarea tehnicii de extragere a datelor, cum ar fi arborele decizional, generarea proiectării testului pentru evaluarea modelului selectat, construirea modelelor din setul de date și evaluarea modelului construit cu experți pentru a discuta rezultatul se face în acest pas.
# 5) Evaluare: Acest pas va determina gradul în care modelul rezultat îndeplinește cerințele afacerii. Evaluarea se poate face testând modelul pe aplicații reale. Modelul este revizuit pentru orice greșeli sau pași care ar trebui repetați.
# 6) Implementare: În acest pas se face un plan de implementare, se formează strategia de monitorizare și menținere a rezultatelor modelului de extragere a datelor pentru a verifica utilitatea acestuia, se fac rapoarte finale și se face revizuirea întregului proces pentru a verifica orice greșeală și pentru a vedea dacă se repetă vreun pas .
(imagine sursă )
# 2) SEMMA (eșantion, explorare, modificare, modelare, evaluare)
SEMMA este o altă metodologie de extragere a datelor dezvoltată de SAS Institute. Acronimul SEMMA înseamnă eșantion, explorare, modificare, modelare, evaluare.
SEMMA facilitează aplicarea tehnicilor statistice și de vizualizare exploratorii, selectarea și transformarea variabilelor prognozate semnificative, crearea unui model folosind variabilele pentru a ieși cu rezultatul și verificarea acurateței acestuia. SEMMA este, de asemenea, condus de un ciclu foarte iterativ.
Pași în SEMMA
- Probă: În acest pas, se extrage un set de date mare și se scoate un eșantion care reprezintă datele complete. Eșantionarea va reduce costurile de calcul și timpul de procesare.
- Explora: Datele sunt explorate pentru orice anomalii și anomalii pentru o mai bună înțelegere a datelor. Datele sunt verificate vizual pentru a afla tendințele și grupările.
- Modifica: În acest pas, manipularea datelor cum ar fi gruparea și subgruparea se face prin menținerea în focus a modelului care urmează să fie construit.
- Model: Pe baza explorărilor și modificărilor, sunt construite modelele care explică modelele din date.
- Evalua: Utilitatea și fiabilitatea modelului construit sunt evaluate în acest pas. Testarea modelului împotriva datelor reale se face aici.
Atât abordarea SEMMA, cât și cea CRISP funcționează pentru procesul de descoperire a cunoștințelor. Odată ce modelele sunt construite, acestea sunt implementate pentru afaceri și cercetare.
Pași în procesul de extragere a datelor
Procesul de extragere a datelor este împărțit în două părți, adică preprocesarea datelor și extragerea datelor. Preprocesarea datelor implică curățarea datelor, integrarea datelor, reducerea datelor și transformarea datelor. Partea de extragere a datelor efectuează extragerea datelor, evaluarea modelelor și reprezentarea cunoștințelor datelor.
(imagine sursă )
De ce preprocesăm datele?
cel mai bun software de captură de ecran gratuit pentru Windows 10
Există mulți factori care determină utilitatea datelor, cum ar fi acuratețea, caracterul complet, consistența, actualitatea. Datele trebuie să fie de calitate dacă îndeplinesc scopul dorit. Astfel preprocesarea este crucială în procesul de extragere a datelor. Pașii principali implicați în preprocesarea datelor sunt explicați mai jos.
# 1) Curățarea datelor
Curățarea datelor este primul pas în extragerea datelor. Are importanță, deoarece datele murdare, dacă sunt utilizate direct în minerit, pot provoca confuzie în proceduri și pot produce rezultate inexacte.
Practic, acest pas implică eliminarea din colecție a datelor zgomotoase sau incomplete. Sunt disponibile multe metode care, în general, curăță datele de la sine, dar nu sunt robuste.
Această etapă efectuează curățenia de rutină prin:
(i) Completați datele care lipsesc:
Datele lipsă pot fi completate prin metode precum:
- Ignorând tuplul.
- Completarea manuală a valorii lipsă.
- Folosiți măsura tendinței centrale, mediană sau
- Completarea celei mai probabile valori.
(ii) Eliminați datele zgomotoase: Eroarea aleatorie se numește date zgomotoase.
Metodele de eliminare a zgomotului sunt:
Binning: Metodele de binning sunt aplicate prin sortarea valorilor în găleți sau pubele. Netezirea se realizează consultând valorile învecinate.
Binningul se face prin netezire cu bin, adică fiecare coș se înlocuiește cu media coșului. Netezire cu o mediană, unde fiecare valoare a coșului este înlocuită cu o mediană a coșului. Netezirea în funcție de limitele coșului, adică valorile minime și maxime în coș sunt coșurile și fiecare valoare a coșului este înlocuită cu cea mai apropiată valoare a limitei.
- Identificarea valorilor aberante
- Rezolvarea neconcordanțelor
# 2) Integrarea datelor
Când mai multe surse de date eterogene, cum ar fi baze de date, cuburi de date sau fișiere sunt combinate pentru analiză, acest proces se numește integrare de date. Acest lucru poate ajuta la îmbunătățirea acurateței și vitezei procesului de extragere a datelor.
Diferite baze de date au convenții diferite de numire a variabilelor, provocând redundanțe în bazele de date. Curățarea suplimentară a datelor poate fi efectuată pentru a elimina redundanțele și neconcordanțele din integrarea datelor, fără a afecta fiabilitatea datelor.
Integrarea datelor poate fi realizată folosind instrumente de migrare a datelor, cum ar fi Oracle Data Service Integrator și Microsoft SQL etc.
# 3) Reducerea datelor
Această tehnică este aplicată pentru a obține date relevante pentru analiză din colectarea datelor. Dimensiunea reprezentării este mult mai mică ca volum, păstrând în același timp integritatea. Reducerea datelor se efectuează folosind metode precum Naive Bayes, arbori de decizie, rețea neuronală etc.
Unele strategii de reducere a datelor sunt:
- Reducerea dimensiunii: Reducerea numărului de atribute din setul de date.
- Reducerea numerozității: Înlocuirea volumului original de date cu forme mai mici de reprezentare a datelor.
- Comprimarea datelor: Reprezentarea comprimată a datelor originale.
# 4) Transformarea datelor
În acest proces, datele sunt transformate într-o formă adecvată procesului de extragere a datelor. Datele sunt consolidate, astfel încât procesul minier să fie mai eficient și tiparele să fie mai ușor de înțeles. Transformarea datelor implică maparea datelor și procesul de generare a codului.
Strategiile pentru transformarea datelor sunt:
- Netezire: Eliminarea zgomotului din date utilizând tehnici de reglare, regresie etc.
- Agregare: Operațiile de rezumat sunt aplicate datelor.
- Normalizare: Scalarea datelor pentru a se încadra într-un interval mai mic.
- Discretizare: Valorile brute ale datelor numerice sunt înlocuite cu intervale. De exemplu, Vârstă.
# 5) Exploatarea datelor
Data Mining este un proces de identificare a tiparelor și cunoștințelor interesante dintr-o cantitate mare de date. În acești pași, se aplică modele inteligente pentru a extrage tiparele de date. Datele sunt reprezentate sub formă de modele, iar modelele sunt structurate folosind tehnici de clasificare și clustering.
# 6) Evaluarea modelului
Acest pas implică identificarea unor modele interesante care reprezintă cunoștințele bazate pe măsuri de interes. Metodele de rezumare și vizualizare a datelor sunt utilizate pentru a face datele de înțeles de către utilizator.
# 7) Reprezentarea cunoștințelor
Reprezentarea cunoștințelor este un pas în care instrumentele de vizualizare a datelor și de reprezentare a cunoștințelor sunt utilizate pentru a reprezenta datele extrase. Datele sunt vizualizate sub formă de rapoarte, tabele etc.
Proces de extragere a datelor în Oracle DBMS
RDBMS reprezintă date sub formă de tabele cu rânduri și coloane. Datele pot fi accesate scriind interogări în baza de date.
Sistemele de gestionare a bazelor de date relaționale, cum ar fi Oracle, acceptă extragerea datelor folosind CRISP-DM. Facilitățile bazei de date Oracle sunt utile în pregătirea și înțelegerea datelor. Oracle acceptă extragerea datelor prin interfața java, interfața PL / SQL, extragerea automată a datelor, funcțiile SQL și interfețele grafice ale utilizatorului.
Procesul de extragere a datelor în Datawarehouse
Un depozit de date este modelat pentru o structură de date multidimensională numită cub de date. Fiecare celulă dintr-un cub de date stochează valoarea unor măsuri agregate.
Exploatarea datelor în spațiu multidimensional, efectuată în stil OLAP (Online Analytical Processing), unde permite explorarea mai multor combinații de dimensiuni la diferite niveluri de granularitate.
Care sunt aplicațiile de extragere a datelor?
Lista zonelor în care exploatarea datelor este utilizată pe scară largă include:
# 1) Analiza datelor financiare: Data Mining este utilizat pe scară largă în servicii bancare, de investiții, de creditare, ipotecare, împrumuturi auto și servicii de investiții în asigurări și acțiuni. Datele colectate din aceste surse sunt complete, fiabile și de înaltă calitate. Acest lucru facilitează analiza sistematică a datelor și extragerea datelor.
# 2) Industriile de retail și de telecomunicații: Sectorul de vânzare cu amănuntul colectează cantități uriașe de date despre vânzări, istoricul cumpărăturilor clienților, transportul de mărfuri, consum și servicii. Exploatarea datelor cu amănuntul ajută la identificarea comportamentelor de cumpărare a clienților, a modelelor de cumpărături și a tendințelor clienților, îmbunătățirea calității serviciului pentru clienți, o mai bună păstrare a clienților și satisfacție.
# 3) Știință și inginerie: Informatica și ingineria miniere de date pot ajuta la monitorizarea stării sistemului, îmbunătățirea performanței sistemului, izolarea erorilor software, detectarea plagiatului software și recunoașterea defecțiunilor sistemului.
# 4) Detectarea și prevenirea intruziunilor: Intruziunea este definită ca orice set de acțiuni care amenință integritatea, confidențialitatea sau disponibilitatea resurselor rețelei. Metodele de extragere a datelor pot ajuta la detectarea și prevenirea intruziunilor sistemului pentru a spori performanța acestuia.
# 5) Sisteme de recomandare: Sistemele de recomandare ajută consumatorii făcând recomandări de produse care prezintă interes pentru utilizatori.
Provocări miniere de date
Mai jos sunt enumerate diferitele provocări implicate în exploatarea datelor.
unde sunt stocate apk-urile pe Android
- Data Mining are nevoie de baze de date și colectare de date mari, greu de gestionat.
- Procesul de extragere a datelor necesită experți în domeniu greu de găsit.
- Integrarea din baze de date eterogene este un proces complex.
- Practicile la nivel organizațional trebuie modificate pentru a utiliza rezultatele miniere de date. Restructurarea procesului necesită efort și costuri.
Concluzie
Data Mining este un proces iterativ în care procesul de minerit poate fi rafinat, iar noile date pot fi integrate pentru a obține rezultate mai eficiente. Data Mining îndeplinește cerința unei analize de date eficiente, scalabile și flexibile.
Poate fi considerată o evaluare naturală a tehnologiei informației. Ca proces de descoperire a cunoștințelor, pregătirea datelor și sarcinile de extragere a datelor completează procesul de extragere a datelor.
Procesele de extragere a datelor pot fi efectuate pe orice fel de date, cum ar fi datele bazelor de date și bazele de date avansate, cum ar fi seriile de timp etc. Procesul de extragere a datelor vine și cu propriile provocări.
Rămâneți la curent cu următorul nostru tutorial pentru a afla mai multe despre exemplele de minerit de date !!
Lectură recomandată
- Data Mining: Proces, tehnici și probleme majore în analiza datelor
- Tehnici de extragere a datelor: algoritm, metode și instrumente de top pentru extragerea datelor
- Cele mai bune 10 instrumente de cartografiere a datelor utile în procesul ETL (LISTA 2021)
- Top 10 instrumente de proiectare a bazelor de date pentru a construi modele de date complexe
- Data Mining Vs Machine Learning Vs Intelligence Artificial Vs Deep Learning
- Top 15 Cele mai bune instrumente gratuite de extragere a datelor: Lista cea mai cuprinzătoare
- Testarea conceptului, procesului și strategiei de gestionare a datelor
- Parametrizarea datelor JMeter folosind variabile definite de utilizator