data mining techniques
Acest tutorial detaliat privind tehnicile de extragere a datelor explică algoritmi, instrumente de extragere a datelor și metode de extragere a datelor utile:
In acest Tutoriale de formare aprofundată în materie de date pentru toți , am explorat totul despre Data Mining în tutorialul nostru anterior.
În acest tutorial, vom afla despre diferitele tehnici utilizate pentru extragerea datelor. Deoarece știm că extragerea datelor este un concept de extragere a informațiilor utile din cantitatea mare de date, unele tehnici și metode sunt aplicate seturilor mari de date pentru a extrage informații utile.
Aceste tehnici sunt practic sub formă de metode și algoritmi aplicați seturilor de date. Unele dintre tehnicile de extragere a datelor includ Exploatarea de modele frecvente, asociații și corelații, clasificări, grupare, detectarea valorilor aberante și câteva tehnici avansate, cum ar fi extragerea datelor statistice, vizuale și audio.
În general, bazele de date relaționale, bazele de date tranzacționale și depozitele de date sunt utilizate pentru tehnicile de extragere a datelor. Cu toate acestea, există și câteva tehnici avansate de extragere a datelor complexe, cum ar fi seriile de timp, secvențele simbolice și datele secvențiale biologice.
Ce veți învăța:
- Scopul tehnicilor de extragere a datelor
- Lista tehnicilor de extragere a datelor
- Algoritmi de top pentru minerit de date
- Metode de extragere a datelor
- Cele mai bune instrumente de extragere a datelor
- Concluzie
- Lectură recomandată
Scopul tehnicilor de extragere a datelor
Cu o cantitate imensă de date stocate în fiecare zi, companiile sunt acum interesate să afle tendințele din acestea. Tehnicile de extragere a datelor ajută la convertirea datelor brute în cunoștințe utile. Pentru a extrage cantități uriașe de date, software-ul este necesar, deoarece este imposibil pentru un om să treacă manual prin volumul mare de date.
Un software de data mining analizează relația dintre diferitele articole din bazele de date mari, care pot ajuta în procesul decizional, pot afla mai multe despre clienți, pot crea strategii de marketing, pot crește vânzările și pot reduce costurile.
Lista tehnicilor de extragere a datelor
Tehnica de extragere a datelor care urmează să fie aplicată depinde de perspectiva analizei noastre de date.
Deci, să discutăm diferitele tehnici despre modul în care extracția datelor poate fi realizată în diferite moduri:
# 1) Exploatarea frecventă a modelelor / Analiza asocierii
Acest tip de tehnică de extragere a datelor caută relații recurente în setul de date dat. Acesta va căuta asociații și corelații interesante între diferitele elemente din baza de date și va identifica un model.
Un exemplu, de acest fel, ar fi „Analiza coșului de cumpărături”: aflarea „ce produse ar putea cumpăra clienții împreună în magazin?” precum pâinea și untul.
Cerere: Proiectarea plasării produselor pe rafturile magazinelor, comercializarea, vânzarea încrucișată a produselor.
Modelele pot fi reprezentate sub formă de reguli de asociere. Regula de asociere spune că sprijinul și încrederea sunt parametrii pentru a afla utilitatea articolelor asociate. Tranzacțiile care au avut ambele articole achiziționate împreună dintr-o singură dată sunt cunoscute ca suport.
Tranzacțiile în care clienții au cumpărat ambele articole, dar unul după altul, reprezintă încredere. Modelul minat ar fi considerat interesant dacă are un prag minim de sprijin și prag minim de încredere valoare. Valorile pragului sunt stabilite de experții din domeniu.
ce este un fișier 7z mac
Pâine => unt (suport = 2%, încredere-60%)
Afirmația de mai sus este un exemplu de regulă de asociere. Aceasta înseamnă că există o tranzacție de 2% care a cumpărat împreună pâine și unt și există 60% dintre clienții care au cumpărat pâine, precum și unt.
Pași pentru implementarea analizei de asociere:
- Găsirea de obiecte frecvente. Itemset înseamnă un set de articole. Un set de articole care conține k elemente este un set de articole k. Frecvența unui set de articole este numărul de tranzacții care conțin setul de articole.
- Generarea de reguli puternice de asociere din seturile de articole frecvente. Prin reguli puternice de asociere, înțelegem că pragul minim de sprijin și încredere este îndeplinit.
Există diferite metode frecvente de extragere a seturilor de elemente, cum ar fi algoritmul Apriori, abordarea creșterii tiparelor și exploatarea utilizând formatul de date verticale. Această tehnică este cunoscută sub denumirea de Market Basket Analysis.
# 2) Analiza corelației
Analiza corelației este doar o extensie a Regulilor de asociere. Uneori, parametrii de asistență și încredere pot produce în continuare modele neinteresante utilizatorilor.
Un exemplu care susține declarația de mai sus poate fi: din 1000 de tranzacții analizate, 600 conțineau numai pâine, în timp ce 750 conțineau unt și 400 conțineau atât pâine, cât și unt. Să presupunem că suportul minim pentru rularea regulilor de asociere este de 30% și încrederea minimă este de 60%.
Valoarea suportului 400/1000 = 40% și valoarea încrederii = 400/600 = 66% îndeplinesc pragul. Cu toate acestea, vedem că probabilitatea de a cumpăra unt este de 75%, care este mai mare de 66%. Aceasta înseamnă că pâinea și untul sunt corelate negativ, deoarece achiziționarea unuia ar duce la o scădere a achiziției celuilalt. Rezultatele sunt înșelătoare.
Din exemplul de mai sus, sprijinul și încrederea sunt completate cu o altă măsură de interes, adică analiza corelației, care va ajuta la extragerea tiparelor interesante.
A => B (suport, încredere, corelație).
Regula corelației se măsoară prin sprijin, încredere și corelație între elementele A și B. Corelația se măsoară prin Lift și Chi-Square.
(Ridic: După cum spune cuvântul însuși, Lift reprezintă gradul în care prezența unui set de articole ridică apariția altor seturi de articole.
Creșterea dintre apariția lui A și B poate fi măsurată prin:
Ridicați (A, B) = P (A U B) / P (A). P (B).
Dacă este<1, then A and B are negatively correlated.
Dacă este> 1. Atunci A și B sunt corelate pozitiv, ceea ce înseamnă că apariția uneia implică apariția celeilalte.
Dacă este = 1, atunci nu există nicio corelație între ele.
(ii) Chi-Square: Aceasta este o altă măsură de corelație. Măsoară diferența pătrată între valoarea observată și cea așteptată pentru un slot (perechea A și B) împărțită la valoarea așteptată.
ce poate deschide un fișier eps
Dacă este> 1, atunci este corelat negativ.
# 3) Clasificare
Clasificarea ajută la construirea modelelor de clase de date importante. Un model sau un clasificator este construit pentru a prezice etichetele clasei. Etichetele sunt clasele definite cu valori discrete precum „da” sau „nu”, „sigur” sau „riscant”. Este un tip de învățare supravegheată, deoarece clasa etichetei este deja cunoscută.
Clasificarea datelor este un proces în doi pași:
- Etapa de învățare: Modelul este construit aici. Un algoritm predefinit este aplicat datelor pentru a fi analizate cu o etichetă de clasă furnizată și sunt construite regulile de clasificare.
- Etapa de clasificare: Modelul este utilizat pentru a prezice etichetele clasei pentru datele date. Acuratețea regulilor de clasificare este estimată de datele de testare care, dacă sunt găsite exacte, sunt utilizate pentru clasificarea noilor tupluri de date.
Elementele din setul de articole vor fi alocate categoriilor țintă pentru a prezice funcții la nivelul etichetei clasei.
Cerere: Băncile trebuie să identifice solicitanții de împrumut cu risc scăzut, mediu sau ridicat, întreprinderile care proiectează campanii de marketing pe baza clasificării pe grupe de vârstă. '
# 4) Inducerea arborelui decizional
Metoda de inducere a copacilor de decizie face parte din analiza clasificării. Un arbore de decizie este o structură asemănătoare unui copac, ușor de înțeles și simplă și rapidă. În acest sens, fiecare nod non-frunză reprezintă un test pe un atribut și fiecare ramură reprezintă rezultatul testului, iar nodul frunzei reprezintă eticheta clasei.
Valorile atributelor dintr-un tuplu sunt testate în funcție de arborele de decizie de la rădăcină la nodul frunzei. Arborii de decizie sunt populari, deoarece nu necesită cunoștințe de domeniu. Acestea pot reprezenta date multidimensionale. Arborii de decizie pot fi ușor convertiți în reguli de clasificare.
Cerere: Arborii de decizie sunt construiți în medicină, producție, producție, astronomie etc. Un exemplu poate fi văzut mai jos:
# 5) Clasificarea Bayes
Clasificarea Bayesiană este o altă metodă de analiză a clasificării. Clasificatorii Bayes prezic probabilitatea ca un anumit tupl să aparțină unei anumite clase. Se bazează pe teorema Bayes, care se bazează pe teoria probabilității și a deciziei.
Clasificarea Bayes funcționează pe probabilitatea posterioară și probabilitatea anterioară pentru procesul decizional. Prin probabilitatea posterioară, ipoteza se face din informațiile date, adică se cunosc valorile atributelor, în timp ce pentru probabilitatea anterioară, ipotezele sunt date indiferent de valorile atributelor.
# 6) Analiza clusterizării
Este o tehnică de partiționare a unui set de date în clustere sau grupuri de obiecte. Clusterizarea se face folosind algoritmi. Este un tip de învățare nesupravegheată, deoarece informațiile despre etichetă nu sunt cunoscute. Metodele de grupare identifică date care sunt similare sau diferite între ele și se face analiza caracteristicilor.
Analiza cluster poate fi utilizată ca o etapă prealabilă pentru aplicarea diferiților alți algoritmi, cum ar fi caracterizarea, selectarea subsetului de atribute, etc. Analiza cluster poate fi utilizată și pentru detectarea Outlier, cum ar fi achizițiile mari în tranzacțiile cu cardul de credit.
Aplicații: Recunoașterea imaginilor, căutarea pe web și securitatea.
# 7) Detecție anterioară
Procesul de găsire a obiectelor de date care posedă un comportament excepțional față de celelalte obiecte se numește detectare anterioară. Detecția exterioară și analiza clusterului sunt legate între ele. Metodele anterioare sunt clasificate în statistici, bazate pe proximitate, bazate pe grupare și bazate pe clasificare.
Există diferite tipuri de valori aberante, unele dintre ele sunt:
- Global Outlier: Obiectul de date s-a deviat semnificativ de la restul setului de date.
- Valoare anterioară contextuală: Depinde de anumiți factori precum ziua, ora și locația. Dacă un obiect de date se abate semnificativ în raport cu un context.
- Valori anexe colective: Când un grup de obiecte de date are un comportament diferit de întregul set de date.
Cerere: Detectarea riscurilor de fraudă a cardului de credit, detectarea noutăților etc.
# 8) Modele secvențiale
O tendință sau unele modele consistente sunt recunoscute în acest tip de exploatare a datelor. Înțelegerea comportamentului de cumpărare a clienților și a modelelor secvențiale sunt utilizate de magazine pentru a-și afișa produsele pe rafturi.
Cerere: Exemplu de comerț electronic în care atunci când cumpărați articolul A, acesta va arăta că articolul B este adesea cumpărat cu articolul A privind istoricul achizițiilor din trecut.
# 9) Analiza regresiei
Acest tip de analiză este supravegheat și identifică care elemente din diferitele relații sunt legate sau sunt independente unul de celălalt. Poate prezice vânzările, profitul, temperatura, prognoza comportamentului uman etc. Are o valoare a setului de date care este deja cunoscută.
Când este furnizată o intrare, algoritmul de regresie va compara intrarea și valoarea așteptată, iar eroarea este calculată pentru a ajunge la rezultatul exact.
Cerere: Compararea eforturilor de marketing și dezvoltare a produselor.
Algoritmi de top pentru minerit de date
Tehnicile de extragere a datelor sunt aplicate prin intermediul algoritmilor din spatele acestuia. Acești algoritmi rulează pe software-ul de extragere a datelor și sunt aplicați în funcție de nevoile afacerii.
Unii dintre algoritmii care sunt utilizați pe scară largă de către organizații pentru a analiza seturile de date sunt definiți mai jos:
- K-înseamnă: Este o tehnică populară de analiză a clusterului în care un grup de articole similare este grupat împreună.
- Algoritmul Apriori: Este o tehnică frecventă de extragere a obiectelor, iar regulile de asociere i se aplică în bazele de date tranzacționale. Va detecta obiecte frecvente și va evidenția tendințele generale.
- K Cel mai apropiat vecin: Această metodă este utilizată pentru clasificarea și analiza regresiei. Cel mai apropiat vecin este învățatul leneș unde stochează datele de antrenament și când vor apărea noi date neetichetate, acesta va clasifica datele de intrare.
- Navele Bayes: Este un grup de algoritmi de clasificare probabilistică simplă care presupun că fiecare caracteristică a obiectului de date este independentă de cealaltă. Este o aplicație a teoremei Bayes.
- AdaBoost: Este un meta-algoritm de învățare automată, care este utilizat pentru a îmbunătăți performanța. Adaboost este sensibil la date zgomotoase și valori anormale.
Metode de extragere a datelor
Unele metode avansate de extragere a datelor pentru gestionarea tipurilor de date complexe sunt explicate mai jos.
Datele din lumea de astăzi sunt de tipuri variate, de la date simple la date complexe. Pentru a extrage tipuri de date complexe, cum ar fi datele de serie temporală, multi-dimensionale, spațiale și multi-media, sunt necesari algoritmi și tehnici avansate.
cum să scrieți un e-mail unui eșantion de recrutor
Unele dintre ele sunt descrise mai jos:
- CLIC: A fost prima metodă de grupare care a găsit clusterele într-un sub-spațiu multidimensional.
- P3C: Este o metodă de clusterizare bine cunoscută pentru date multidimensionale moderate până la mari.
- LAC: Este o metodă bazată pe mijloace k, care vizează gruparea datelor de dimensionalitate moderată spre înaltă. Algoritmul partiționează datele în k set de elemente disjuncte, eliminând eventualele valori anterioare.
- BIGUDIU: Este un algoritm de grupare a corelației, identifică atât corelații liniare cât și neliniare.
Cele mai bune instrumente de extragere a datelor
Instrumentele de extragere a datelor sunt programe utilizate pentru extragerea datelor. Instrumentele rulează algoritmi în backend. Aceste instrumente sunt disponibile pe piață sub formă de sursă deschisă, software gratuit și versiune licențiată.
Unele dintre instrumentele de extragere a datelor includ:
# 1) RapidMiner
RapidMiner este o platformă software open-source pentru echipele de analiză care unește pregătirea datelor, învățarea automată și implementarea modelului predictiv. Acest instrument este utilizat pentru efectuarea analizei de extragere a datelor și crearea de modele de date. Are seturi mari de clasificare, grupare, extragere a regulilor de asociere și algoritmi de regresie.
# 2) Portocaliu
Este un instrument open-source care conține pachetul de vizualizare și analiză a datelor. Portocaliul poate fi importat în orice mediu de lucru Python. Este potrivit pentru cercetători noi și proiecte mici.
# 3) LIMBA
KEEL (Extragerea cunoștințelor bazată pe învățarea evolutivă) este un open-source ( GPLv3 ) Instrument software Java care poate fi utilizat pentru un număr mare de sarcini diferite de descoperire a datelor.
# 4) SPSS
IBM SPSS Modeler este o aplicație software de extragere a datelor și de analiză a textului de la IBM. Este folosit pentru a construi modele predictive și pentru a desfășura alte sarcini analitice.
# 5) KNIME
Este un instrument gratuit și open-source care conține pachetul de curățare și analiză a datelor, algoritmi specializați în domeniile analizei sentimentelor și analizei rețelelor sociale. KNIME poate integra date din diverse surse în aceeași analiză. Are o interfață cu programarea Java, Python și R.
Întrebare importantă: Cum diferă clasificarea de predicție?
Clasificarea este o grupare de date. Exemplu de clasificare este gruparea în funcție de grupa de vârstă, starea medicală etc. În timp ce predicția obține un rezultat folosind datele clasificate.
Un exemplu Analiza predictivă este prezicerea intereselor pe baza grupei de vârstă, a tratamentului pentru o afecțiune. Predicția este, de asemenea, cunoscută sub numele de Estimare pentru valori continue.
Termen important: minerit predictiv de date
Predictive Data Mining se face pentru a prognoza sau prevedea anumite tendințe de date folosind business intelligence și alte date. Ajută întreprinderile să aibă analize mai bune și să ia decizii mai bune. Analiza predictivă este adesea combinată cu mineritul predictiv al datelor.
Predictive Data Mining află datele relevante pentru analiză. Analiza predictivă folosește date pentru a prognoza rezultatul.
Concluzie
În acest tutorial, am discutat diferitele tehnici de extragere a datelor care pot ajuta organizațiile și companiile să găsească cele mai utile și relevante informații. Aceste informații sunt folosite pentru a crea modele care vor prezice comportamentul clienților pentru ca întreprinderile să acționeze asupra lor.
Citind toate informațiile menționate mai sus despre tehnicile de extragere a datelor, se poate determina și mai bine credibilitatea și fezabilitatea acesteia. Tehnicile de extragere a datelor includ lucrul cu datele, reformatarea datelor, restructurarea datelor. Formatul informațiilor necesare se bazează pe tehnica și analiza care trebuie făcută.
În cele din urmă, toate tehnicile, metodele și sistemele de extragere a datelor ajută la descoperirea de noi inovații creative.
Lectură recomandată
- Data Mining: Proces, tehnici și probleme majore în analiza datelor
- Cele mai bune 10 instrumente de modelare a datelor pentru a gestiona modele complexe
- Top 15 Cele mai bune instrumente gratuite de extragere a datelor: Lista cea mai cuprinzătoare
- Cele mai bune 10 instrumente de colectare a datelor cu strategii de colectare a datelor
- Top 10 instrumente de proiectare a bazelor de date pentru a construi modele de date complexe
- Cele mai bune 10 instrumente de guvernare a datelor pentru a vă satisface nevoile de date în 2021
- Data Mining Vs Machine Learning Vs Intelligence Artificial Vs Deep Learning
- Topul celor mai bune 14 instrumente de gestionare a datelor de testare în 2021