weka tutorial how download
Acest tutorial WEKA explică ce este instrumentul Weka Machine Learning, caracteristicile sale și cum să descărcați, instalați și utilizați software-ul Weka Machine Learning:
În Tutorial anterior , am aflat despre Support Vector Machine în ML și concepte asociate precum Hyperplane, Support Vectors & Applications of SVM.
Învățarea automată este un domeniu al științei în care mașinile acționează ca un sistem inteligent artificial. Mașinile pot învăța singure fără a necesita codificare explicită. Este un proces iterativ care accesează datele, învață de la sine și prezice rezultatul. Pentru executarea sarcinilor de învățare automată sunt necesare multe instrumente și scripturi.
WEKA este o platformă de învățare automată care constă din multe instrumente care facilitează multe activități de învățare automată.
=> Citiți seria completă de formare pentru învățarea automată
cele mai populare instrumente de analiză big data
Ce veți învăța:
- Ce este WEKA
- Concluzie
Ce este WEKA
Weka este un instrument open-source conceput și dezvoltat de oamenii de știință / cercetători de la Universitatea Waikato, Noua Zeelandă. WEKA înseamnă Waikato Environment pentru analiza cunoștințelor. Este dezvoltat de comunitatea științifică internațională și distribuit sub licența gratuită GNU GPL.
WEKA este complet dezvoltat în Java. Oferă integrare cu baza de date SQL utilizând conectivitatea bazei de date Java. Oferă numeroși algoritmi de învățare automată pentru a implementa sarcini de extragere a datelor. Acești algoritmi pot fi folosiți direct folosind instrumentul WEKA sau pot fi folosiți cu alte aplicații folosind limbajul de programare Java.
Oferă o mulțime de instrumente pentru preprocesarea datelor, clasificare, grupare, analiză de regresie, crearea regulilor de asociere, extragerea caracteristicilor și vizualizarea datelor. Este un instrument puternic care sprijină dezvoltarea de noi algoritmi în învățarea automată.
De ce să utilizați instrumentul de învățare automată WEKA
Cu WEKA, algoritmii de învățare automată sunt ușor disponibili pentru utilizatori. Specialiștii în ML pot utiliza aceste metode pentru a extrage informații utile din volume mari de date. Aici, specialiștii pot crea un mediu pentru a dezvolta noi metode de învățare automată și a le implementa pe date reale.
WEKA este utilizat de cercetătorii de învățare automată și științe aplicate în scopuri de învățare. Este un instrument eficient pentru realizarea multor sarcini de extragere a datelor.
Descărcare și instalare WEKA
# 1) Descărcați software-ul de la Aici .
Verificați configurația sistemului de computer și descărcați versiunea stabilă a WEKA (în prezent 3.8) de pe această pagină.
#Două) După descărcarea cu succes, deschideți locația fișierului și faceți dublu clic pe fișierul descărcat. Va apărea expertul Step Up. Faceți clic pe Următorul.
# 3) Termenii contractului de licență se vor deschide. Citiți-l cu atenție și faceți clic pe „Sunt de acord”.
# 4) În funcție de cerințele dvs., selectați componentele care urmează să fie instalate. Se recomandă instalarea completă a componentelor. Faceți clic pe Următorul.
# 5) Selectați folderul de destinație și faceți clic pe Următorul.
# 6) Apoi, va începe instalarea.
# 7) Dacă Java nu este instalat în sistem, acesta va instala mai întâi Java.
# 8) După finalizarea instalării, va apărea următoarea fereastră. Faceți clic pe Următorul.
# 9) Bifați caseta de selectare Start Weka. Faceți clic pe Finalizare.
# 10) Se deschide fereastra WEKA Tool și Explorer.
#unsprezece) Manualul WEKA poate fi descărcat de pe Aici.
Interfață grafică a utilizatorului WEKA
GUI-ul WEKA oferă cinci opțiuni: Explorer, Experimenter, Flux de cunoștințe, Workbench și CLI simplă. Să înțelegem fiecare dintre acestea în mod individual.
# 1) CLI simplă
CLI simplu este Weka Shell cu linie de comandă și ieșire. Cu „ajutor”, se poate vedea imaginea de ansamblu a tuturor comenzilor. CLI simplă oferă acces la toate clasele, cum ar fi clasificatoare, clustere și filtre etc.
Unele dintre comenzile CLI simple sunt:
- Pauză: Pentru a opri firul curent
- Ieșire: Ieșiți din CLI
- Ajutor() : Oferă ajutorul pentru comanda specificată
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Pentru a invoca o clasă WEKA, prefixați-o cu Java. Această comandă va direcționa WEKA să încarce clasa și să o execute cu parametrii dați. În această comandă se invocă clasificatorul J48 pe setul de date IRIS.
# 2) Explorator
Ferestrele WEKA Explorer prezintă diferite file începând cu preprocesul. Inițial, fila preprocesare este activă, deoarece mai întâi setul de date este preprocesat înainte de a-i aplica algoritmi și de a explora setul de date.
Filele sunt după cum urmează:
- Preprocesare: Alegeți și modificați datele încărcate.
- Clasifica: Aplicați algoritmi de formare și testare la datele care vor clasifica și regresa datele.
- Cluster: Formați clustere din date.
- Asociat: Elimină regula de asociere a datelor.
- Selectați atribute: Se aplică măsuri de selectare a atributelor.
- Vizualizați: Se vede reprezentarea 2D a datelor.
- Bara de stare: Secțiunea cea mai de jos a ferestrei arată bara de stare. Această secțiune arată ce se întâmplă în prezent sub forma unui mesaj, cum ar fi încărcarea unui fișier. Faceți clic dreapta pe aceasta, Memorie informație poate fi văzut și, de asemenea Alerga gunoi colector pentru a elibera spațiu poate fi rulat.
- Buton jurnal: Stochează un jurnal al tuturor acțiunilor în Weka cu marcajul de timp. Jurnalele sunt afișate într-o fereastră separată când se face clic pe butonul Jurnal.
- Pictograma WEKA Bird: Prezent în colțul din dreapta jos arată WEKA Bird cu reprezintă numărul de procese care rulează simultan (cu x.). Când procesul rulează, pasărea se va deplasa.
# 3) Experimentator
Butonul WEKA experimenter permite utilizatorilor să creeze, să ruleze și să modifice diferite scheme într-un singur experiment pe un set de date. Experimentatorul are 2 tipuri de configurație: Simplu și avansat. Ambele configurații permit utilizatorilor să execute experimente la nivel local și pe computere la distanță.
- Butonul „Deschide” și „Nou” va deschide o nouă fereastră de experiment pe care utilizatorii o pot face.
- Rezultate: Setați fișierul de destinație a rezultatului din fișierele ARFF, JDFC și CSV.
- Tipul experimentului: Utilizatorul poate alege între validarea încrucișată și împărțirea procentului de tren / test. Utilizatorul poate alege între clasificare și regresie pe baza setului de date și a clasificatorului utilizat.
- Seturi de date: Utilizatorul poate naviga și selecta seturi de date de aici. Caseta de selectare a căii relative este bifată dacă lucrați pe diferite mașini. Formatul seturilor de date acceptate este ARFF, C4.5, CSV, libsvm, bsi și XRFF.
- Repetare: Numărul de iterație implicit este setat la 10. Seturi de date mai întâi și algoritmii ajută mai întâi la comutarea între setul de date și algoritmi, astfel încât algoritmii să poată fi executați pe toate seturile de date.
- Algoritmi: Noi algoritmi sunt adăugați prin „Buton nou”. Utilizatorul poate alege un clasificator.
- Salvați experimentul folosind butonul Salvare.
- Rulați experimentul folosind butonul Executare.
# 4) Fluxul de cunoștințe
Fluxul de cunoștințe arată o reprezentare grafică a algoritmilor WEKA. Utilizatorul poate selecta componentele și poate crea un flux de lucru pentru a analiza seturile de date. Datele pot fi tratate prin lot sau în mod incremental. Fluxurile de lucru paralele pot fi proiectate și fiecare va rula într-un fir separat.
Diferitele componente disponibile sunt Surse de date, salvatoare de date, filtre, clasificatoare, clustere, evaluare și vizualizare.
# 5) Banc de lucru
WEKA are un modul de lucru care conține toate interfețele grafice într-o singură fereastră.
Caracteristici ale WEKA Explorer
# 1) Set de date
Un set de date este format din elemente. Reprezintă un obiect de exemplu: în baza de date de marketing, va reprezenta clienții și produsele. Seturile de date sunt descrise prin atribute. Setul de date conține tupluri de date într-o bază de date. Un set de date are atribute care pot fi nominale, numerice sau șiruri. În Weka, setul de date este reprezentat de weka.core.Instances clasă.
Reprezentarea setului de date cu 5 exemple:
@date
însorit, FALS, 85,85, nr
însorit, ADEVĂRAT, 80,90, nr
acoperit, FALS, 83,86, da
ploios, FALS, 70,96, da
ploios, FALS, 68,80, da
Ce este un atribut?
Un atribut este un câmp de date care reprezintă caracteristica unui obiect de date. De exemplu, într-o bază de date pentru clienți, atributele vor fi customer_id, customer_email, customer_address, etc. Atributele au diferite tipuri.
Aceste tipuri posibile sunt:
A) Atribute nominale: Atribut care se referă la un nume și are valori predefinite, cum ar fi culoarea, vremea. Aceste atribute sunt numite atribute categorice . Aceste atribute nu au nicio ordine și valorile lor se mai numesc enumerări.
@attribute outlook {însorit, acoperit, ploios}: declararea atributului nominal.
B) Atribute binare: Aceste atribute reprezintă doar valorile 0 și 1. Acestea sunt tipul de atribute nominale cu doar 2 categorii. Aceste atribute se mai numesc și booleene.
C) Atribute ordinale: Atributele care păstrează o anumită ordine sau rang între ele sunt atribute ordinale. Valorile succesive nu pot fi prezise, ci doar menținerea ordinii. Exemplu: dimensiunea, gradul etc.
D) Atribute numerice: Atributele care reprezintă mărimi măsurabile sunt atribute numerice. Acestea sunt reprezentate prin numere reale sau întregi. Exemplu: temperatura, umiditatea.
@ atribut umiditate reală: declararea unui atribut numeric
E) Atribute șir: Aceste atribute reprezintă o listă de caractere reprezentate prin ghilimele duble.
# 2) Format de date ARFF
WEKA lucrează la fișierul ARFF pentru analiza datelor. ARFF înseamnă Attribute Relation File Format. Are 3 secțiuni: relație, atribute și date. Fiecare secțiune începe cu „@”.
Fișierele ARFF iau atribute de date nominale, numerice, șiruri, date și relaționale. Unele dintre bine-cunoscutele seturi de date de învățare automată sunt prezente în WEKA sub numele de ARFF.
Formatul pentru ARFF este:
@relație
@atribut
@date
Un exemplu de fișier ARFF este:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Format de date XRFF
XRFF reprezintă atributul XML Format fișier relație. Reprezintă date care pot stoca comentarii, atribute și greutăți de instanță. Are extensia .xrff și extensia de fișier .xrff.gz (format comprimat). Fișierele XRFF au reprezentat date în format XML.
# 4) Conectivitate la baze de date
Cu WEKA, este ușor să vă conectați la o bază de date folosind un driver JDBC. Driverul JDBC este necesar pentru a vă conecta la baza de date, exemplu:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracol (oracle.jdbc.driver.OracleDriver)
# 5) Clasificatoare
Pentru a prezice datele de ieșire, WEKA conține clasificatori. Algoritmii de clasificare disponibili pentru învățare sunt arborii de decizie, mașinile vectoriale de sprijin, clasificatorii pe instanță și regresia logistică și rețelele bayesiene. În funcție de cerința de utilizare a testului și testului, utilizatorul poate afla un algoritm adecvat pentru analiza datelor. Clasificatorii sunt utilizați pentru a clasifica seturile de date pe baza caracteristicilor atributelor.
# 6) Clustering
WEKA folosește fila Cluster pentru a prezice asemănările din setul de date. Pe baza clusterizării, utilizatorul poate afla atributele utile pentru analiză și poate ignora alte atribute. Algoritmii disponibili pentru gruparea în WEKA sunt k-means, EM, Cobweb, X-means și FarhtestFirst.
# 7) Asociație
Singurul algoritm disponibil în WEKA pentru a afla regulile de asociere este Apriori.
# 8) Măsuri ale secțiunii de atribute
WEKA folosește 2 abordări pentru cea mai bună selectare a atributelor în scopul calculului:
- Folosind algoritmul metodei de căutare: Cel mai bun prim, selecție directă, aleatoriu, exhaustiv, algoritm genetic și algoritm de clasare.
- Utilizarea algoritmilor metodei de evaluare: Bazat pe corelație, înveliș, câștig de informații, chi pătrat.
# 9) Vizualizare
WEKA acceptă reprezentarea 2D a datelor, vizualizările 3D cu rotație și reprezentarea 1D a atributului unic. Are opțiunea „Jitter” pentru atributele nominale și punctele de date „ascunse”.
Alte caracteristici principale ale WEKA sunt:
- Este un instrument open-source cu interfață grafică de utilizator sub forma „Explorer”, „Experimenter” și „Flux de cunoștințe”.
- Este independent de platformă.
- Conține 49 de instrumente de preprocesare a datelor.
- 76 de algoritmi de clasificare și regresie, 8 algoritmi de grupare sunt prezenți în WEKA
- Are 15 algoritmi de selecție a atributelor și 10 algoritmi de selecție a caracteristicilor.
- Are 3 algoritmi pentru găsirea regulii de asociere.
- Folosind WEKA, utilizatorii pot dezvolta cod personalizat pentru învățarea automată.
Concluzie
În acest tutorial WEKA, am furnizat o introducere la software-ul open source WEKA Machine Learning și am explicat descărcarea pas cu pas și procesul de instalare. De asemenea, am văzut cele cinci opțiuni disponibile pentru interfața grafică de utilizator Weka, și anume, Explorer, Experimenter, Fluxul de cunoștințe, Workbench și Simple CLI.
De asemenea, am aflat despre caracteristicile WEKA cu exemple. Funcțiile includ Dataset, formatul de date ARFF, conectivitatea bazei de date etc.
=> Vizitați aici pentru seria exclusivă de învățare automată
Lectură recomandată
- Set de date WEKA, clasificator și algoritm J48 pentru arborele deciziei
- WEKA Explorer: Vizualizare, Clustering, Exploatarea regulilor de asociere
- 11 Cele mai populare instrumente software de învățare automată în 2021
- Un ghid complet pentru rețeaua neuronală artificială în învățarea automată
- Data Mining Vs Machine Learning Vs Intelligence Artificial Vs Deep Learning
- Tutorial de învățare automată: Introducere în ML și aplicațiile sale
- Top 13 cele mai bune companii de învățare automată (Lista actualizată 2021)
- Ce este Support Vector Machine (SVM) în învățarea automată