apache hadoop yarn tutorial
Componente Hadoop - MapReduce With Hadoop YARN:
În tutorialul nostru anterior privind componenta Hadoop, am aflat despre Hadoop MapReduce și mecanismul său de procesare precum INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING și REZULTATUL FINAL.
În acest tutorial vom explora:
- Cum funcționează Map Reduce cu YARN?
- Fluxul de lucru al aplicației Hadoop YARN.
=> Aruncați o privire la ghidul pentru începători BigData aici.
Ce veți învăța:
Reduceți harta cu Hadoop YARN
Să înțelegem modul în care MapReduce folosește YARN pentru a executa joburile din clusterul Hadoop. Dar, înainte de a continua, prima întrebare care ne vine în minte este care este forma completă de YARN? Sau ce înseamnă YARN?
YARN mijloace Încă un alt negociator de resurse.
Acesta este cel care alocă resursele pentru diferite locuri de muncă care trebuie executate în cadrul Clusterului Hadoop. A fost introdus în Hadoop 2.0.
Till Hadoop 1.0 MapReduce a fost singurul cadru sau singura unitate de procesare care poate fi executată peste clusterul Hadoop. Cu toate acestea, în Hadoop 2.0 YARN a fost introdus și folosind acest lucru, putem depăși și MapReduce.
După cum puteți vedea în diagramă, avem HDFS în partea de jos, avem YARN și folosim YARN, o mulțime de cadre sunt capabile să se conecteze și să utilizeze HDFS. Deci, chiar MapReduce este folosit pentru a vă conecta folosind YARN pentru a solicita resurse și numai atunci poate executa Jobul pe HDFS, adică Hadoop Cluster.
În mod similar; SPARK, STORM și alte motoare de căutare se pot conecta la HDFS. HBase care este o bază de date No SQL o poate conecta și ea. Deci, aplicațiile HDFS au devenit imense, doar pentru că YARN a reușit să deschidă Poarta pentru alte cadre și alte instrumente de analiză Bigdata.
Care este diferența dintre MapReduce Version1 (MRv1) și MapReduce Version2 (MRv2)?
MRv1 a fost în esență o parte a cadrului Hadoop 1 și cu Hadoop 2 YARN a intrat în imagine și MapReduce a fost actualizat la MRv2 cu mai multe modificări în clase. Clasele au fost actualizate, cu toate acestea, sintaxa scrierii programului MapReduce rămâne aceeași.
În acest scenariu, MapReduce se conectează acum cu YARN la axa HDFS.
Alături de YARN, Resource Manager și Node Manager sunt noii Daemons care au fost introduși în Clusterul Hadoop.
Anterior erau Job Tracker și Task Tracker. Cu toate acestea, acestea au fost eliminate din Hadoop 2.0, iar Resource Manager și Node Manager au fost introduse împreună cu YARN în cadrul Hadoop.
Hadoop 2.x Daemons
Să aruncăm o privire rapidă asupra noului Daemons introdus în Hadoop 2.0 care rulează componentele, adică stocare și procesare.
site-uri web pentru a viziona anime gratuit în limba engleză
În tutorialul HDFS, am înțeles Daemon, adică NameNode și DataNode în detaliu. În acest tutorial, vom înțelege cum funcționează Resource Manager și Node Manager în Hadoop 2.x Cluster pentru a gestiona procesarea și joburile care trebuie executate în Hadoop Cluster.
Deci, ce este Resource Manager? Resource Manager este Master Daemons care rulează pe Master Machine sau NameNode care este o mașină high-end. Node Manager, pe de altă parte, este Daemon care rulează pe Slave Machines sau DataNodes sau împreună cu DataNode Process.
Hadoop 2.x Componente MapReduce YARN
Să explorăm celelalte componente YARN de mai jos.
- Client: Este o unitate care trimite interfața de linie de comandă (CLI) de tip Job, iar clientul ar putea fi o aplicație JAVA.
- Manager de resurse: Este un Master Daemon căruia i se trimit toate joburile de la client și este cel care alocă toate resursele la nivel de cluster pentru executarea unui anumit job. Funcționează pe o mașină de ultimă generație, care are hardware de bună calitate și o configurație bună, deoarece mașina principală trebuie să gestioneze totul prin cluster.
- Manager nod : Este un Daemon Slave care rulează pe Slave Machines sau DataNode, deci fiecare Slave Machine are un Node Manager care rulează. Monitorizează resursele unui anumit DataNode, Resource Manager gestionează resursele Cluster și Node Manager gestionează resursele DataNode.
- Server Istoricul locurilor de muncă: Este unitatea care ține o evidență a tuturor locurilor de muncă care au fost executate în cluster sau care au fost trimise acestuia. De asemenea, ține evidența stării și păstrează, de asemenea, fișierele jurnal ale fiecărei execuții petrecute în cadrul Clusterului Hadoop.
- Aplicație Master : Este o componentă care este executată pe Node Machine, Slave Machine și este creată de un Resource Manager pentru a executa și gestiona un Job. Este cel care negociază resursele de la Resource Manager și se coordonează în cele din urmă cu Managerul de noduri pentru a executa sarcina.
- Container: Acesta este creat chiar de Node Manager, care a fost alocat de Resource Manager și toate joburile sunt executate în cele din urmă în container.
Fluxul de lucru YARN
După cum se arată în diagrama de mai sus, există un Manager de resurse la care sunt trimise toate joburile și există un cluster în care există mașini sclave, iar pe fiecare mașină sclavă există o Manager nod alergare.
Manager de resurse are două componente adică Programator și Manager de aplicatii.
Care este diferența dintre Application Master și Application Manager?
Manager de aplicatii este o componentă a Manager de resurse care asigură executarea fiecărei sarcini și o Aplicație Master este creat pentru aceasta. Aplicație Master, pe de altă parte, este cineva care execută sarcina și solicită toate resursele care trebuie executate.
Să presupunem că postul este trimis la Manager de resurse , imediat ce postul este trimis, Programator programează Jobul. Odata ce Programator planifică executarea jobului Manager de aplicatii va crea un Recipient într-unul din DataNodes , și în cadrul acestuia Container, Aplicație Master va fi început.
Acest Aplicație Master se va înregistra apoi la Manager de resurse și cerere pentru un Recipient pentru a executa sarcina. De îndată ce Recipient este alocat, Aplicație Master va fi acum conectat cu Manager nod și solicitați lansarea Recipient .
După cum putem vedea, Aplicație Master am fost alocat DataNodes D și ESTE , și acum asta Aplicație Master a solicitat Manager nod pentru a lansa Containere de DataNode D și DataNode E .
De îndată ce Containere au fost lansate, Aplicație Master va executa sarcina în cadrul Recipient iar rezultatul va fi trimis înapoi la Client .
Fluxul aplicației
Să înțelegem acest lucru într-o manieră puțin secvențială.
În diagrama de mai jos, avem patru componente. Primul este Client, al doilea este Manager de resurse , al treilea este Manager nod iar a patra linie conține Aplicație Master .
Așadar, să vedem cum se execută acești pași între ei.
Primul pas este Client care supune Iov la Manager de resurse , în a doua etapă Manager de resurse alocă o Recipient pentru a începe Aplicație Master pe Mașini de sclavi ; al treilea pas este Aplicație Master se înregistrează la Manager de resurse .
De îndată ce se înregistrează, solicită Recipient pentru a executa sarcina, adică al patrulea pas. La pasul cinci, Aplicație Master notifică Manager nod pe care Recipient trebuie lansat.
La pasul șase, odată ce Manager nod a lansat Containere, Aplicație Master va executa codul în cadrul acestora Containere .
În cele din urmă, în al șaptelea pas, Client contactează Manager de resurse sau Aplicație Master pentru a monitoriza starea aplicației.
În cele din urmă, Aplicație Master se va anula de la sine Manager de resurse iar rezultatul este dat înapoi Client . Deci, acesta este un flux simplu secvențial al modului în care un program MapReduce este executat folosind cadrul YARN.
Concluzie
Deci, în acest tutorial, am învățat următoarele indicații:
- YARN mijloace Încă un alt negociator de resurse.
- YARN a fost introdus în Hadoop 2.0
- Resource Manager și Node Manager au fost introduse împreună cu YARN în cadrul Hadoop.
- YARN Componente precum Client, Resource Manager, Node Manager, Job History Server, Application Master și Container.
În viitorul tutorial, vom discuta despre tehnicile de testare ale BigData și despre provocările cu care se confruntă BigData Testing. Vom afla, de asemenea, cum să depășim acele provocări și orice modalități de ocolire pentru a facilita testarea BigData.
=> Vizitați aici pentru a afla BigData de la zero.
Lectură recomandată
- Ce este Hadoop? Tutorial Apache Hadoop pentru începători
- 20+ Tutorial MongoDB pentru începători: curs gratuit MongoDB
- Tutoriale detaliate pentru eclipsă pentru începători
- Tutorial Python pentru începători (Instruire gratuită gratuită Python)
- Tutorial Big Data pentru începători | Ce este Big Data?
- LoadRunner Tutorial pentru începători (curs gratuit în profunzime de 8 zile)
- Hadoop MapReduce Tutorial cu exemple | Ce este MapReduce?
- Cea mai bună serie de tutoriale GRATUITE C #: Ghidul final C # pentru începători