Ano ang data processing engine sa likod ng Amazon Elastic MapReduce?
Ano ang data processing engine sa likod ng Amazon Elastic MapReduce?

Video: Ano ang data processing engine sa likod ng Amazon Elastic MapReduce?

Video: Ano ang data processing engine sa likod ng Amazon Elastic MapReduce?
Video: Big Data In 5 Minutes | What Is Big Data?| Big Data Analytics | Big Data Tutorial | Simplilearn 2024, Disyembre
Anonim

Amazon EMR gumagamit ng Apache Hadoop bilang ipinamamahagi nito makina sa pagpoproseso ng data . Ang Hadoop ay isang open source, Java software framework na sumusuporta datos -masinsinang ipinamahagi na mga application na tumatakbo sa malalaking kumpol ng hardware ng kalakal.

Bukod dito, ano ang Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) ay isang Amazon Web Services ( AWS ) tool para sa pagpoproseso at pagsusuri ng malaking data. Amazon EMR nagpoproseso ng malaking data sa isang Hadoop cluster ng mga virtual server sa Amazon Elastic Compute Cloud ( EC2 ) at Amazon Simple Storage Service ( S3 ).

Higit pa rito, ang Amazon EMR ba ay ganap na pinamamahalaan? Ito ay ganap na pinamamahalaan serbisyo ng data lake na maaaring maghiwalay ng data storage mula sa mga mapagkukunan ng compute at sa halip ay ginagawang scalable ang mga compute cluster, magagamit para magamit on-demand, at kasama ang kakayahan para sa maraming cluster na ma-access ang parehong mga dataset nang sabay-sabay.

Maaari ding magtanong, paano gumagana ang AWS EMR?

Sa pangkalahatan, kapag nagproseso ka ng data sa Amazon EMR , ang input ay data na nakaimbak bilang mga file sa iyong napiling pinagbabatayan na file system, gaya ng Amazon S3 o HDFS. Ang data na ito ay pumasa mula sa isang hakbang patungo sa susunod sa pagkakasunud-sunod ng pagproseso. Ang huling hakbang ay nagsusulat ng output data sa isang tinukoy na lokasyon, tulad ng isang Amazon S3 bucket.

Ano ang pagkakaiba sa pagitan ng ec2 at EMR?

Unlike EMR , EC2 hindi ikinategorya ang mga node ng alipin sa mga core at task node. Pinapataas nito ang panganib na mawala ang data ng HDFS sakaling maalis/mawala ang isang node. EC2 gumagamit ng Apache library (s3a) para ma-access ang data sa s3. Sa kabilang kamay, EMR gumagamit ng AWS proprietary code para magkaroon ng mas mabilis na access sa s3.

Inirerekumendang: