Ano ang isang data lake sa Hadoop?
Ano ang isang data lake sa Hadoop?

Video: Ano ang isang data lake sa Hadoop?

Video: Ano ang isang data lake sa Hadoop?
Video: Modernize your data lake to accelerate loan processing 2024, Mayo
Anonim

A Hadoop data lake ay isang datos platform ng pamamahala na binubuo ng isa o higit pa Hadoop mga kumpol. Ito ay pangunahing ginagamit upang iproseso at iimbak ang walang kaugnayan datos , gaya ng mga log file, internet clickstream record, sensor datos , mga bagay sa JSON, mga larawan at mga post sa social media.

Kaugnay nito, ano ang pagkakaiba sa pagitan ng isang data warehouse at isang data lake?

Mga lawa ng data at datos Ang mga bodega ay parehong malawak na ginagamit para sa pag-iimbak ng malaki datos , ngunit hindi sila maaaring palitan ng mga termino. A lawa ng data ay isang malawak na pool ng raw datos , ang layunin kung saan hindi pa natukoy. A bodega ng data ay isang repository para sa structured, na-filter datos na naproseso na para sa isang partikular na layunin.

Bukod pa rito, ano ang arkitektura ng data lake? A Data Lake ay isang storage repository na maaaring mag-imbak ng malaking halaga ng structured, semi-structured, at unstructured datos . Hindi tulad ng isang hierarchal Dataware house kung saan datos ay naka-imbak sa Mga File at Folder, Data lake may flat arkitektura.

Kaugnay nito, ano ang ibig sabihin ng data lake?

A lawa ng data ay isang storage repository na mayroong malaking halaga ng raw datos sa katutubong format nito hanggang sa kailanganin ito. Habang isang hierarchical datos mga tindahan ng bodega datos sa mga file o folder, a lawa ng data gumagamit ng patag na arkitektura upang mag-imbak datos . Ang termino lawa ng data ay madalas na nauugnay sa Hadoop-oriented object storage.

Ang Elasticsearch ba ay isang lawa ng data?

A lawa ng data ay isang lugar lamang para iparada ang iyong datos hanggang sa kailanganin mo ito, at maaari itong sumaklaw sa HDFS (pinakakaraniwan), imbakan ng bagay, mga kahon ng NAS, o anumang bagay. Sa panimula, Elasticsearch ay isang tool para sa pag-index datos , hindi para sa pag-iimbak ng datos mismo.

Inirerekumendang: