Paano nakakamit ang lokalisasyon ng data sa Hadoop?
Paano nakakamit ang lokalisasyon ng data sa Hadoop?

Video: Paano nakakamit ang lokalisasyon ng data sa Hadoop?

Video: Paano nakakamit ang lokalisasyon ng data sa Hadoop?
Video: Hadoop Rack Awareness 2024, Mayo
Anonim

Lokalisasyon ng data sa Hadoop . Kunin ang halimbawang Wordcount halimbawa, kung saan ang karamihan sa mga salita ay naulit sa loob ng 5 Lacs o higit pang beses. Sa kasong iyon pagkatapos ng yugto ng Mapper, ang bawat output ng mapper ay magkakaroon ng mga salita sa hanay na 5 Lacs. Ang kumpletong prosesong ito ng pag-iimbak ng output ng Mapper sa LFS ay tinatawag na Lokalisasyon ng Data.

Kapag pinapanatili itong nakikita, ano ang lokalisasyon ng data sa Hadoop?

Ang konsepto ng Data lokalidad sa Data ng Hadoop lokalidad sa MapReduce ay tumutukoy sa kakayahang ilipat ang pagtutuos malapit sa kung saan ang aktwal datos naninirahan sa node, sa halip na gumagalaw nang malaki datos sa computation. Pinaliit nito ang pagsisikip ng network at pinapataas ang kabuuang throughput ng system.

Gayundin, paano iniimbak ang malaking data? Karamihan sa mga tao ay awtomatikong iniuugnay ang HDFS, o Hadoop Distributed File System, sa Hadoop datos mga bodega. Ang HDFS ay nag-iimbak ng impormasyon sa mga kumpol na binubuo ng mas maliliit na bloke. Ang mga bloke na ito ay nakaimbak sa pisikal na lugar imbakan mga yunit, tulad ng mga panloob na disk drive.

Kaya lang, paano nakaimbak ang data sa Hadoop?

Nasa Hadoop kumpol, ang datos sa loob ng HDFS at ang MapReduce system ay makikita sa bawat makina sa cluster. Data ay nakaimbak sa datos mga bloke sa DataNodes. Ang HDFS ay kinokopya ang mga iyon datos mga bloke, kadalasang 128MB ang laki, at ipinamamahagi ang mga ito upang mai-replicate ang mga ito sa loob ng maraming node sa buong cluster.

Paano nakaimbak ang mga file sa HDFS?

HDFS naglalantad ng a file namespace ng system at nagbibigay-daan sa data ng user na maging nakaimbak sa mga file . Sa loob, a file ay nahahati sa isa o higit pang mga bloke at ang mga bloke na ito ay nakaimbak sa isang set ng DataNodes. Ang NameNode ay isinasagawa file mga pagpapatakbo ng namespace ng system tulad ng pagbubukas, pagsasara, at pagpapalit ng pangalan mga file at mga direktoryo.

Inirerekumendang: