Ano ang problema sa maliliit na file sa Hadoop?
Ano ang problema sa maliliit na file sa Hadoop?

Video: Ano ang problema sa maliliit na file sa Hadoop?

Video: Ano ang problema sa maliliit na file sa Hadoop?
Video: Hadoop Processing Frameworks 2024, Mayo
Anonim

1) Maliit na problema sa File sa HDFS : Nag-iimbak ng maraming maliliit na file na lubhang mas maliit kaysa sa laki ng bloke ay hindi maaaring mapangasiwaan nang mahusay HDFS . Binabasa maliliit na file nagsasangkot ng maraming paghahanap at maraming paglukso sa pagitan ng data node patungo sa data node, na kung saan ay nagiging hindi mahusay na pagproseso ng data.

Sa tabi nito, aling mga file ang humaharap sa maliliit na problema sa file sa Hadoop?

1) HAR ( Hadoop Archive) Mga file ay ipinakilala sa harapin ang maliit na isyu sa file . Ang HAR ay nagpakilala ng isang layer sa ibabaw ng HDFS , na nagbibigay ng interface para sa file pag-access. Gamit Hadoop utos ng archive, HAR mga file ay nilikha, na nagpapatakbo ng a MapReduce trabaho sa pag-iimpake ng mga file ina-archive sa mas maliit bilang ng HDFS file.

Higit pa rito, maaari ba akong magkaroon ng maraming file sa HDFS na gumamit ng iba't ibang laki ng block? Default laki ng harangan ay 64 MB. ikaw pwede baguhin ito depende sa iyong pangangailangan. Pagdating sa tanong mo oo ikaw maaaring lumikha ng maramihang mga file sa pamamagitan ng pag-iiba-iba mga sukat ng bloke ngunit sa Real-Time ito kalooban hindi pabor sa produksyon.

Bukod dito, bakit hindi pinangangasiwaan ng HDFS ang maliliit na file nang mahusay?

Mga problema sa maliliit na file at HDFS Bawat file , direktoryo at i-block in Ang HDFS ay kinakatawan bilang isang bagay sa memorya ng namenode, na ang bawat isa ay sumasakop ng 150 byte, bilang panuntunan ng hinlalaki. At saka, Ang HDFS ay hindi nakatuon sa mahusay na pag-access maliliit na file : ito ay pangunahing dinisenyo para sa streaming access ng malaki mga file.

Bakit mabagal ang Hadoop?

Mabagal Bilis ng Pagproseso Ang hinahanap ng disk na ito ay tumatagal ng oras at sa gayon ay ginagawa ang buong proseso mabagal . Kung Hadoop nagpoproseso ng data sa maliit na dami, ito ay napaka mabagal pahambing. Ito ay perpekto para sa malalaking set ng data. Bilang Hadoop may batch processing engine sa core ang bilis nito para sa real-time na pagproseso ay mas mababa.

Inirerekumendang: