Talaan ng mga Nilalaman:

Ano ang iba't ibang mga format ng file sa Hadoop?
Ano ang iba't ibang mga format ng file sa Hadoop?

Video: Ano ang iba't ibang mga format ng file sa Hadoop?

Video: Ano ang iba't ibang mga format ng file sa Hadoop?
Video: Hadoop Processing Frameworks 2024, Disyembre
Anonim

Sa kabutihang-palad para sa iyo, ang komunidad ng malaking data ay karaniwang nanirahan sa tatlong na-optimize mga format ng file para gamitin sa Hadoop mga cluster: Optimized Row Columnar (ORC), Avro, atParquet.

Kasunod nito, maaari ring magtanong, ano ang iba't ibang uri ng mga format ng data?

May tatlo mga uri ng data pagmamapa at GIS mga format ng datos . Ang bawat isa uri ay hinahawakan nang iba.

Mga Uri ng Format ng Data

  • Nakabatay sa file- Mga Shapefile, Microstation Design Files (DGN), mga larawang GeoTIFF.
  • Nakabatay sa direktoryo - Mga Saklaw ng ESRI ArcInfo, US Census TIGER.
  • Mga koneksyon sa database - PostGIS, ESRI ArcSDE, MySQL.

Bukod pa rito, aling format ng file ang pinakamahusay sa pugad? Ang RCFile ay row columnar format ng file . Ito ay isa pang anyo ng Format ng file ng hive na nag-aalok ng mataas na antas ng row na mga rate ng compression. Kung kailangan mong magsagawa ng maramihang rowsat sa isang pagkakataon, maaari mong gamitin ang RCFile pormat.

Kung isasaalang-alang ito, ano ang mga karaniwang format ng pag-input sa Hadoop?

Lumilikha ang InputFormat ng Inputsplit

  • Ang pinakakaraniwang InputFormat ay:
  • FileInputFormat- Ito ang batayang klase para sa lahat ng file-basedInputFormat.
  • TextInputFormat- Ito ay ang default na InputFormat ngMapReduce.
  • KeyValueTextInputFormat- Ito ay katulad ng TextInputFormat.
  • Sundin ang link para matuto pa tungkol sa InputFormat sa Hadoop.

Ano ang format ng orc file sa Hadoop?

Format ng ORC File Ang Optimized na Row Columnar ( ORC ) fileformat nagbibigay ng napakahusay na paraan upang mag-imbak ng data ng Hive. Dinisenyo ito para malampasan ang mga limitasyon ng iba pang Hive mga fileformat . Gamit ORC file pinapabuti ang pagganap kapag nagbabasa, nagsusulat, at nagpoproseso ng data si Hive.

Inirerekumendang: