Ano ang parquet data format?
Ano ang parquet data format?

Video: Ano ang parquet data format?

Video: Ano ang parquet data format?
Video: What is Apache Parquet file? 2024, Nobyembre
Anonim

Apache Parquet ay isang libre at open-source na column-oriented datos imbakan pormat ng Apache Hadoop ecosystem. Ito ay katugma sa karamihan ng datos pagpoproseso ng mga balangkas sa kapaligiran ng Hadoop. Nagbibigay ito ng mahusay datos compression at encoding scheme na may pinahusay na performance para mahawakan ang kumplikado datos nang maramihan.

Kaya lang, ano ang parquet file format?

Parquet , isang open source format ng file para sa Hadoop. Parquet nag-iimbak ng mga nested na istruktura ng data sa isang flat columnar pormat . Kung ikukumpara sa isang tradisyunal na diskarte kung saan ang data ay nakaimbak sa row-oriented na diskarte, parquet ay mas mahusay sa mga tuntunin ng imbakan at pagganap.

Higit pa rito, para saan ginagamit ang parquet? Parquet ay isang open source na format ng file na magagamit sa anumang proyekto sa Hadoop ecosystem. Apache Parquet ay dinisenyo para sa mahusay at gumaganap na flat columnar storage na format ng data kumpara sa mga row based na file tulad ng CSV o TSV file.

Bukod pa rito, paano nag-iimbak ng data ang format ng parquet?

DATA BLOCK Bawat bloke sa parquet file ay nakaimbak sa anyo ng mga pangkat ng hilera. Kaya, datos sa isang parquet Ang file ay nahahati sa maraming pangkat ng hilera. Ang mga row group na ito ay binubuo ng isa o higit pang column chunks na tumutugma sa isang column sa datos itakda. Ang datos para sa bawat column chunk na nakasulat sa anyo ng mga pahina.

Nababasa ba ng tao ang parquet?

ORC, Parquet , at ang Avro ay machine- nababasa binary na mga format, na kung saan ay upang sabihin na ang mga file ay mukhang walang kwenta sa mga tao . Kung kailangan mo isang tao - nababasa format tulad ng JSON o XML, pagkatapos ay dapat mong muling isaalang-alang kung bakit mo ginagamit ang Hadoop sa unang lugar.

Inirerekumendang: