Maaari bang basahin ng Spark ang mga lokal na file?
Maaari bang basahin ng Spark ang mga lokal na file?

Video: Maaari bang basahin ng Spark ang mga lokal na file?

Video: Maaari bang basahin ng Spark ang mga lokal na file?
Video: Summon ng barangay, okay lang ba na hindi puntahan? 2024, Nobyembre
Anonim

Habang Spark sumusuporta sa paglo-load mga file galing sa lokal filesystem, kailangan nito na ang mga file ay available sa parehong landas sa lahat ng node sa iyong cluster. Ang ilang mga network filesystem, tulad ng NFS, AFS, at ang layer ng NFS ng MapR, ay nakalantad sa user bilang isang regular na filesystem.

Kasunod nito, maaari ring magtanong, paano ako magpapatakbo ng spark sa lokal na mode?

Sa lokal na mode , kislap mga trabaho tumakbo sa iisang makina, at ipinapatupad nang magkatulad gamit ang multi-threading: nililimitahan nito ang parallelism sa (pinakamarami) ang bilang ng mga core sa iyong makina. Upang tumakbo mga trabaho sa lokal na mode , kailangan mo munang magreserba ng makina sa pamamagitan ng SLURM sa interactive mode at mag-log in dito.

Sa tabi sa itaas, ano ang SC textFile? text file ay isang paraan ng isang org. apache. SparkContext klase na nagbabasa ng a text file mula sa HDFS, isang lokal na file system (magagamit sa lahat ng node), o anumang URI ng file system na sinusuportahan ng Hadoop, at ibalik ito bilang isang RDD ng Strings.

Sa bagay na ito, ano ang isang spark file?

Ang Spark File ay isang dokumento kung saan itinatago mo ang lahat ng iyong malikhaing kabutihan. Ito ay tinukoy ng may-akda na si Stephen Johnson. Kaya sa halip na mag-scratch ng mga tala sa isang Post-it® sa kalagitnaan ng gabi o maglaan ng iba't ibang mga journal para sa mga ideya, ilagay mo ang lahat ng iyong mga konsepto sa isang file.

Ano ang parallelized collection spark?

Inilalarawan namin ang mga operasyon sa mga ipinamamahaging dataset sa susunod. Parallelized na mga koleksyon ay nilikha sa pamamagitan ng pagtawag sa JavaSparkContext 's parallelize pamamaraan sa isang umiiral na Koleksyon sa iyong driver program. Ang mga elemento ng koleksyon ay kinopya upang bumuo ng isang distributed dataset na maaaring patakbuhin nang magkatulad.

Inirerekumendang: