A Hadoop melyik fájlformátuma engedélyezi az oszlopos adattárolási formátumot?
A Hadoop melyik fájlformátuma engedélyezi az oszlopos adattárolási formátumot?

Videó: A Hadoop melyik fájlformátuma engedélyezi az oszlopos adattárolási formátumot?

Videó: A Hadoop melyik fájlformátuma engedélyezi az oszlopos adattárolási formátumot?
Videó: Parquet file, Avro file, RC, ORC file formats in Hadoop | Different file formats in Hadoop 2024, December
Anonim

Oszlopos fájlformátumok (parketta, RCFile )

A Hadoop legfrissebb fájlformátumai az oszlopos fájltároláshoz. Ez alapvetően azt jelenti, hogy ahelyett, hogy csak egymás melletti adatsorokat tárolnánk, az oszlopértékeket is egymás mellett tároljuk. Így az adatkészletek vízszintesen és függőlegesen is fel vannak osztva.

Ezen kívül milyen formátumban kezeli a Hadoop az adatokat?

Több is van Hadoop -specifikus fájl formátumok amelyeket kifejezetten úgy hoztak létre, hogy jól működjenek a MapReduce-val. Ezek Hadoop -specifikus fájl formátumok includefile alapú adat struktúrák, például sorozatfájlok, szerializálás formátumok mint Avro, és oszlopos formátumok mint például az RCFile és a Parquet.

Az is felmerülhet, hogy mi az az oszlopos fájlformátum? Sor és Oszlopos Kaptár tárolására. Az ORC a oszlopos tárolás formátum használt Hadoop for Hivetables. Ez egy hatékony fájlformátum adatok tárolására, amelyekben a rekordok sok oszlopot tartalmaznak. Példa erre a Clickstream (web)adatok a webhely tevékenységének és teljesítményének elemzésére.

Hasonlóképpen felteszik a kérdést, hogy mi a fájlformátum a Hadoopban?

Alapvető fájlformátumok a következők: Szöveg formátum , Kulcs érték formátum , Sorozat formátum . Egyéb formátumok amelyek használatosak és jól ismertek: Avro, Parquet, RC vagy Row-Columnar formátum , ORC vagy Optimized RowCumnar formátum.

Miért használnak oszlopos fájlformátumokat az adattárolásban?

ORC üzletek sora adat ban ben oszlopos formátum . Ez a sor- oszlopos formátum rendkívül hatékony a tömörítéshez és tárolás . Lehetővé teszi a párhuzamos feldolgozást a fürtök között, és a oszlopos formátum lehetővé teszi a szükségtelen oszlopok kihagyását a gyorsabb feldolgozás és kitömörítés érdekében.

Ajánlott: