Tartalomjegyzék:

Melyek a különböző fájlformátumok a Hadoopban?
Melyek a különböző fájlformátumok a Hadoopban?

Videó: Melyek a különböző fájlformátumok a Hadoopban?

Videó: Melyek a különböző fájlformátumok a Hadoopban?
Videó: Manage Multi Container Apps with #dockercompose | #CloudNativeNinja PT4 2024, November
Anonim

Szerencsédre a big data közösség alapvetően három optimalizált mellett döntött fájlformátumok -ben való használatra Hadoop klaszterek: Optimalizált soroszlop (ORC), Avro és Parkett.

Ezt követően az is felmerülhet, hogy melyek az adatformátumok különböző típusai?

Itt három van adattípusok térképezés és térinformatika adatformátumok . Minden egyes típus másként kezelik.

Adatformátum típusok

  • Fájlalapú - Shapefiles, Microstation Design Files (DGN), GeoTIFF képek.
  • Címtáralapú – ESRI ArcInfo Coverages, US Census TIGER.
  • Adatbázis kapcsolatok - PostGIS, ESRI ArcSDE, MySQL.

Ezenkívül melyik fájlformátum a legjobb a kaptárban? Az RCFile sor oszlopos fájlformátum . Ez egy másik formája Hive fájlformátum amely magas sorszintű tömörítési arányt kínál. Ha egyszerre több sort kell végrehajtania, akkor használhatja az RCFile-t formátum.

Ezt figyelembe véve melyek a Hadoop általános beviteli formátumai?

Az InputFormat létrehozza az Inputsplit-et

  • A leggyakoribb beviteli formátumok a következők:
  • FileInputFormat- Ez az alaposztály minden fájl alapúInputFormat számára.
  • TextInputFormat – Ez a MapReduce alapértelmezett beviteli formátuma.
  • KeyValueTextInputFormat- Hasonló a TextInputFormathoz.
  • Kövesse a linket, ha többet szeretne megtudni a Hadoop InputFormatról.

Mi az orc fájlformátum a Hadoopban?

ORC fájlformátum Az optimalizált soroszlop ( ORC ) fájlformátum rendkívül hatékony módot biztosít a Hive adatok tárolására. Úgy tervezték, hogy legyőzze a másik Hive korlátait fájlformátumok . Használata ORC fájlok javítja a teljesítményt, amikor a Hiveis adatokat olvas, ír és dolgoz fel.

Ajánlott: