Mi a probléma a Hadoop kis fájljaival?
Mi a probléma a Hadoop kis fájljaival?

Videó: Mi a probléma a Hadoop kis fájljaival?

Videó: Mi a probléma a Hadoop kis fájljaival?
Videó: What is MapReduce♻️in Hadoop🐘| Apache Hadoop🐘 2024, November
Anonim

1) Kis fájl probléma ban ben HDFS : Sok tárolása kis fájlokat amelyek rendkívül kisebb mint a blokkméret nem kezelhető hatékonyan HDFS . Végigolvasva kis fájlokat sok keresést és sok ugrást foglal magában az adatcsomópontok között az adatcsomópontok között, ami nem hatékony adatfeldolgozást jelent.

Ezen kívül mely fájlok foglalkoznak a Hadoop kis fájlproblémákkal?

1) HAR ( Hadoop Archívum) Fájlok bemutatták kis fájlproblémával foglalkozni . A HAR egy réteget vezetett be a tetejére HDFS , amelyek interfészt biztosítanak a fájlt hozzáférést. Használata Hadoop archív parancs, HAR fájlokat jönnek létre, amely a MapReduce feladat becsomagolni a fájlokat archiválás alatt áll kisebb száma HDFS fájlok.

Ezenkívül rendelkezhetek több fájllal a HDFS-ben, amelyek különböző blokkméreteket használnak? Alapértelmezett méret nak,-nek Blokk 64 MB. te tud igénye szerint változtassa meg. A kérdésedre térve igen, te több fájlt is létrehozhat variálásával blokkméretek de valós időben ezt akarat nem kedvez a termelésnek.

Sőt, a HDFS miért nem kezeli optimálisan a kis fájlokat?

Problémák a kis fájlokat és HDFS Minden fájlt , könyvtár és blokkolás A HDFS az A névcsomópont memóriájában objektumként jelennek meg, amelyek mindegyike 150 bájtot foglal el, mint ökölszabály. Továbbá, HDFS nem hatékony hozzáférésre készültek kis fájlokat : azt van elsősorban nagy streaming hozzáférésre tervezték fájlokat.

Miért lassú a Hadoop?

Lassú Feldolgozási sebesség Ez a lemez keres időt vesz igénybe, ezáltal az egész folyamat nagyon lassú . Ha Hadoop kis mennyiségben dolgoz fel adatokat, ez nagyon lassú viszonylag. Ideális nagy adathalmazokhoz. Mint Hadoop kötegelt feldolgozó motorral rendelkezik, a valós idejű feldolgozás sebessége kisebb.

Ajánlott: