Mi az RDD a Scalában?
Mi az RDD a Scalában?

Videó: Mi az RDD a Scalában?

Videó: Mi az RDD a Scalában?
Videó: Lady Gaga - Always Remember Us This Way (from A Star Is Born) (Official Music Video) 2024, November
Anonim

Rugalmas elosztott adatkészletek ( RDD ) a Spark alapvető adatszerkezete. Ez az objektumok megváltoztathatatlan elosztott gyűjteménye. RDD-k tartalmazhat bármilyen típusú Python, Java vagy Scala objektumok, beleértve a felhasználó által definiált osztályokat. Formálisan egy RDD a rekordok csak olvasható, particionált gyűjteménye.

Az is kérdés, hogy mi a különbség az RDD és a DataFrame között?

RDD – RDD az adatelemek elosztott gyűjteménye, sok gépen elosztva ban,-ben fürt. RDD-k adatokat reprezentáló Java vagy Scala objektumok halmaza. DataFrame – A DataFrame névvel ellátott oszlopokba rendezett adatok elosztott gyűjteménye. Elvileg megegyezik egy táblázattal a relációs adatbázis.

Továbbá, hogyan oszlik el az RDD? Rugalmas Megosztott Adatkészletek ( RDD-k ) Ők a megosztott objektumok gyűjteménye, amelyek egy fürt különböző gépeinek memóriájában vagy lemezein vannak tárolva. Egyetlen RDD több logikai partícióra osztható, így ezek a partíciók egy fürt különböző gépein tárolhatók és feldolgozhatók.

hogyan működik a Spark RDD?

RDD-k ban ben Szikra partíciókat tartalmazó rekordok gyűjteménye. RDD-k ban ben Szikra kis logikai adattömbökre vannak osztva – partícióknak nevezzük, amikor egy művelet végrehajtásra kerül, partíciónként egy feladat indul el. Partíciók be RDD-k a párhuzamosság alapegységei.

Melyik a gyorsabb RDD vagy DataFrame?

RDD - Egyszerű csoportosítási és összesítési műveletek végrehajtása közben RDD Az API lassabb. DataFrame - Feltáró elemzések végzése során, az adatokra vonatkozó összesített statisztikák készítése során, adatkeretek vannak gyorsabban . RDD - Ha alacsony szintű átalakítást és akciókat szeretne, használjuk RDD-k . Továbbá, amikor magas szintű absztrakciókra van szükségünk, akkor használjuk RDD-k.

Ajánlott: