rdd的特點可分區 rdd的特點

rdd的特點如下:



1、RDD是Spark提供的核心抽象 , 全稱為Resillient Distributed Dataset , 即彈性分布式數據集 。


2、RDD在抽象上來說是一種元素集合 , 包含了數據 。它是被分區的 , 分為多個分區 , 每個分區分布在集群中的不同節點上 , 從而讓RDD中的數據可以被并行操作 。
【rdd的特點可分區 rdd的特點】


3、RDD通常通過Hadoop上的文件 , 即HDFS文件或者Hive表 , 來進行創建;有時也可以通過應用程序中的集合來創建 。


4、RDD最重要的特性就是 , 提供了容錯性 , 可以自動從節點失敗中恢復過來 。即如果某個節點上的RDD partition , 因為節點故障 , 導致數據丟了 , 那么RDD會自動通過自己的數據來源重新計算該partition 。這一切對使用者是透明的 。


5、RDD的數據默認情況下存放在內存中的 , 但是在內存資源不足時 , Spark會自動將RDD數據寫入磁盤 。

    相關經驗推薦