* 關于本產品的分類與介紹僅供參考,精準產品資料以官網介紹為準,如需購買請先行測試。
Spark 擁有一個先進的DAG執行引擎,支持循環數據流和內存計算。
Spark提供超過80個易于構建并行應用程序的高階運算符,你也可以在Scala、 Python和R shells中對它進行交互使用。
Spark支持一系列元件庫堆棧,包括SQL與 DataFrames,用于機器學習的MLlib ,GraphX,Spark Streaming。你可以在同一個應用程序無縫地結合這些元件庫。
你可以使用其獨立集群模式來運行Spark,運行在 EC2、 Hadoop YARN還是Apache Mesos都不是問題。它可以訪問HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop數據源。
Spark的中間數據放到內存中,對于迭代運算效率更高。
Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面,有RDD的抽象概念。
Spark提供的數據集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型,Spark把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。
這些多種多樣的數據集操作類型,給開發上層應用的用戶提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名,物化,控制中間結果的存儲、分區等。可以說編程模型比Hadoop更靈活。
不過由于RDD的特性,Spark不適用那種異步細粒度更新狀態的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不適合。
更新時間:2017-04-28 14:25:02.000 | 錄入時間:2016-01-29 11:06:44.000 | 責任編輯:陳俊吉