福利小导航,亚洲一区在线播放,日本人妖网

產品

產品
資訊
資源
視頻
學院
示例

金喜正規買球 > 產品 > Spark

下載：55 收藏：0

查看價格免費下載

Spark (產品編號：13780)

Apache Spark是一個用于大規模數據處理的快速通用引擎。

標簽：大數據數據可視化數據分析 Hadoop

開發商： Apache

當前版本： v1.6

產品類型：開源

產品功能：大數據分析工具

平臺語言：

開源水平：不提供源碼

本產品的分類與介紹僅供參考，具體以商家網站介紹為準，如有疑問請來電 023-68661681 咨詢。

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用并行框架，它擁有Hadoop MapReduce所具有的優點；但不同于MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。

* 關于本產品的分類與介紹僅供參考，精準產品資料以官網介紹為準，如需購買請先行測試。

產品優勢：

高速：運行程序的速度在存儲器中比Hadoop MapReduce快上百倍，在磁盤中比Hadoop MapReduce快數十倍。

Spark 擁有一個先進的DAG執行引擎，支持循環數據流和內存計算。

易用：編寫Java、Scala、Python、R程序快速高效。

Spark提供超過80個易于構建并行應用程序的高階運算符，你也可以在Scala、 Python和R shells中對它進行交互使用。

通用：可結合SQL、流媒體和復雜的分析。

Spark支持一系列元件庫堆棧，包括SQL與 DataFrames，用于機器學習的MLlib ，GraphX，Spark Streaming。你可以在同一個應用程序無縫地結合這些元件庫。

無處不在：Spark可以運行在Hadoop、Mesos、standalone以及云端。它可以訪問包括 HDFS、 Cassandra、 HBase和S3在內的不同數據源。

你可以使用其獨立集群模式來運行Spark，運行在 EC2、 Hadoop YARN還是Apache Mesos都不是問題。它可以訪問HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop數據源。

與Hadoop的對比

Spark的中間數據放到內存中，對于迭代運算效率更高。
Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面，有RDD的抽象概念。
Spark提供的數據集操作類型有很多種，不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。

這些多種多樣的數據集操作類型，給開發上層應用的用戶提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結果的存儲、分區等。可以說編程模型比Hadoop更靈活。

不過由于RDD的特性，Spark不適用那種異步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不適合。

更新時間:2017-04-28 14:25:02.000 | 錄入時間:2016-01-29 11:06:44.000 | 責任編輯:陳俊吉

慧都公開課 更多