原創|行業資訊|編輯:龔雪|2014-12-05 09:47:43.000|閱讀 1638 次
概述:一說大數據,人們往往想到Hadoop。這固然不錯,但隨著大數據技術的深入應用,多種類型的數據應用不斷被要求提出,一些Hadoop被關注的范疇開始被人們注意,相關技術也迅速獲得專業技術范疇的應用。最近半年來的Spark之熱就是典型例子。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
一說大數據,人們往往想到Hadoop。這固然不錯,但隨著大數據技術的深入應用,多種類型的數據應用不斷被要求提出,一些Hadoop被關注的范疇開始被人們注意,相關技術也迅速獲得專業技術范疇的應用。最近半年來的Spark之熱就是典型例子。
Spark是一個基于RAM計算的開源碼ComputerCluster運算系統,目的是更快速地進行數據分析。Spark早期的核心部分代碼只有3萬行。Spark提供了與HadoopMap/Reduce相似的分散式運算框架,但基于RAM和優化設計,因此在交換式數據分析和datamining的Workload中表現不錯。
進入2014年以后,Spark開源碼生態系統大幅增長,已成為大數據范疇最活躍的開源碼項目之一。Spark之所以有如此多的關注,塬因主要是因為Spark具有的高性能、高靈活性、與Hadoop生態系統完美融合等叁方面的特點。
首先,Spark對分散的數據集進行抽樣,創新地提出RDD(ResilientDistributedDataset)的概念,所有的統計分析任務被翻譯成對RDD的基本操作組成的有向無環圖(DAG)。RDD可以被駐留在RAM中,往后的任務可以直接讀取RAM中的數據;同時分析DAG中任務之間的依賴性可以把相鄰的任務合并,從而減少了大量不準確的結果輸出,極大減少了HarddiskI/O,使復雜數據分析任務更高效。從這個推算,如果任務夠復雜,Spark比Map/Reduce快一到兩倍。
其次,Spark是一個靈活的運算框架,適合做批次處理、工作流、交互式分析、流量處理等不同類型的應用,因此Spark也可以成為一個用途廣泛的運算引擎,并在未來取代Map/Reduce的地
最后,Spark可以與Hadoop生態系統的很多組件互相操作。Spark可以運行在新一代資源管理框架YARN上,它還可以讀取已有并存放在Hadoop上的數據,這是個非常大的優勢。
雖然Spark具有以上叁大優點,但從目前Spark的發展和應用現狀來看,Spark本身也存在很多缺陷,主要包括以下幾個方面:
雖然Spark活躍在Cloudera、MapR、Hortonworks等眾多知名大數據公司,但是如果Spark本身的缺陷得不到及時處理,將會嚴重影響Spark的普及和發展。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網