轉帖|行業(yè)資訊|編輯:陳俊吉|2016-07-27 09:21:17.000|閱讀 419 次
概述:最近在網(wǎng)上又看到有關于Hadoop適用性的討論。想想今年大數(shù)據(jù)技術開始由互聯(lián)網(wǎng)巨頭走向中小互聯(lián)網(wǎng)和傳統(tǒng)行業(yè),估計不少人都在考慮各種“紛繁復雜”的大數(shù)據(jù)技術的適用性的問題。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
最近在網(wǎng)上又看到有關于適用性的討論。想想今年開始由互聯(lián)網(wǎng)巨頭走向中小互聯(lián)網(wǎng)和傳統(tǒng)行業(yè),估計不少人都在考慮各種“紛繁復雜”的的適用性的問題。這兒我就結合我這幾年在Hadoop等大數(shù)據(jù)方向的工作經(jīng)驗,與大家討論一下Hadoop、Spark、HBase及Redis等幾個主流大數(shù)據(jù)技術的使用場景(首先聲明一點,本文中所指的Hadoop,是很“狹義”的Hadoop,即在HDFS上直接跑MapReduce的技術,下同)。
我這幾年實際研究和使用過大數(shù)據(jù)(包含NoSQL)技術包括Hadoop、Spark、HBase、Redis和MongoDB等,這些技術的共同特點是不適合用于支撐事務型應用,特別是與“錢”相關的應用,如“訂購關系”、“超市交易”等,這些場合到目前為止還是Oracle等傳統(tǒng)關系型數(shù)據(jù)庫的天下。
1. Vs.
Hadoop/MapReduce和Spark最適合的都是做離線型的數(shù)據(jù)分析,但Hadoop特別適合是單次分析的數(shù)據(jù)量“很大”的情景,而Spark則適用于數(shù)據(jù)量不是很大的情景。這兒所說的“很大”,是相對于整個集群中的內(nèi)存容量而言的,因為Spark是需要將數(shù)據(jù)HOLD在內(nèi)存中的。一般的,1TB以下的數(shù)據(jù)量都不能算很大,而10TB以上的數(shù)據(jù)量都是算“很大”的。
比如說,20個節(jié)點的一個集群(這樣的集群規(guī)模在大數(shù)據(jù)領域算是很小的了),每個節(jié)點64GB內(nèi)存(不算很小,但也不能算大),共計1.28TB。讓這樣規(guī)模的一個集群把500GB左右的數(shù)據(jù)HOLD在內(nèi)存中還是很輕松的。這時候,用Spark的執(zhí)行速度都會比Hadoop快,畢竟在MapReduce過程中,諸如spill等這些操作都是需要寫磁盤的。
這兒有2點需要提一下:
1)一般情況下,對于中小互聯(lián)網(wǎng)和企業(yè)級的大數(shù)據(jù)應用而言,單次分析的數(shù)量都不會“很大”,因此可以優(yōu)先考慮使用Spark,特別是當Spark成熟了以后(Hadoop已經(jīng)出到2.5了,而Spark才剛出1.0呢)。比如說,中國移動的一個省公司(在企業(yè)級,移動公司的數(shù)據(jù)量還是算相當大的),他們單次分析的數(shù)量一般也就幾百GB,連1TB都很少超過,更不用說超過10TB了,所以完全可以考慮用Spark逐步替代Hadoop。
2)業(yè)務通常認為Spark更適用于機器學習之類的“迭代式”應用,但這僅僅是“更”。一般地,對于中等規(guī)模的數(shù)據(jù)量,即便是不屬于“更適合”范疇的應用,Spark也能快2~5倍左右。我自己做過一個對比測試,80GB的壓縮數(shù)據(jù)(解壓后超過200GB),10個節(jié)點的集群規(guī)模,跑類似“sum+group-by”的應用,MapReduce花了5分鐘,而spark只需要2分鐘。
2.
對于HBase,經(jīng)常聽到的一個說法是:HBase只適合于支撐離線分析型應用,特別是做為MapReduce任務的后臺數(shù)據(jù)源。持這個觀點不少,甚至在國內(nèi)一個響當當?shù)碾娦旁O備提供商中,HBase也是被歸入數(shù)據(jù)分析產(chǎn)品線的,并明確不建議將HBase用于在線應用。可實際情況真是這樣嗎?讓我們先看看它的幾大案例:Facebook的消息類應用,包括Messages、Chats、Emails和SMS系統(tǒng),用的都是HBase;淘寶的WEB版阿里旺旺,后臺是HBase;小米的米聊用的也是HBase;移動某省公司的手機詳單查詢系統(tǒng),去年也由原先的Oracle改成了一個32節(jié)點的HBase集群——兄弟們,這些可都是知名大公司的關鍵應用啊,夠能說明問題了吧。
實際上從HBase的技術特點上看,它特別適用于簡單數(shù)據(jù)寫入(如“消息類”應用)和海量、結構簡單數(shù)據(jù)的查詢(如“詳單類”應用)。在上面提到的4個HBase的應用中,F(xiàn)acebook消息、WEB版阿里旺旺、米聊等均屬于以數(shù)據(jù)寫入為主的消息類應用,而移動公司的手機詳單查詢系統(tǒng)則屬于以數(shù)據(jù)查詢?yōu)橹鞯脑攩晤悜谩?/p>
HBase的另一個用途是作為MapReduce的后臺數(shù)據(jù)源,以支撐離線分析型應用。這個固然可以,但其性能如何則是值得商榷的。比如說,superlxw1234同學通過實驗對比了“Hive over HBase”和“Hive over HDFS”后驚奇的發(fā)現(xiàn),除了在使用rowkey過濾時,基于HBase的性能上略好于直接基于HDFS外,在使用全表掃描和根據(jù)value過濾時,直接基于HDFS方案的性能均比HBase好的多——這真是一個謬論啊!不過對于這個問題,我個人感覺從原理上看,當使用rowkey過濾時,過濾程度越高,基于HBase方案的性能必然越好;而直接基于HDFS方案的性能則跟過濾程度沒有關系。
3. HBase Vs. Redis
HBase和Redis在功能上比較類似,比如它們都屬于NoSQL級別的數(shù)據(jù)庫,都支持數(shù)據(jù)分片等,關鍵的不同點實際上只有一個:對HBase而言,一旦數(shù)據(jù)被成功寫入,從原理上看是不會丟的,因為它有Writa-ahead Log(功能上類似于Oracle REDO);而對于Redis而言,即便是配置了主從復制功能,在Failover時完全存在發(fā)生數(shù)據(jù)丟失的可能(如果不配置主從復制,那么丟失的數(shù)據(jù)會更多),因為它第一沒有類似REDO的重做日志,第二采用了異步復制的方式。
關鍵還在于性能。通常,Redis的讀寫性能在100,000 ops/s左右,時延一般為10~70微妙左右;而HBase的單機讀寫性能一般不會超過1,000ops/s,時延則在1~5毫秒之間。忽略其中的硬件因素,100倍的讀寫性能差異已經(jīng)足夠說明問題了。順便提一下的是,Redis在Tuning上還是比較講究的,比如說,當使用numactl(或taskset)將Redis進程綁定到同一個CPU的不同CORE上時,它的性能一般可以提升30%左右,在一些特別的場景下甚至可以有近一倍的提升。
從上述的功能和性能比較上,我們就很容易的總結出HBase和Redis各自的適用范疇:
1)當用來支撐簡單“消息類”應用時,如果數(shù)據(jù)失敗是不能容忍的,那就用只能用HBase;如果需要一個高性能的環(huán)境,而且能夠容忍一定的數(shù)據(jù)丟失,那完全可以考慮使用Redis。
2)Redis很適合用來做緩存,但除此之外,它實際上還可以在一些“讀寫分離”的場景下作為“讀庫”來用,特別是用來存放或的分析結果。
有不少人認為Redis只適合用作“緩存”,根據(jù)我的理解,這主要是基于以下2個原因:第一,Redis在設計上存在數(shù)據(jù)丟失的可能性;第二,當無法將數(shù)據(jù)全部HOLD在內(nèi)存中時,其讀寫性能會急劇下降到每秒幾百ops,這一現(xiàn)象類似于Google開源的Leveldb,F(xiàn)acebook的RocksDB團隊的通過Performance Benchmark也證實了這一現(xiàn)象的存在。但是,當用作“讀庫”或用于支撐允許數(shù)據(jù)丟失的“消息類”應用時,這兩個問題實際上都沒有關系。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn