轉(zhuǎn)帖|行業(yè)資訊|編輯:郝浩|2016-06-24 11:07:03.000|閱讀 161 次
概述:許多公司都在為管理海量數(shù)據(jù)不斷努力。以前,他們都使用數(shù)據(jù)倉庫平臺,用這種傳統(tǒng)架構(gòu)在處理來自內(nèi)部和外部數(shù)據(jù)源的數(shù)據(jù)時有很大困難,這些數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容類型通常非常多樣化,但Hadoop可以對此場景提供幫助。Hadoop是一款分布式處理架構(gòu),專門用來處理復雜的海量大數(shù)據(jù),處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)混雜的場景。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
許多公司都在為管理海量數(shù)據(jù)不斷努力。以前,他們都使用數(shù)據(jù)倉庫平臺,用這種傳統(tǒng)架構(gòu)在處理來自內(nèi)部和外部數(shù)據(jù)源的數(shù)據(jù)時有很大困難,這些數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容類型通常非常多樣化,但Hadoop可以對此場景提供幫助。Hadoop是一款分布式處理架構(gòu),專門用來處理復雜的海量大數(shù)據(jù),處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)混雜的場景。
Hadoop的部分優(yōu)勢在于,它有許多種開源組件和相關(guān)工具,可以完成數(shù)據(jù)捕獲、處理、管理和分析工作。為了幫助用戶利用好該框架,許多供應(yīng)商提供了商業(yè)版Hadoop分布式產(chǎn)品,它們在Hadoop基礎(chǔ)之上提供了性能和功能方面的擴展,并提供對該框架的維護和支持服務(wù)。
Hadoop運行在商用服務(wù)器集群環(huán)境中,這種環(huán)境通常用來支持數(shù)據(jù)分析而不是聯(lián)機事務(wù)處理應(yīng)用。有幾種更加通用的分析應(yīng)用案例可以很好地展示Hadoop分布式數(shù)據(jù)處理和并行計算模型:
支持以上這些應(yīng)用場景的應(yīng)用都可以基于Hadoop構(gòu)建,可以使用一些典型的實現(xiàn)方法。說明如下:
Hadoop是低成本高性能的計算框架,可以處理各種IT和業(yè)務(wù)場景中組織對擴展處理能力或者擴展數(shù)據(jù)管理能力的需求。下面總結(jié)一下應(yīng)用需求的特點以及建議選擇的基于Hadoop分布式應(yīng)用的數(shù)據(jù)管理平臺。
獲取和處理大數(shù)據(jù)規(guī)范集、大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)和流式數(shù)據(jù)。例如,捕獲包含數(shù)十億在線事件信息的Web服務(wù)器日志;跨不同數(shù)據(jù)集索引億級文檔;從眾多渠道持續(xù)拉取數(shù)據(jù)流(諸如:社交媒體渠道、證券市場數(shù)據(jù)、新聞發(fā)布源和專家團隊發(fā)布的內(nèi)容等渠道)。
盡管把Hadoop平臺整合到企業(yè)應(yīng)用中是完全可行的,但使用Hadoop獲益仍然要考慮權(quán)衡。因為許多組織已經(jīng)在傳統(tǒng)數(shù)據(jù)倉庫平臺上做了巨大投資,因此引入更新的技術(shù)可能會遇到一些阻力。在引入Hadoop分布式產(chǎn)品供應(yīng)商之前,需要先解決潛在的障礙,評估集群規(guī)模和配置需求。
例如,要判斷Hadoop集群如何與組織的數(shù)據(jù)倉庫和分析策略融合,判斷是否可以增強現(xiàn)有數(shù)據(jù)倉庫功能甚至替換它。另外,要判斷整合和交互方面需要處理的問題,審查配置可替代物,包括是否可以更有利于實施內(nèi)部Hadoop生態(tài)系統(tǒng),或者基于云或者托管環(huán)境。此外,要確保你已經(jīng)聘用了具備相應(yīng)技能的員工或者對現(xiàn)有職員進行再培訓。Hadoop應(yīng)用開發(fā)與傳統(tǒng)數(shù)據(jù)庫開發(fā)差異是很大的。
本文轉(zhuǎn)載自
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn