現(xiàn)在,越來越難以定義到底Hadoop是什么,亦或是Hadoop不是什么。幾年前,Hadoop基本上等于MapReduce,一個處理海量數(shù)據(jù)的批處 理系統(tǒng),讓人們誤認為Hadoop即為大數(shù)據(jù)(Big Data),大數(shù)據(jù)就是“很多很多的數(shù)據(jù)”。但如果市場上不存在這樣的困惑,今天只會更糟。因為Hadoop正承擔和提供著各種各樣的功能,而這在兩年前 被認為是不可能的。
在Hadoop生態(tài)繁榮的背后,是開發(fā)者們夜以繼日的開發(fā)與支持。而在用戶得益甚至贊賞這些應用的時候,開發(fā)者們卻不得不面對Hadoop平臺中一些可用性較差的地方。本文列舉了網(wǎng)絡上一些關(guān)于Hadoop的缺點,供大家探討,部分觀點來自InfoWorld及開發(fā)者博客。
隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展, 企業(yè)的數(shù)據(jù)比以往任何時候產(chǎn)生的都要多都要快,面對動輒幾十TB、上百TB、甚至PB級別的數(shù)據(jù)進行分析時,傳統(tǒng)架構(gòu)已近乎“疲于奔命”,難以招架。 Hadoop在企業(yè)級市場隨之受到關(guān)注,逐漸被認為是新形勢下最佳乃至唯一的選擇 。
本次QCon上海的Hadoop專題出品人王峰(莫問)接受了InfoQ郵件采訪,談到自己在阿里的工作,YARN的優(yōu)勢以及Stream和Spark等平臺的比較。
國內(nèi)外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個節(jié)點,主要用于支持廣告系統(tǒng)與網(wǎng)頁搜索。國內(nèi)用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
當下大數(shù)據(jù)之熱使得技術(shù)界對Hadoop的話題熱火朝天。但在日常工作中,企業(yè)往往還是遵循既有模式,對于Hadoop到底能否真正幫到企業(yè)的應用依然心存顧慮。Hadoop是不是很年輕?這個開源的事物能否符合公司業(yè)務級的嚴謹要求?有沒有企業(yè)真的應用過?一系列問題縈繞人們心頭。這可以理解,畢竟任何一個新生事物出來都要有一個接受過程 。
在這個博客帖子中,你將會學到一些工作負載評估的原則和它在硬件選擇中起著至關(guān)重要的作用。在這個過程中,你也將學到Hadoop管理員應該考慮到各種因素。
通過Hadoop安全部署經(jīng)驗總結(jié)以下十大建議,以確保大型和復雜多樣環(huán)境下的數(shù)據(jù)信息安全。