現在,越來越難以定義到底Hadoop是什么,亦或是Hadoop不是什么。幾年前,Hadoop基本上等于MapReduce,一個處理海量數據的批處 理系統,讓人們誤認為Hadoop即為大數據(Big Data),大數據就是“很多很多的數據”。但如果市場上不存在這樣的困惑,今天只會更糟。因為Hadoop正承擔和提供著各種各樣的功能,而這在兩年前 被認為是不可能的。
在Hadoop生態繁榮的背后,是開發者們夜以繼日的開發與支持。而在用戶得益甚至贊賞這些應用的時候,開發者們卻不得不面對Hadoop平臺中一些可用性較差的地方。本文列舉了網絡上一些關于Hadoop的缺點,供大家探討,部分觀點來自InfoWorld及開發者博客。
隨著互聯網的快速發展,特別是移動互聯網、物聯網的發展, 企業的數據比以往任何時候產生的都要多都要快,面對動輒幾十TB、上百TB、甚至PB級別的數據進行分析時,傳統架構已近乎“疲于奔命”,難以招架。 Hadoop在企業級市場隨之受到關注,逐漸被認為是新形勢下最佳乃至唯一的選擇 。
本次QCon上海的Hadoop專題出品人王峰(莫問)接受了InfoQ郵件采訪,談到自己在阿里的工作,YARN的優勢以及Stream和Spark等平臺的比較。
國內外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個節點,主要用于支持廣告系統與網頁搜索。國內用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
當下大數據之熱使得技術界對Hadoop的話題熱火朝天。但在日常工作中,企業往往還是遵循既有模式,對于Hadoop到底能否真正幫到企業的應用依然心存顧慮。Hadoop是不是很年輕?這個開源的事物能否符合公司業務級的嚴謹要求?有沒有企業真的應用過?一系列問題縈繞人們心頭。這可以理解,畢竟任何一個新生事物出來都要有一個接受過程 。
在這個博客帖子中,你將會學到一些工作負載評估的原則和它在硬件選擇中起著至關重要的作用。在這個過程中,你也將學到Hadoop管理員應該考慮到各種因素。