原創|行業資訊|編輯:況魚杰|2020-06-03 10:13:33.943|閱讀 403 次
概述:Apache Hadoop Ozone是一個分布式鍵值存儲,可以同時管理大小文件。Ozone旨在解決HDFS相對于小文件的規模限制。HDFS旨在存儲大文件,對于Namenode,HDFS上建議的文件數量為3億個,并且擴展規模不能超過此限制。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
Apache Hadoop Ozone是一個分布式鍵值存儲,可以同時管理大小文件。Ozone旨在解決HDFS相對于小文件的規模限制。HDFS旨在存儲大文件,對于Namenode,HDFS上建議的文件數量為3億個,并且擴展規模不能超過此限制。
有助于實現可擴展性的Ozone的主要功能是:
突破10億個密鑰之旅,超越了HDFS可擴展性限制
在Ozone中達到十億個對象一直是該項目的重要里程碑之一。使用在5個節點(每個節點有50個線程)上運行的自定義作業填充數據。Ozone在11個節點的群集(1個OM,1個SCM和9個數據節點)上運行,花了56個小時才達到10億個對象,每個對象的大小均為10KB。選擇10KB的原因是用小文件測量Ozone性能。
Ozone能夠以?5000個對象/秒的持續速率寫入對象,這進一步突出了Ozone的小文件處理能力,在整個測試過程中,它能夠提供相同的吞吐量。
一些重要的細節:
來自OzoneManger的持續交易
OzoneManger總共處理了20億筆交易,每個對象有兩筆交易(一個用于打開文件,另一個用于提交文件)。OzoneManger(OM)以大約12毫秒的延遲處理了10億個對象中的這些操作。恒定的等待時間還凸顯了OzoneManager上沒有長時間的GC暫停。
小元數據開銷
每個10KB大小的十億個密鑰存儲在2121個5GB容器中,這大大減少了SCM的塊元數據,與在OFS中報告的2121個容器相比,HDFS中報告了10億個塊。另一方面,OM上的十億個密鑰在SSD上總共占用了127 GB的空間。
測試環境
該測試在Apache Hadoop Ozone 0.5.0(Beta)版本上運行。
硬件
該測試是在AWS EC2實例類型為m5a.4xlarge的情況下執行的,其中具有用于OzoneManager和Storage Container Manager數據庫的SSD。
結論
HDFS圍繞小文件的已知限制和名稱空間規模限制導致存儲節點利用率不足,GC問題和Namenode不穩定,以及大型數據湖部署的名稱空間碎片。Ozone通過處理數十億個各種大小的文件來克服這些限制,因此可以在單個名稱空間中部署大型數據湖。 具有更高規模的Ozone體系結構以及對對象存儲用例的支持,可以滿足私有云環境中對大數據存儲的需求,在私有云環境中,計算和存儲的分類正在迅速發展。
關于Cloudera
在 Cloudera,我們相信數據可以使今天的不可能,在明天成為可能。我們使人們能夠將復雜的數據轉換為清晰而可行的洞察力。Cloudera 為任何地方的任何數據從邊緣到人工智能提供企業數據云平臺服務。在開源社區不懈創新的支持下, Cloudera推動了全球最大型企業的數字化轉型歷程。了解更多,請聯系。
慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn