轉帖|大數(shù)據產品動態(tài)|編輯:蔣永|2018-11-05 11:00:09.000|閱讀 332 次
概述:Cloudera Data Warehouse又名Cloudera 數(shù)據倉庫版本,實現(xiàn)傳統(tǒng)數(shù)據庫向大數(shù)據的漸進式轉型!
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
數(shù)據倉庫系統(tǒng)長期以來一直是企業(yè) IT 架構的重要組成部分。隨著開源技術的不斷發(fā)展以及云端部署方式的不斷深入,傳統(tǒng)數(shù)據倉庫的局限性日益凸顯,難以適應新技術帶來的市場變革,如何面向大數(shù)據技術進行數(shù)據倉庫的優(yōu)化、轉型是企業(yè) IT 管理者面臨的重要挑戰(zhàn)。處于不同階段的企業(yè)如何應用大數(shù)據技術?如何面向大數(shù)據技術進行數(shù)據倉庫轉型?如何對現(xiàn)有數(shù)據倉庫進行優(yōu)化?如何在 Hadoop 中進行性能優(yōu)化?這些已成為困擾 IT 管理者的主要問題。
1.存儲成本較高,在線保留全量、海量數(shù)據的目標難以實現(xiàn);
2.元數(shù)據定義僵化,難以靈活集成多種數(shù)據源、支持即席查詢;
3.集群管理復雜、計算資源有限,缺乏統(tǒng)一的管理接口及水平擴展能力;
4.隨著數(shù)據規(guī)模、用戶規(guī)模的不斷增加,實時分析(例如:欺詐行為識別)SLA無法滿足;
5.常用的數(shù)據分析挖掘工具處理全量數(shù)據時間過長。
數(shù)據倉庫的訪問不再只限于IT部門,所有部門的用戶都會要求自助訪問全真的數(shù)據,甚至希望無需 IT 部門的協(xié)助便可以自行進行數(shù)據準備,當然,這個過程中的高訪問延遲也是不被接受的。
企業(yè)必須能夠有效地存儲、加工和分析數(shù)據,包括結構化數(shù)據、半結構化數(shù)據和非結構數(shù)據。
流式數(shù)據為理解和調整當前的業(yè)務決策創(chuàng)造了新的可能,但前提是我們要具備對流式數(shù)據進行實時處理的能力。實時計算需要新的技術架構,不僅要將數(shù)據流與現(xiàn)有數(shù)據體系進行對接,還要能夠對其進行快速的分析。
起始階段:處于這一階段的大多數(shù)企業(yè)已采購 MPP 硬件搭建數(shù)據倉庫。為了保證業(yè)務延續(xù)性,對于起始階段的企業(yè)建議以傳統(tǒng)技術為主,以大數(shù)據技術為輔。例如:ETL 處理仍然放在 MPP 平臺,只是利用 HDFS 做歷史數(shù)據歸檔,利用 Spark Streaming 做小批量數(shù)據的實時處理。
發(fā)展階段:這一階段的企業(yè)用戶已經掌握了大數(shù)據的核心技能,發(fā)展階段建議以大數(shù)據技術為主,以傳統(tǒng)技術為輔。例如:將 ETL 處理全部轉移到 Hadoop 平臺,而只將處理邏輯簡單的固定報表部分放在 MPP 上。
成熟階段:建議使用 Hadoop 平臺作為整體架構,將大數(shù)據技術應用到極致。
企業(yè)可以選擇從一開始就將整個數(shù)據倉庫規(guī)劃在 Hadoop 之上。傳統(tǒng)數(shù)據倉庫架構的主要創(chuàng)始人 Ralph Kimball 博士在 2015 年發(fā)表專題演講時證實了 Hadoop 是可以完全取代 MPP 來建立數(shù)據倉庫的。在全球范圍內,有很多企業(yè)已經將他們的數(shù)據倉庫完全建立在 Hadoop 之上。
但是從技術的角度,有一些數(shù)據倉庫技術或工具與 Hadoop 相比已非常成熟,可能已有數(shù)十年的歷史,對于這些長期應用的數(shù)據庫技術,Hadoop 并不具備其中所有的功能或性能。但即便如此,很多用戶仍然選擇把他們的數(shù)據倉庫構建在 Hadoop 架構之上,這是為了能夠實現(xiàn)更加優(yōu)越的可擴展性、更高的性價比,以及更好的靈活性。在實際應用中,即使是規(guī)模只有 5 個節(jié)點的小集群,企業(yè)使用 Hadoop 與其他技術選項相比,也能夠取得更好的產出、帶來更多的業(yè)務價值與競爭力。
針對當前企業(yè)級數(shù)據倉庫(EDW)面臨的 ETL 批量作業(yè)運行緩慢、BI 報表不能按時生成、業(yè)務用戶提交的查詢遲遲顯示不了結果等壓力,結合當前數(shù)倉發(fā)展的趨勢,以及企業(yè)的云化需求,Cloudera 分析型數(shù)據庫版本進行了全面升級,于 2018 年 8 月正式推出了Cloudera Data Warehouse又名Cloudera 數(shù)據倉庫版本。
Cloudera 分析型數(shù)據庫已經在全球最大的 900 多家組織機構里運行,是一款經歷過實戰(zhàn)打磨的產品。升級后的 Cloudera 數(shù)據倉庫版本提供了企業(yè)級混合云解決方案,包含了混合計算、混合存儲、混合控制三大關鍵因素,專為實惠經濟、強大可擴展的自助服務分析而構建。這款產品覆蓋了數(shù)據倉庫的整個生命周期,包括數(shù)據接入、存儲、管理、查詢、運行狀況檢查等等。
ETL 卸載:將 ETL 任務從 EDW 遷移到 Cloudera 大數(shù)據平臺,極大的釋放 EDW 處理能力。基于 Hadoop 大規(guī)模分布式的處理能力,ETL 任務將以更快的速度運行,并為包括 EDW 在內的下游系統(tǒng)提供服務,使得之前錯過的 SLA 成為歷史。
自助 BI 和探索性分析:全面開放數(shù)據,所有部門的用戶在其安全策略范圍內都能自助訪問全真數(shù)據。借助 Read on Schema 的靈活性和支持高并發(fā)的查詢能力,開發(fā)人員和分析人員能夠實現(xiàn)自助化數(shù)據探索,擺脫對 IT 部門的依賴,能最快的速度解決新問題。
EDW 優(yōu)化:通過 Cloudera 大數(shù)據平臺釋放 EDW 處理能力,您可以將 EDW 系統(tǒng)用于更加復雜的報表生成和熱數(shù)據處理,在相當長的一段時間內都無需增加 EDW 存儲或計算資源。EDW 和 Cloudera 大數(shù)據平臺的混搭結構可以降低數(shù)據存儲成本,提高數(shù)據處理和分析能力,充分發(fā)揮兩套系統(tǒng)各自的技術優(yōu)勢。
前所未有的數(shù)據規(guī)模和靈活性:Cloudera 提供單一、可擴展的平臺,可以處理不同來源、不同類型的全量數(shù)據,以推動新的業(yè)務洞察。該版本專為 Read on Schema 功能而設計,可以快速訪問貼源的全真數(shù)據,甚至支持實時更新。
高性能和高并發(fā)支持:Cloudera 的平臺提供高性能的 SQL 查詢工具,支持大數(shù)據量高并發(fā)訪問,因此所有部門的用戶都可以對數(shù)據進行探索性分析。而且,通過與第三方 BI 工具集成,可以沿用業(yè)務用戶的既有技能。
內置安全管控和數(shù)據治理模塊:開放的數(shù)據永遠不會以犧牲安全為代價,因此敏感數(shù)據的安全至關重要。 Cloudera 是唯一一個通過 PCI 安全認證的 Hadoop 平臺,內置安全管控和數(shù)據治理模塊。無論用戶采取何種方式訪問數(shù)據,只要利用 Cloudera 安全技術對用戶預設置權限,或者對數(shù)據預設置監(jiān)管策略,您都可以繼續(xù)數(shù)據探索之旅,而不用擔心數(shù)據泄密或越權訪問。
采用開源技術,可在任何環(huán)境中移植:無論是本地部署,云端還是混合部署都完全適用,避免了技術鎖定的問題。
本站文章除注明轉載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: