轉帖|大數據新聞|編輯:況魚杰|2020-09-18 11:15:17.207|閱讀 339 次
概述:建立數據倉庫是一個解決企業數據問題應用的過程,是企業信息化發展到一定階段必不可少的一步,也是發展數據化管理的重要基礎。數倉的知識市面上的書籍和文章不少,但是實際實施依據行業不同,企業核心訴求不同,從技術到方法論各有不同。如何實施數倉項目,本文先以傳統行業的數倉切入,從整體上講下數據倉庫的實施方法論。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
建立數據倉庫是一個解決企業數據問題應用的過程,是企業信息化發展到一定階段必不可少的一步,也是發展數據化管理的重要基礎。數倉的知識市面上的書籍和文章不少,但是實際實施依據行業不同,企業核心訴求不同,從技術到方法論各有不同。如何實施數倉項目,本文先以傳統行業的數倉切入,從整體上講下數據倉庫的實施方法論。(點擊此處查看上文)
數據倉庫建模在前面已經有了詳細的介紹,數據倉庫模型是IT技術開發人員、業務人員、決策管理者相互溝通的一套語言和平臺。對于數據建模工程師來說,對業務的深刻理解是首要任務,因為數據倉庫建模分為概念模型設計、邏輯模型設計和物理模型設計3個階段,一般按照自頂向下的順序依次對模型進行設計。
概念模型主要是模型設計人員對業務規則的理解,是最高層次的數據模型,幾乎涵蓋了業務所有的核心概念和重要的主題,為以后邏輯模型的建設打下了基礎。
邏輯模型是對概念模型的分解、細化,將數據主題劃分成一個個的實體和實體關系,一般將第三范式作為設計的模板。
物理模型在邏輯模型的基礎上對模型實體進行細節性的描述,包括字段類型、長度、索引等因素,最后轉化成數據庫存儲的物理表。
一般數據集市模型的建設是基于需求分析得到的結果,數據集巾的建模主要針對事實表和維表的設計。例如,部門員工關系表,如果事實表包含部門編碼,則數據可以分析到部門。如果事實表又包含員工編碼,則數據既可以分析到部門,又可以分析到員工。一張事實表除了包含所要分析的維度編碼外,還包括需要分析的度量值。例如,用戶用電分析事實表,它的主題描述就是按地區、時間、電壓等級統計用戶的耗電量、應收電費,并進行同期對比;它的維度就是地區、時間、電壓等級,度量值包括耗電量、應收電費等;指標來源就是數據倉庫中的計費結果表、用戶基本信息表。維表一般采用增量的方式進行抽取。
所謂數據源分析,就是對源數據進行分析和總結,得出源數據的范圍、格式、更新方式、更新頻率和質量好壞的過程。
數據源分析是指通過需求調研得知業務數據源的基本情況,并且加以詳細說明,具體內容包括數據源中存在哪些物理表,表之間的關系和表中每個字段的數據類型和含義等。一般來說,業務數據源通常會有數據不完整、口徑不一致,或者各個數據源存在業務規則不統一的情況。
另外,在分析的過程中,需要確定業務源數據中哪些數據需要被抽取。為了確定合適的抽取方式,需要在抽取之前對數據源進行分析,分析的范圍一般包括數據的格式、數據的范圍、更新的方式、數據質量的好壞。在分析的過程中,應該盡可能獲取分析的結果,形成數據源分析報告,在仔細研究分析報告后,再選擇合適的抽取、加載方式。了解這些數據源的特點,有利于ETL 抽取時對數據的整合和統一,從而保證數據的質量和可信度。
數據的獲取與整合存在于數據倉庫項目中的各個階段。數據倉庫很重要的一個作用就是將散落在各業務系統的數據整合起來,不規范的數據規范起來,以一種便于分析和應用的方式放到數據倉庫里,供前端應用分析。ETL 過程實際上就是數據流動的過程,即從不同的數據源流向統一的目標數據庫。數據的獲取與整合是完成數據倉庫建設取復雜的過程,它關系到數據的質量,是數據倉庫項目建設的根基。
報表絕對是讓人痛苦的東西。格式復雜、需求多變,業務沒事就改需求或者增加幾個。雖然說起報表感覺很老土,但確實是整個數倉項目價值落地呈現的東西。
做報表多的人,基本上都會做一個自己的工具,至少也會做一個引擎,按照自己的理解用一種結構化加動態的方式去定義所需要的報表,可以靈活的選擇所需要的數據,設計展現樣式生成報表。不過現在一般都是采用專業的低代碼的報表工具來做報表,一般人都不想每天被報表纏身。
結合前面談到的數據分層的機制,會發現,不管基于哪一層,都有做報表的需求。報表的重點不在與報表的制作,而在于如何利用報表為業務為項目謀價值。
大公司都會有負責報表分析這塊的項目人員,那針對報表延伸出來的工作,報表需求分析、指標體系規劃、以及各位為經營為管理為基層人員的報表分類,還有圍繞業務的分層設計。
對于基層員工,報表使用的最多的就是錄數據,查詢數據。比如商場售貨員瀏覽數據來查看商品的售賣情況,以此來及時補貨,還有每天的日銷售數據錄入。
對于部分業務人員,報表的不再是簡單的展示和錄入,會衍生出一些分析的需求,比如采購經理,他需要決定采購哪些品牌的商品,從哪一家供應商來采購,如何規劃商店的商品。那方法就是看報表看哪些商品買的好,以此來考慮是否需要加購哪些品牌商品,放棄那些品牌商品或者搞促銷。高大上一點的說辭就是利用數據優化商品結構,選擇供應商。
對于企業管理層,更多的說是做dashboard進行指標的監控,做的業績分析(時間、地區緯度等)。而這一過程,也是通過數據使管理層可以更容易的按照標準的管理方法進行決策
關于慧都大數據分析平臺
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: