翻譯|大數據新聞|編輯:況魚杰|2020-09-03 15:54:19.987|閱讀 323 次
概述:無論數據是大大小小,是舊數據還是新數據,傳統數據還是現代數據,無論是在內部還是在云端,對數據質量的需求都不會改變。處于從大數據和其他新數據資產中獲取業務價值的壓力下的數據專業人員可以利用現有技能,團隊和工具來確保大數據的質量。即便如此,僅僅因為您可以利用現有技術也不意味著這就是您應該做的。我們必須使現有技術適應當前時代的要求。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
無論數據是大大小小,是舊數據還是新數據,傳統數據還是現代數據,無論是在內部還是在云端,對數據質量的需求都不會改變。處于從大數據和其他新數據資產中獲取業務價值的壓力下的數據專業人員可以利用現有技能,團隊和工具來確保大數據的質量。即便如此,僅僅因為您可以利用現有技術也不意味著這就是您應該做的。我們必須使現有技術適應當前時代的要求。
數據專業人員必須調整,優化和擴展數據質量及相關數據管理最佳實踐,以適應大數據和類似現代數據集的業務和技術要求,才能保護傳統企業數據的質量。 除非組織兩者都做,否則它可能無法提供所有數據資產所期望的那種可信分析,操作報告,自助服務功能,業務監控和治理。
好消息是,組織可以將當前的數據質量和其他數據管理能力應用于大數據。但是組織仍然需要了解并進行某些調整和優化。熟悉的數據質量任務和工具功能與大數據和其他有價值的新數據資產(從Web應用程序,社交媒體,數字供應鏈,SaaS應用程序和物聯網)高度相關,如下所示。
標準化。廣泛的用戶期望以依賴基于SQL的工具的自助服務方式探索和使用大數據。數據質量的標準化使大數據更適合臨時瀏覽,可視化和查詢。
刪除重復數據。大數據平臺總是以相同的數據加載多次而告終。這會歪曲分析結果,使度量標準計算不準確,并對運營流程造成嚴重破壞。數據質量的多種匹配和重復數據刪除方法可以補救數據的冗余。
匹配。數據集之間的鏈接可能很難發現,特別是當數據來自傳統和現代的各種源系統時。數據質量的數據匹配功能有助于驗證各種數據并確定數據集之間的依存關系。
分析和監視。許多大數據源-例如電子商務,Web應用程序和物聯網(IoT)-缺乏一致的標準,并且無法預知地發展其架構而無需通知。無論是在開發中對大數據進行概要分析還是在生產中對其進行監視,數據質量解決方案都可以在出現新方案和異常時揭示它們。數據質量的業務規則引擎和新的智能算法可以自動進行大規模補救。
客戶數據。似乎維持有關客戶的傳統企業數據的質量挑戰還不夠,許多組織現在正在從智能手機應用程序,網站訪問,第三方數據提供商,社交媒體以及不斷增長的客戶渠道和接觸點列表中捕獲客戶數據。對于這些組織,客戶數據是新的大數據,所有成熟的數據質量工具均具有針對客戶領域設計的功能。這些工具中的大多數最近已更新,以支持大數據平臺和云,以利用它們的速度和規模。
工具自動化。大數據是如此之大(大小,復雜性,來源和用途),以至于數據專業人士和分析人員難以準確,高效地將工作擴展到大數據。此外,一些業務用戶想要大規模地以自助方式探索和分析數據,發現質量問題和機會,甚至自行修復數據。兩種情況都需要工具自動化。
數據質量工具長期以來一直支持業務規則,以自動做出一些開發和補救決策。業務規則并沒有消失-多種類型的用戶仍然發現它們很有用,許多用戶擁有龐大的規則庫,他們無法放棄。
業務規則與新的自動化方法結合在一起,新的自動化方法已經出現在各種數據管理工具中,包括數據質量工具。這些通常采用智能算法的形式,這些算法基于人工智能和機器學習來應用預測功能,以自動確定數據狀態,要應用的質量功能以及如何與開發人員和用戶協調這些動作。
Minitab 是質量改進和統計學教育方面領先的軟件和服務提供商。Minitab 通過提供一套全面的一流統計分析和過程改進工具,幫助公司和機構找出趨勢、解決問題和發掘寶貴見解。
必須更改數據質量的實踐(以及數據集成,元數據管理和客戶視圖的相關實踐)以遵循不同的范例。請注意,在以下示例中,大多數范式轉換對于滿足大數據分析中的新要求都是必需的。
盡早攝取大數據。數據管理中最強勁的趨勢之一是更快地存儲輸入數據,以便對時間敏感的流程(如運營報告和實時分析)盡早訪問大數據。在這些情況下,持久數據優先于提高數據質量。 為了加快數據到存儲的持久性,在用戶和進程可以在以后訪問或重新利用大數據時進行這些改進的假設下,最小化或省略了數據的前期轉換或聚合。
實時獲取大數據質量。這些范式轉移的后果是,在讀取或分析時,數據聚合和質量改進正在不斷地進行中。這使數據質量執行更接近實時。此外,動態大數據質量功能有時會嵌入其他解決方案中,尤其是那些用于數據集成,報告和分析的解決方案。為了實現嵌入并實現實時性能,現代工具將大多數數據質量功能作為服務提供。幸運的是,當今的快速CPU,內存處理,數據流水線和MPP數據架構提供了在大數據規模上即時執行數據質量所需的高性能。
保留大數據的到達(原始)狀態,以備將來使用。新建立的具有大數據的最佳做法是保留從源頭到達時的所有詳細內容,結構,條件,甚至異常情況。存儲和保護大數據的到達狀態為需要詳細源信息的用例提供了一個龐大的數據存儲區(通常是數據湖)。 用例包括數據探索,數據發現以及基于挖掘,集群,機器學習,人工智能以及預測算法或模型的面向發現的分析。
此外,詳細的源數據存儲可以重復地用于未來的分析應用程序,這些應用程序的數據要求無法事先知道。聚合,標準化和完全清除的數據不能像到達狀態的數據那樣靈活或廣泛地重新利用。
并行數據質量。如今,Hadoop,數據湖和其他大數據環境的最佳實踐是維護大量的詳細原始數據存儲,作為一種源歸檔。用戶無需轉換源,而是制作需要質量改進的數據子集的副本,并將數據質量功能應用于子集。同樣,數據科學家和分析師創建了所謂的數據實驗室和沙箱,以在其中改進數據以進行分析。這種“并行的數據質量”對于保留大數據的原始價值,同時通過成熟的數據質量功能創造另一種價值是必要的。
上下文相關的數據質量。如今,分析用戶傾向于對大數據子集進行盡可能少的修改,因為大多數現代分析方法都傾向于與原始的詳細源數據配合使用,并且分析通常依賴于發現的異常情況。例如,非標準數據可能是欺詐的跡象,而異常值可能是新客戶群的預兆。作為另一個示例,可能需要詳細的源數據來準確量化客戶資料,完整視圖和績效指標。
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: