原創|大數據新聞|編輯:鄭恭琳|2020-04-29 11:05:18.747|閱讀 297 次
概述:隨著互聯網的發展,物聯網的到來,數據爆炸式的增長。本文主要講解大數據Cloudera助力證券行業轉型,其技術方面的優勢。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
隨著互聯網的發展,物聯網的到來,數據爆炸式的增長。大數據最終可以歸類為結構化數據、半結構化數據、非結構化數據。結構化數據特指表單類型的數據存儲結構;而半結構化介于結構化和非結構化數據之間的,例如 XML、HTML 文檔就屬于半結構化數據,半結構化數據在用戶畫像、物聯網設備日志采集、應用點擊流分析等場景中得到大規模使用;非結構化數據包含文本、圖象、聲音、影視、超媒體等典型信息,非結構化數據中沒有限定結構形式,表示靈活,蘊含了豐富的信息。半結構化、非結構化數據占總數據 85%以上。
在證券行業遠程開戶、柜面無紙化和雙錄等業務,以及會計檔案管理、影像系統等系統,產生的客戶證件、遠程開戶錄像、合同掃描件、客服中心語音、企業相關電子文檔資料等大量的非結構化數據。這些來源廣闊體量巨大的非結構數據更貼近客戶,商業價值更大,內涵更豐富,更具科學性,更具有前瞻性,對企業指導作用更具真實性。傳統技術處理這些數據,效果是十分有限的,而利用大數據技術可以有效的存儲于管理海量的非結構化數據,并挖掘這些數據背后的價值,達到以數據驅動為企業轉型的目的。大數據數據類型如圖所示:
大數據離線分析的數據具有數據量巨大,數據保持周期長,大量數據上做復雜的批量運算等特點,大數據把這種離線分析技術稱為 OLAP,主要應用在統計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等場景,離線分析主要有五個環節:
(1) 數據采集
(2) 數據預處理
(3) 統計分析
(4) 數據挖掘
(5) 數據查詢展示。
對應于 OLAP 技術,主要架構如圖所示:
日志主要包括系統日志、應用程序日志和安全日志等,系統運維和開發人員可以通過日志了解服務器軟硬件信息、檢查配置過程中的錯誤及錯誤發生的原因。經常分析日志可以了解服務器的負荷,性能安全性,從而及時采取措施糾正錯誤。日志分析系統需要將分布在每個服務器的日志采集和集中管理,并能實現復雜的查詢、排序和統計等要求,以達到信息查詢,服務診斷,數據分析的需求。
實時日志解析和檢索主要涉及以下四個環節包括日志實時采集、消息中間件、日志實時解析和日志實時檢索;日志實時采集有 Apache Flume、Fluentd、Logstash、Chukwa、Scribe等可供選擇,消息中間件 Kafka 是很理想的選擇,日志實時解析可以使用 Storm 或者 SparkStreaming,實時日志檢索可以選擇 Solr 或者 ElasticSearch。
技術架構流程圖如圖所示:
Lambda 架構的目標是設計出一個能滿足實時大數據系統關鍵特性的架構,包括有高容錯、低延時和可擴展等特性。Lambda 架構整合離線計算和實時計算,融合不可變性的特征,讀寫分離和復雜性隔離等一系列架構原則,可集成 Hadoop、Kafka、Storm、Spark 和 Hbase 等各類大數據重要的組件。
主要思想就是將大數據系統構建為多個層次,三層架構分別為批處理層 (BatchLayer)、實時處理層 (SpeedLayer) 和服務層 (ServingLayer),技術架構圖如圖所示:
Lambda 架構優勢不僅包括如下幾點:
1) 實時,低延遲處理數據;
2) 數據不可變性,架構給出的數據傳輸模型是在初始化階段對數據進行實例化,這樣的做法是能獲益良多的,能夠使得大量的 MapReduce 工作變得有跡可循,從而便于在不同階段進行獨立調試;
3) 復雜性分離、讀寫分離;
4) 數據的重新計算,比方說某工作流的數據輸出是由輸入決定的,那么一旦代碼發生變動,將不得不重新計算來檢視變更的效度。
如圖所示,Lambda 架構在數據存儲上使用 HBase+HDFS 混合架構來提供高性能的順序掃描和隨機查詢。這種混合架構對應用開放和維護上帶來一定的復雜性。
如果使用不可更改的存儲(如 HDFS 文件),將會非常不便。
Cloudera 在 Hadoop 數據存儲上提供了第三種解決方案 - Kudu。Kudu 的設計目標是提供大數據量訪問時(順序掃描)的高吞吐率,訪問少量數據時(隨機掃描)的低延時,并提供類似的數據庫語義 ( 目前提供單行記錄的 ACID) 支持。Kudu 適合需要同時支持順序和隨機讀和寫的應用場景。例如時間序列,機器數據分析和在線分析等業務應用。Kudu 的出現,給Lamdba 架構帶來了革新。改進后的 Lamdba 架構的數據存儲處理方式如圖所示。傳統的 Lamdba 架構中存在的業務,開發和運維問題都得到了改善或根本解決。
大數據的四 V 特性中,有一個 V 表示速度快,即數據處理速度快,也就是大數據的實時分析處理技術,用來處理那些時效性要求高的場景。例如欺詐行為檢測,系統入侵檢測,推薦系統等等場景,這些場景都是事后難以彌補的,都是要求實時分析處理。
大數據實時分析技術主要包括數據實時采集傳輸、實時數據處理、數據實時檢索等。數據實時采集傳輸當前常用的開源技術包括 Flume,Chukwa,Logstash,Kafka,RocketMQ, RabbitMQ,ActiveMQ。目前大數據開源實時處理架構最常見的是 Storm 和 Spark Streaming,相比 SparkStreaming 準實時批處理系統,Storm 是更純粹的實時處理系統,即來一條事件就處理一條,具有更高的實時性。
數據實時檢索主要涉及技術有 Redis,HBase,Solr,ElasticSearch 等。典型的實時處理架構如圖所示:
大數據最主要的價值是在體現在數據挖掘上,大數據挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據庫中發現隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。其主要基于人工智能,機器學習,模式學習,統計學等。大數據挖掘在行業上有很多的典型應用和成果,像著名的 PageRank 算法進行網站價值衡量,推薦算法進行精準營銷等等。
大數據挖掘算法的主要算法庫有 Apache Mahout 與 Spark MLlib,這兩個算法涵蓋了常用的算法類型,如分類算法,回歸分析算法,聚類算法,關聯規則算法,協同過濾算法,神經網絡算法,Web 數據挖掘算法,深度學習算法,集成算法等類型算法。
自然語言處理(Natural Language Processing,簡稱 NLP), 是為了讓計算機能夠分析、理解和生成自然語言。隨著人工智能從感知智能向認知智能升級,自然語言處理(NLP)的重要性日益凸顯,自然語言處理當前主要的應用場景有機器翻譯,智能客服,智能音箱等。
NLP 由兩個主要的技術領域構成,分別是自然語言理解和自然語言生成。自然語言理解方向主要的目標是幫助機器更好理解人的語言,包括基礎的詞法、句法等語義理解,以及需求、篇章、情感層面的高層理解。自然語言生成主要目標是幫助機器生成人能夠理解的語言,比如文本生成、自動文摘等。主要涉及技術包括情感傾向分析,評論觀點抽取,詞義相似度計算,詞法分析,短文本相似度,DNN 語言模型,詞向量表示,依存句法分析。目前開源的 NLP 庫包括自然語言工具包 (NLTK),Apache 的 OpenNLP,斯坦福大學 NLP 套件等。
數字圖像處理是指利用計算機或其他數字設備對圖像信息進行各種加工和處理,結合大數據技術,數字圖像處理技術正在向處理算法更優化、處理速度更快、處理后的圖像清晰度更高的方向發展,逐漸實現圖像的智能生成、處理、識別和理解是數字圖像處理的目標。
對圖像進行處理主要目的有三個方面:
(1) 提高圖像的視感質量;
(2) 提取圖像中所包含的某些特征或特殊信息,這些被提取的特征或信息往往為計算機分析圖像提供便利;
(3) 圖像數據的變換、編碼和壓縮,以便于圖像的存儲和傳輸。
數字圖像處理過程主要涉及以下幾個過程:
(1) 圖像的數字化 通過取樣和量化將一個以自然形態存在的圖像變換為適于計算機處理的數字形式;
(2) 圖像的壓縮,其目的是在不改變圖像的質量基礎上壓縮圖像的信息量,以滿足傳輸與存儲的要求;
(3) 圖像增強與復原,其目的是將圖像轉換為更適合人和機器的分析的形式。常用的增強方法有:灰度等級直方圖處理;干擾抵制;邊緣銳化;偽彩色處理;
(4) 圖像的分割,圖像的分割是將圖像劃分為一些不重疊的區域;
(5) 圖像的分析,圖像分析從圖像中抽取某些有用的度量、數據和信息,以的到某種數值結果。
人臉識別技術是一種依據人的面部特征,自動進行身份鑒別的一種技術,它綜合運用了數字圖像、視頻處理、模式識別等多種技術。通過人臉特征提取和相似度比對,對于已經矯正好的兩個人臉,會通過某種表達提取初始特征,然后應用知識模型對特征進行處理,最后再在度量空間里來計算兩個特征的相似度。這個分值會告訴你這兩個臉是不是同一個人的。人臉識別的過程包括:數據采集、人臉檢測、五官定位、人臉預處理、特征提取。
常用的場景包括:
(1) 門禁系統,受安全保護的地區可以通過人臉識別辨識試圖進入者的身份,比如小區、學校、企業等。敏感地點也可以使用人臉識別門禁,未登記人員訪問將觸發報警;
(2) 攝像監視系統,在例如銀行、機場、體育場、商場、超級市場等公共場所對人群進行監視,以達到身份識別的目的。同時疑犯布控追蹤也是較為常見的應用場景。
(3) 學生考勤系統,香港及澳門的中、小學已開始將智能卡配合人臉識別來為學生進行每天的出席點名記錄,內地高校也進行了有關試點。
(4) 娛樂應用,動美妝美圖、人臉屬性識別、顏值分析,都是已經成熟使用的娛樂場景。
人臉識別所涉及的十大關鍵技術:
1) 人臉檢測,檢測出圖像中人臉所在位置;
2) 人臉配準,定位出人臉上五官關鍵點坐標;
3) 人臉屬性識別,識別出人臉的性別、年齡、姿態、表情等屬性值;
4) 人臉特征,將一張人臉圖像轉化為可以表征人臉特點的特征,具體表現形式為一串固定長度的數值;
5) 人臉比對,實現的目的是衡量兩個人臉之間相似度;
6) 人臉驗證,判定兩個人臉圖是否為同一人;
7) 人臉識別,識別出輸入人臉圖對應身份;
8) 人臉檢索,是查找和輸入人臉相似的人臉序列;
9) 人臉聚類,將一個集合內的人臉根據身份進行分組;
10)人臉活體,是判斷人臉圖像是來自真人還是來自攻擊假體。
基本的功能模塊圖如圖所示:
以物聯網、云計算大數據為代表的新一代信息技術的飛速發展,與我國新型工業化、城鎮化、信息化、農業現代化建設深度交匯,對新一輪產業變革和經濟社會綠色、智能、可持續發展具有重要意義。
目前我國已成為全球物聯網最大市場,并成為產生和積累數據量最大、數據類型最豐富的國家之一。工業和信息化部將繼續加大投入,加強信息基礎設施建設 ; 加強數據共享,促進跨行業融合發展 ; 探索創新模式,推動規模化應用。加快物聯網與移動互聯網、大數據、云計算等新業態融合創新,推動信息化與實體經濟深度融合發展,支撐制造強國和網絡強國建設。
而云計算、大數據與物聯網有著密不可分的關系,物聯網對應了互聯網的感覺和運動神經系統。云計算是互聯網的核心硬件層和核心軟件層的集合,也是互聯網中樞神經系統萌芽。大數據代表了互聯網的信息層 ( 數據海洋 ),是互聯網智慧和意識產生的基礎。包括物聯網,傳統互聯網,移動互聯網在源源不斷的向互聯網大數據層匯聚數據和接受數據。云計算與物聯網推動大數據發展。
物聯網的傳感器與云計算的大數據相結合,一個提供感應,一個提供反應,在大數據的提供下進行便利的生活,辦公。隨著物聯網的不斷發展,運營商推進物聯網與云計算的融合,為實現通信業的快速轉型和升級做到以物聯網、云計算創新應用為載體,對人們的衣食住行和公共安全領域進行智能防護,遵循科學發展觀,順應自然發展規律,開發使用低碳環保新能源,使得現代水利、電力和商業等與公眾相關的產業變得智能,滿足人們的需求。云計算、大數據和物聯網代表了 IT 領域最新的技術發展趨勢,三者既有區別又有聯系。三者的關系如圖所示:
慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn