轉帖|使用教程|編輯:龔雪|2014-09-01 10:22:46.000|閱讀 571 次
概述:2013年11月22-23日,作為國內唯一專注于Hadoop技術與應用分享的大規模行業盛會,2013 Hadoop中國技術峰會(China Hadoop Summit 2013)于北京福朋喜來登集團酒店隆重舉行。來自國內外各行業領域的近千名CIO、CTO、架構師、IT經理、咨詢顧問、工程師、Hadoop技術愛好者,以及從事Hadoop研究與推廣的IT廠商和技術專家將共襄盛舉。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
2013年11月22-23日,作為國內唯一專注于Hadoop技術與應用分享的大規模行業盛會,2013 Hadoop中國技術峰會(China Hadoop Summit 2013)于北京福朋喜來登集團酒店隆重舉行。來自國內外各行業領域的近千名CIO、CTO、架構師、IT經理、咨詢顧問、工程師、Hadoop技術愛好者,以及從事Hadoop研究與推廣的IT廠商和技術專家將共襄盛舉。
大會現場來自聯通研究院移動互聯網產品開發事業部主任王志軍,為大家介紹了Hadoop和大數據在行業里的典型應用。
王主任主要從四個方面介紹了大數據的應用:第一方面源起,第二、電信運營商有哪些大數據,第三、中國聯通建成的正在投入使用的大數據業務系統,第四、大數據應用的展望舉幾個簡單的例子。
一、源起
我們進入到移動互聯網的時代,幾乎每個人都有手機,現在在用手機的時候,更多的是個人的電腦,所做的工作除了做一些基本語音和短信的功能之外,絕大部分在手機上的工作是使用數據的流量,移動通訊從語音的時代跨越到數據的時代,運營商有很大的機會,同時運營商遇到了很多流量消費爭議的問題。
目前流量消費爭議已經躍升成為用戶通訊服務投訴的首位。首先的問題是數據流量消費遠不如語音消費清晰透明。語音消費的時候撥打一個電話,對方是誰,打了多長時間,這個時間是可以感知到的。運營商也可以語音通話的詳單,如果是發短信,發了多少條短信大體是心中有數的。
流量消費首先是計費單位是KB,流量消費有一定的不確定性。剛才用手機刷了一下微博、用了一會兒微信,到底用了多少流量,他不知道到底如何進行計費。所以說很多用戶基于這種了解,可能很多時候主觀認為自己根本沒有使用流量,或者是使用了比較小的流量,為什么有的時候會產生比較高額的流量的花費,這時用戶運營商來告訴我,這個流量用到哪去了?上了什么網址、用了什么應用產生了什么流量,而不是簡單說這個月用了1G或者是700兆的流量,傳統的方式已經不滿足現在用戶的需要了。
現在3G客戶數據流量爭議占3G業務投訴是10%,現在整個比例是在逐漸的上升。個別的省份已經達到了20%的比例。目前中國聯通每月打到10010客服流量上的投訴是近萬起。同時很多用戶也基于運營商無法提供上網記錄的詳單,提出了法律的訴訟。例如某iphone合約計劃的用戶,他是晚上凌晨到四點睡覺期間發生了巨額的流量,智能手機可能語音的應用、有很多自動更新的應用,這些應用并不是使用了才產生流量,這種情況下用戶難以理解。運營商的計量設備無法提供了詳單就提出了訴訟。運營商的計量設備就相當于家里的水表,現在是區分不出來做飯、沖馬桶、洗衣服用了多少水。如果是給用戶提供詳單,我們就需要做準確的計量設備做流量的區分。
原來運營商如何提供詳單的,主要是產生于網頁設備,GGSN,之前產生話單的方式流量累計到一定的限度,或者是達到一定的時長,或者是現在已經把網絡關閉掉了,這時候才是產生流量的話單,這主要是運營商做計費用的,不是給用戶來去說明情況的。里面包含的信息可能有手機號碼、上頁流量是多少,下頁流量是多少,或有話單的持續時長,但是不包含網址的信息和訪問記錄的信息。
這種情況下,中國聯通的移動業務,此前有個客服部門的統計數據,每萬元應收收入中因無法提供上網記錄詳單的數據,造成的投訴和退費賠付是60塊錢。GGSN不光是中國聯通在用,來自愛立信、華為、中興、諾基亞都在使用,這種成熟的設備,出現偏差的概率是很小了,絕大部分的賠付是運營商說不清楚,用戶有投訴,為了避免爭議擴大化,運營商是采用了賠付與和解的方式來處理。
由此可見提供用戶上網記錄詳單,成為了互聯網透明健康環境的關鍵的因素,這是運營商希望能夠做到的事情。
上網記錄是典型的大數據
例如,每個用戶,可能每月的通話記錄是幾百、幾千條,上網的記錄絕對不是這個數量級,可能是幾萬,用的量大可能是幾十萬條上網數據。例如用手機訪問新浪網的金喜正規買球大致是產生20多條記錄,包括手機發起,DS的查詢,包括網頁中每個元素的下載,其實對網絡來說都是獨立的請求這樣都會產生一條記錄。如果用IPAD,新浪網的金喜正規買球會產生40條記錄,如果看了IPAD里的新聞,過來會產生180條記錄。
例如說訪問淘寶的觸摸平板也會產生6條記錄,此外還有大量后臺推送的消息,相當于是蘋果的手機有很多通知的服務,例如說微信,很多的通知的服務業在悄悄的進行。
經過統計,中國聯通用戶上網記錄每個月是超過了兩萬億條,并且還在增長。數據量是全國目前運營商所有類型的計費話單的30倍以上,包括語音詳單、短信詳單、采信詳單以及包括此前運營商給的流量記錄詳單,所有的數據量的30倍以上。
移動互聯網是快速的發展期,大約每8個月流量會翻一番,今年年底4G的牌照會發放,在LTE的時代,用戶的流量的消費會越來越大,現在是兩萬億,明年這個時候是五萬億條,之后也許是八萬億條,數據很巨大。
上網數據是個典型的大數據
采用什么方式進行存儲和檢索呢是個大問題,此前運營商采用的架構方式是IUE的架構,用IBM小型機,用商用的關系型數據庫,用高可靠性的EMC的存儲,構建無論是計費系統還是帳戶系統,很多的系統都是這樣方式構建的這個很昂貴,但是它解決不了我們的問題。存儲這么大規模量的數據,以后超越了可管理容量的上線。在做查詢的時候,關系型數據庫對大規模操作的時候性能是嚴重下降的。
數據量達到500G延時可能是三千秒,意味著兩萬億條記錄的數據,分期、分表存下來,達到500G用戶有個查詢的請求意味著一個小時才能給用戶響應,即使做過優化查詢的速度也是半個小時以上,審核公司也做過實驗,經常一個查詢是幾個小時才能查詢到用戶的詳單。
我們面臨的問題是數據快速的寫入,每月有兩萬億條記錄,每天有超過七百億條記錄,這么大的數據量如何快速的存儲下來,那面記錄在源源不斷的生成,我們必須保持足夠的速度記錄下來,第二我們的數據如何快速檢索提供給用戶,在什么時候上了什么網址用了多少流量。上網記錄的數據本身是個高價值的數據,它是目前為止可能是用戶在移動互聯網行為上的一個最基礎、最原始的數據,這個數據如何進行高效的分析和挖掘。這么大的數據量,如何來進行低成本的存儲,都是當時面臨的問題。
Hadoop可以幫助我們解決這些問題
Hadoop采用開源的方式,構架了普通的PC服務器之上,拋棄了高端的存儲,也可以保證高可靠性,適合數據快速的寫入,以及有快速檢索的方式,這樣相當于有十億的業務需求解決不了問題,Hadoop幫我們解決了,這是我們跟Hadoop脫離了實驗室的概念,是真正的商用系統上第一次親密接觸。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網