轉(zhuǎn)帖|行業(yè)資訊|編輯:龔雪|2016-01-05 09:49:27.000|閱讀 442 次
概述:Databricks最近對1400多家Spark用戶進行了一次調(diào)查,結(jié)果顯示這些用戶對Spark Streaming的使用率與2014年相比增長了56%,另外,有48%的受訪者將Spark Streaming標記為最常用的Spark組件。Uber、Netflix和Pinterest等家喻戶曉的公司赫然在列,那么為什么使用Spark Streaming加速業(yè)務(wù)發(fā)展的公司越來越多呢?我們一起來看看。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
現(xiàn)在,幾乎所有的公司都是一家軟件公司,它們實時地監(jiān)控傳感器、物聯(lián)網(wǎng)設(shè)備、社交網(wǎng)絡(luò)和在線事務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),然后通過大規(guī)模、實時的流處理系統(tǒng)對其進行分析從而實現(xiàn)快速響應(yīng)。此外,公司還會使用這些數(shù)據(jù)生成日報和業(yè)務(wù)模型。也就是說,現(xiàn)代流處理框架不僅需要應(yīng)對實時場景,還需要處理預(yù)處理和后處理等非實時場景。
例如,電商需要對用戶在線購買時產(chǎn)生的數(shù)據(jù)(包括日期、時間、物品、價格等)進行實時分析完成廣告推送和相關(guān)性推薦。銀行需要使用訓(xùn)練好的欺詐模型實時地對每一筆交易進行檢測從而定位欺詐行為。
Spark Streaming不僅能夠非常好地解決這些問題,同時它還統(tǒng)一了技術(shù)框架,使用了與Spark一致的編程模型和處理引擎。而在Spark Streaming出現(xiàn)之前,用戶需要借助多種開源軟件才能構(gòu)建出具有流處理、批處理和機器學(xué)習(xí)能力的系統(tǒng)。
Spark Streaming是在2013年被添加到Apache Spark中的,作為核心Spark API的擴展它允許數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家實時地處理來自于Kafka、Flume以及Amazon Kinesis等多種源的數(shù)據(jù)。這種對不同數(shù)據(jù)的統(tǒng)一處理能力就是Spark Streaming會被大家迅速采用的關(guān)鍵原因之一。
Spark Streaming能夠按照batch size(如1秒)將輸入數(shù)據(jù)分成一段段的離散數(shù)據(jù)流(Discretized Stream,即DStream),這些流具有與RDD一致的核心數(shù)據(jù)抽象,能夠與MLlib和Spark SQL等Spark組件無縫集成。
通過Spark Streaming開發(fā)者能夠容易地使用一種框架滿足所有的處理需求,例如通過MLlib離線訓(xùn)練模型,然后直接在Spark Streaming中使用訓(xùn)練好的模型在線處理實時數(shù)據(jù)。同時,開發(fā)者編寫的代碼和業(yè)務(wù)邏輯也能夠在流處理、批處理和交互式處理引擎中共享和重用。此外,流數(shù)據(jù)源中的數(shù)據(jù)還可以與很多其他的Spark SQL能夠訪問的靜態(tài)數(shù)據(jù)源進行聯(lián)合。例如,在將Amazon Redshift的靜態(tài)數(shù)據(jù)推送到下游系統(tǒng)之前,可以先將其加載到Spark的內(nèi)存中進行處理以豐富流數(shù)據(jù)。
雖然針對不同的目標和業(yè)務(wù)案例使用Spark Streaming的方式也不同,但其主要場景包括:
例如,Uber通過Kafka、Spark Streaming和HDFS構(gòu)建了持續(xù)性的ETL管道,該管道首先對每天從移動用戶那里收集到的TB級的事件數(shù)據(jù)進行轉(zhuǎn)換,將原始的非結(jié)構(gòu)化事件數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),然后再進行實時地遙測分析。Pinterest的ETL數(shù)據(jù)管道始于Kafka,通過Spark Streaming將數(shù)據(jù)推入Spark中實時分析全球用戶對Pin的使用情況,從而優(yōu)化推薦引擎為用戶顯示更相關(guān)的Pin。Netflix也是通過Kafka和Spark Streaming構(gòu)建了實時引擎,對每天從各種數(shù)據(jù)源接收到的數(shù)十億事件進行分析完成電影推薦。
轉(zhuǎn)載自
關(guān)于更多大數(shù)據(jù)相關(guān)資訊>>>
2016革新之年,雙節(jié)同慶驚喜不斷!優(yōu)惠詳情點擊查看>>
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn