轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-04-29 10:00:26.000|閱讀 339 次
概述:正如IBM對(duì)Spark大力投入的承諾,IBM目前正將Spark作為核心組件應(yīng)用到IBM的大數(shù)據(jù)分析平臺(tái)中,并在公司內(nèi)部各種項(xiàng)目中大力的推廣Spark。目前,IBM在云端的自助分析旗艦產(chǎn)品Watson Analytics,云端數(shù)據(jù)加工服務(wù)DataWorks都采用了Spark技術(shù)。而IBM目前也正使用Spark技術(shù)協(xié)助NASA下屬的非盈利科研機(jī)構(gòu)SETI (致力于研究人類起源和外星文明的科研機(jī)構(gòu))來(lái)搜尋外星文明。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
過(guò)去數(shù)十年,SETI為了收集外星生命存在的跡象,構(gòu)建了“艾倫望遠(yuǎn)鏡陣列”(Allen Telescope Array,www.seti.org/ata)。這項(xiàng)工程由微軟聯(lián)合創(chuàng)始人保羅艾倫資助,目標(biāo)是通過(guò)構(gòu)建一個(gè)小型望遠(yuǎn)鏡陣列,在降低成本的同時(shí),達(dá)到巨型天文望遠(yuǎn)鏡的探測(cè)效果。艾倫望遠(yuǎn)鏡陣列將成為“世界上用于搜尋銀河系中其他文明的最有力的工具”-百度百科
艾倫望遠(yuǎn)鏡陣列每小時(shí)產(chǎn)生4.5TB的數(shù)據(jù)流量,而且探測(cè)數(shù)據(jù)中夾雜大量由自然界和人類產(chǎn)生的干擾數(shù)據(jù)。如何處理如此巨大的數(shù)據(jù)流量,并通過(guò)機(jī)器學(xué)習(xí)算法排除其中的干擾數(shù)據(jù),找出真正令人感興趣的“外太空信號(hào)“,是SETI需要解決的技術(shù)難題。當(dāng)SETI找到IBM專家時(shí),IBM的專家們想到了具有海量數(shù)據(jù)分析、高性能內(nèi)存計(jì)算、深度學(xué)習(xí)算法的Spark技術(shù),他們使用了IBM Bluemix上的Spark分析服務(wù)構(gòu)建了一套分析應(yīng)用,幫助SETI解決上述技術(shù)難題。
艾倫望遠(yuǎn)鏡陣列產(chǎn)生的數(shù)據(jù)由兩部份組成:
1)結(jié)構(gòu)化數(shù)據(jù)SignalDB
SignalDB中存儲(chǔ)了過(guò)去十幾年間1.68億條信號(hào)數(shù)據(jù)的基本描述,例如捕捉信號(hào)數(shù)據(jù)的太空方位,信號(hào)頻率的多普勒漂移,信號(hào)類型(載波還是脈沖)等。每個(gè)捕捉數(shù)據(jù)用一條上述記錄進(jìn)行描述。以下是SignalDB中一條樣例記錄:
2)非結(jié)構(gòu)化二進(jìn)制數(shù)據(jù)CompAmps
捕捉的具體信號(hào)數(shù)據(jù)CompAmps用二進(jìn)制存放,在進(jìn)行分析之前,需要通過(guò)快速傅立葉變換(FFT)技術(shù),將其轉(zhuǎn)化為可視化的波形。
整套分析架構(gòu)采用IBM Bluemix上的Apache Spark服務(wù)構(gòu)建,由艾倫望遠(yuǎn)鏡陣列產(chǎn)生的數(shù)據(jù)被上傳到Bluemix上的Object Store存儲(chǔ)服務(wù)中,然后通過(guò)Spark進(jìn)行分析。
分析應(yīng)用采用IPython notebooks開(kāi)發(fā)(IPYthon notebook是IBM Spark服務(wù)提供的交互式分析工具),分析服務(wù)包括
通過(guò)IBM Spark服務(wù)的IPythonnotebook可視化開(kāi)發(fā)界面,可以將信號(hào)數(shù)據(jù)進(jìn)行加工繪圖,形成可視化的結(jié)果(項(xiàng)目中成為瀑布式繪圖Waterfall Plot),下面就是對(duì)一個(gè)信號(hào)進(jìn)行傅立葉變化繪圖后的結(jié)果:
檢測(cè)到的信號(hào)通常會(huì)具有“多普勒漂移”現(xiàn)象,即隨著時(shí)間變化其頻率(強(qiáng)度)會(huì)發(fā)生變化。想象一下消防車開(kāi)過(guò)時(shí)聲音由遠(yuǎn)到近再到遠(yuǎn)的過(guò)程,就是多普勒漂移的例子。現(xiàn)在醫(yī)院常用的彩超也稱多普勒成像,就是利用了這個(gè)原理。信號(hào)的多普勒漂移通常可能由地球的自轉(zhuǎn),公轉(zhuǎn)和信號(hào)源本身的移動(dòng)(例如飛機(jī),衛(wèi)星的移動(dòng))產(chǎn)生。
在這個(gè)項(xiàng)目中,為了檢測(cè)來(lái)自外太空的異常信號(hào),需要要將來(lái)自人類物體(例如飛機(jī)、衛(wèi)星甚至微波爐)或自然界的噪音(例如太陽(yáng)輻射、地震)過(guò)濾掉。而為了判斷 不同時(shí)間窗口收集到的信號(hào)哪些是由同一個(gè)信號(hào)源(例如飛機(jī)、衛(wèi)星)產(chǎn)生的,則需要首先消除信號(hào)中不停變化的多普勒漂移產(chǎn)生的偏移量。由于涉及相當(dāng)復(fù)雜的計(jì) 算和海量數(shù)據(jù),這也是本項(xiàng)目最大的技術(shù)難題。
IBM 團(tuán)隊(duì)首先建立了一套復(fù)雜的算法,可以根據(jù)不同時(shí)間、地點(diǎn)計(jì)算出地球自轉(zhuǎn)、公轉(zhuǎn)產(chǎn)生的多普勒漂移,然后利用Spark用算法對(duì)信號(hào)進(jìn)行多普勒漂移的消減。消減之后的信號(hào)就可以比較容易的利用SparkML機(jī)器學(xué)習(xí)算法的聚類(Clustering)和貝葉斯算法進(jìn)行分類,判斷出哪些信號(hào)是飛機(jī)、衛(wèi)星、電器、地震等產(chǎn)生的,剩下的哪些無(wú)法被歸到正常類別的信號(hào),就是需要深入調(diào)查的異常信號(hào)了。
SETI 項(xiàng)目中集結(jié)了來(lái)自 IBM Almaden 實(shí)驗(yàn)室、IBM Johannesburg 實(shí)驗(yàn)室和來(lái)自NASA,Penn State大學(xué)的世界級(jí)數(shù)據(jù)科學(xué)家和天文學(xué)家。他們利用IBM Bluemix上的Apache Spark服務(wù),成功的構(gòu)建了對(duì)艾倫望遠(yuǎn)鏡陣列海量數(shù)據(jù)的計(jì)算和分析模型,也驗(yàn)證了IBM Apach Spark服務(wù)在海量處理方面的穩(wěn)定性、擴(kuò)展性。利用IBM Apache Spark服務(wù)的IPython notebook,專家們可以快速的進(jìn)行交互式分析和數(shù)據(jù)的可視化。通過(guò)項(xiàng)目,IBM也充分展示了通過(guò)Spark技術(shù)解決復(fù)雜問(wèn)題的實(shí)施能力。
好吧,到這肯定有同學(xué)會(huì)問(wèn),哪么項(xiàng)目找到外星人了嗎?實(shí)際上,項(xiàng)目確實(shí)發(fā)現(xiàn)了一個(gè)位于磁偏角85的信號(hào),而且確定與太陽(yáng)輻射無(wú)關(guān)。科學(xué)家們正在對(duì)信號(hào)進(jìn)行近一步分析,是不是外星人信號(hào)還未可知,但是這確實(shí)是第一次科學(xué)家們從海量數(shù)據(jù)中排除干擾,發(fā)現(xiàn)了可疑的信號(hào)。
最后,引用Dr. Seth Shostak,(天文學(xué)家, SETI研究中心主管)的話結(jié)束本文。
“通過(guò)Bluemix上的Spark服務(wù),我們能夠和IBM一起構(gòu)建出令人信服的新方法,通過(guò)分析艾倫望遠(yuǎn)鏡陣列的信號(hào)數(shù)據(jù),來(lái)探索外星文明存在的證據(jù)。這真是令人激動(dòng)的合作。”
(“With Spark as a Service on Bluemix, we’ll be able to work with IBMto develop promising new ways to analyze signal data as we hunt for evidence ofintelligence elsewhere in the cosmos. This is an exciting example of synergy inthe service of science.” )
本文轉(zhuǎn)載自
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn