轉帖|行業資訊|編輯:陳俊吉|2016-06-07 10:34:41.000|閱讀 547 次
概述:本文主要給大家介紹下SPSS Modeler最新版本 17.0新增空間數據分析的相關功能及Demo演示。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
作為大數據分析應用層數據挖掘平臺,受到業界的廣泛好評與喜愛,這也依賴于產品本身技術的不斷的發展與完善,IBM SPSS的研發團隊在中國歷史文化名城—西安,擁有超過300多名技術研發人員,致立于產品新技術的引入與研發,為產品本身提供源源不斷發展動力,更好地為我們的客戶服務。在我們優秀團隊的帶領下,我們的產品每年都有新的版本、新的技術發布,那么接下來,我給大家介紹下,SPSS Modeler最新版本 17.0新增空間數據分析的相關功能及Demo演示。
I.引入地圖文件及地圖可視化展現
在平臺上,我們新增了讀取地理位置信息的源節點,以及地圖展現的輸出節點;
連接方式:我們有兩種方式可以連接地圖文件,分別是
1、通過形狀文件 (.shp) 進行導入;
2、通過連接到包含地圖文件的分層文件系統所在的 ESRI 服務器進行導入。
功能:讀取地圖文件,與其它數據信息融合在一起,以直觀的地圖的方式展現最終的分析結果;
應用場景:需要將分析結果與地圖結合起來的場景,比如購物中心的客流分布、交通狀態、運輸物流等。
II.新增算法:空間-時間預測(Spatio-temporal prediction)
功能:將地理位置信息和時間都作為分析場景的輸入影響因素,預測未來具體時間點以及具體位置發生某類事件的可能性。
計算邏輯:在回歸的基礎,添加了空間協方差矩陣和時間序列來處理時間和空間信息;
應用場景:可用于預測未來某一時間某些地點可能發生的事件,比如疾病多發區、犯罪多發地的預測;
大數據支持:可以通過Analytic Server進行Map-Reduce計算,提升計算效率。
III.新增算法:關聯規則
功能:可將空間地理信息作為分析因素,分析出事件發生的模式或規則;
應用場景:犯罪模式分析、流行病/傳染病監控等;
大數據支持:可以通過Analytic Server進行Map-Reduce計算,提升計算效率。
介紹了以上功能后,我們通過Demo來了解如何應用空間數據,實現對犯罪事件發生類型的預測。
I.分析場景:
我們有美國芝加哥州包括的10個鄉鎮以往發生犯罪事件的記錄,我們要分析的目標就是根據以往的犯罪事件發生的情況,研究在哪些區域可能是犯罪事件高發區域,并通過地圖的方式展現分析結果。
II.分析思路:
結合犯罪事件發生的地理位置,通過關聯規則分析各類犯罪事件發生的規則。
III.分析步驟:
整個分析數據流如下圖,分為3個步驟,分別是數據整理、建模和地圖展現。
1.連接犯罪事件數據源文件InsuranceData.sav
文件記錄了歷史發生犯罪事件的地理位置(經、緯度)以及發生的犯罪事件類型,包括以下內容:
2.連接各個country(鄉鎮)的屬性信息文件CountyData.sav
文件收集了各個鄉鎮人口、收入等相關信息,包括以下內容:
3.連接芝加哥地圖文件ChicagoAreaCounties.shp
文件包括各個鄉鎮(Country)的地理位置信息,包括以下內容:
1、鄉鎮ID號(ObjectieID)
2、鄉鎮名稱(Name)
3、圖層信息(MultiPolygon)
可以用的地圖展現如下:
4.生成新的地理空間字段POINT
對記錄犯罪事件發生的InsuranceData.sav文件中的經度和緯度兩列數據(Latitude、Longitude)合并到地理空間上,字段類型為地理空間,節點命名為POINT,為下面與地圖數據的合并做準備。
5.將犯罪事件記錄數據與各鄉鎮屬性信息合并
即對CountyData.sav和InsuranceData.sav兩份數據按關鍵字Country合并。
6.將上面整理好的數據與芝加哥地圖文件再做合并
至此,我們將數據整理完成,合并后的數據內容包括:
其中以DS2開頭的三列數據,表示事件發生的位置對應地圖上的對象、區域和名稱。
7.選擇關聯規則算法建模
我們使用關聯規則算法,生成犯罪事件發生的規則模型,只需要將犯罪類型(Type)設置為預測,并選擇影響因素作為條件,然后點擊運行則會自動生成業務規則模型。
8.生成模型,得到規則
以下可以看到規則結果(列出部分規則)。
比如可以看到第三條規則(Rule ID=3)
條件(Condition)
PopUnder5yrs ≥ 6.600
PopOver65yrs ≤ 11.600
預測結果(Prediction)
Type = Collision
結果解讀
如果5歲以下人口占比大于等于6.6%,65歲以上人口占比小于等于11.6%,則可能發生的犯罪類型為Collision(沖突).該規則的支持度為9.51% (即有9.51%條記錄符合該規則) ,置信度為63.18%(即符合條件"PopUnder5yrs ≥ 6.600 and PopOver65yrs ≤ 11.600"的這些區域里面,有63.18%的區域發生了Collision事件),因此在做接下來的預測時,如果有區域符合以上規則(Ruld ID=3),那么我們判斷該區域發生Collision事件的概率為63.18%。
9.連接原來的芝加哥地圖文件,讓預測結果展現在地圖層之上
10.地圖展現預測結果
接下來我們把預測結果與地圖展現結合在一起,如下圖所示。
從這地圖我們可以很清晰看到,我們對各類犯罪事件發生預測結果的分布情況,根據該預測結果,我們可以有在針對性地部署相關的警力,預防犯罪事件的發生。
以上我們通過關聯規則對犯罪事件的發生進行了預測,如果使用空間-時間預測也可以實現類似的應用場景,只是分析的計算邏輯不一樣。
SPSS Modeler對空間數據分析除了將其作為影響因素加入到分析過程之外,還可以通過運動軌跡(包括時間和地點)來判斷人物事件的特征,我們稱之為空間-時間框(STB),比如我們通過的士的運動軌跡及乘客的運動軌跡,來精準地告訴的士司機,哪些時間點,在哪些區域,有更大的乘車需求;也可以通過人員的運動軌跡對群體做細分,通過設定活動范圍,找出哪些人員是家庭主婦、哪些是商務人士、哪些是白領等等,這可以更好地完善我們的客戶畫像。這些分析都挺有意思的,我們可以下次再做具體介紹,敬請期待吧.....
via:華南IBM大數據支持團隊
詳情請咨詢“”!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn