原創|行業資訊|編輯:陳俊吉|2016-07-08 11:16:26.000|閱讀 1297 次
概述:IBM SPSS Modeler(以下簡稱 Modeler)是一款專業成熟的數據挖掘分析軟件,其采用數據流的方式來展示數據挖掘的操作過程,并結合 CRISP-DM 工業標準打造了一個支持眾多數據挖掘操作的應用平臺。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
IBM SPSS Modeler(以下簡稱 Modeler)是一款專業成熟的數據挖掘分析軟件,其采用數據流的方式來展示數據挖掘的操作過程,并結合 CRISP-DM 工業標準打造了一個支持眾多數據挖掘操作的應用平臺。
為了順應 IBM 的大數據戰略方向,迎合大數據處理和分析日益增強的市場需求,Modeler 從15.0版本開始,整合了最新的大數據處理引擎 IBM SPSS Analytic Server(以下簡稱為 Analytic Server)1.0 版本,從而將 IBM 的數據挖掘能力擴展到大數據領域,實現了在分布式文件系統上來執行大數據分析。它將 IBM SPSS 現有的商業分析技術與大數據技術相結合,使得用戶能夠使用復雜的分析算法以高可伸縮的方式來解決基于大數據的分析問題。
2015-9-30,IBM 數據挖掘平臺SPSS Modeler V17.1版本和IBM SPSS Analytic Server 2.1正式發布,他們的協同工作,為客戶帶來兩大亮點:
下面針對這兩大亮點,分別做具體介紹。
亮點1:新增分布式算法
在 建模面板上,增加了相應的算法,這些算法支持分布式運算,即可以運行在Spark和傳統的Hadoop之下,如果用戶安裝了Spark, 會利用Spark機制進行優化,如果沒有安裝Spark, 跟之前通過hadoop的方法一致。這一亮點大大擴展了算法能力,提高處理性能。
最新版本里面,新增的算法節點包括有:
GLE 節點
特點:
適用范圍:
Linear-AS 節點
特點:
適用范圍:
LSVM 節點
具體實現步驟如下:
特點:
適用范圍:
Random Trees節點
特點:
適用范圍:
Tree-AS 節點
特點:
適用范圍:
Spark最大的優勢在于速度,特別適合需要多次迭代的算法,因此在最新版本里面,提供了自定義對話框構建程序的 Python Spark 支持。
自定義對話框構建程序之前僅可與 R 配合使用,現在它還支持 Python for Spark,后者提供對Apache Spark 及其機器學習庫 (MLlib) 的訪問。例如,分析人員可以使用自定義對話框構建程序來創建使用 MLlib中的算法的建模節點,然后與其他人員共享該節點。
SPSS Modeler 17.1版本中,可通過Python語言引入以下所有的Spark MLlib算法:
以下流程圖實現了以下了SPSS Modeler、Spark與MLlib的集成
1.通過連接分布式文件系統,連接訓練數據集;
2.使用自定義對話框構建程序,通過Python實現導入MLlib算法Collaborative Filtering;
3.生成Collaborative Filtering模型;
4. 通過Analytic Server連接分布式文件系統,連接測試數據集;
5. 測試數據集直接連接生成的Collaborative Filtering模型,應用該模型規則進行預測分析;
6.將預測結果返回到分布式文件系統中。
集成優勢:整個數據分析處理過程都是在Spark環境下運行,充分利用內存運算提高性能。
試用版下載地址:
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn