原創|行業資訊|編輯:陳俊吉|2017-03-28 09:52:44.000|閱讀 432 次
概述:在今年,IBM SPSS Modeler發布了新版本18.0,那么在這次新版本的更新中,我們可以看到更新的幅度還是比較大的。接下來,浩彬老撕將給大家介紹18.0版本中一些新的功能,同時也將為大家詳細介紹如果獲得SPSS最新版本的試用方法!
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
在今年,IBM SPSS Modeler發布了新版本18.0,那么在這次新版本的更新中,我們可以看到更新的幅度還是比較大的。接下來,浩彬老撕將給大家介紹18.0版本中一些新的功能,同時也將為大家詳細介紹如果獲得SPSS最新版本的試用方法!
這次Modeler 18.0版本的更新我們可以簡單總結為如下三個方面:
(1)支持的平臺更加廣泛
(2)性能更加強大的大數據算法
(3)在開源技術上更多的擴展和更強大的支持
總而言之,就是很好很強大!
1. 支持的平臺更加廣泛(MAC / Windows 10)
相比于Modeler的兄弟產品,SPSS Statistics早在3年前的 21.0 版本已經開始支持 Mac 操作系統,而Modeler一直只能支持Windows操作系統,可謂愁死了廣大的果粉了。很多果粉小伙伴為了能夠在Mac上用上Modeler可謂是費苦心啊。
但是現在,Modeler的18.0版本也正式發布了Mac版本,從此與虛擬機“Say Byebye”,咱們終于也能夠在Mac上直接使用了。
當然除了支持Mac系統,也增加了對Windows 10的支持。
2. 性能/功能更加強大的大數據算法
2.1 所有算法都支持本地運行而不需要連接Analytics Server
在Modeler之前的版本中,為更好滿足客戶的需求,特意設計了部分支持分布式計算的算法,而這些算法的實現是需要Analytics Server(簡稱AS,大家可以把AS理解為SPSS Modeler與Hadoop的連接器)這一模塊才能運行的,而現在這些新的算法都支持在本地client端運行。這些新算法包括:
2.2 所有新算法都支持基于內存的分布式計算
毫無疑問,對于大規模數據集來說,使用多線程計算將能更好地利用我們的硬件資源,更重要的是能夠節省我們的建模時間。在舊版本的SPSS Modeler版本中,只有部分的算法(CHAID,C&RT樹,QUEST,線性模型,神經網絡)能夠支持多線程,并且只有在連接上Modeler Server中的時候,才能啟用這項功能。
(以神經網絡節點為例)
而在剛剛 2.1 提到的所有算法當中,現在都能支持多線程計算,并且直接在Modeler client端中即可啟用多線程,而無需連接至服務器端。
2.3 算法優化
(1) 線性SVM以及廣義線性模型(AS算法)提供了正則化功能
我們知道過擬合是我們機器學習過程中常常面臨的問題,為了避免模型過于復雜帶來的問題,我們可以通過正則化對模型添加先驗,使得模型的復雜度得到控制,從而減少噪聲的擾動。因此在Modeler的18版本中,GLE以及LSVM都提供了正則化的功能:
(2) 樹模型和LSVM模型提供了專門的數據準備功能
為了增強Tree-AS以及LSVM的能力,在Modeler的18版本當中,特意結合了數據準備功能在這兩個節點中,具體能力包括:連續字段分箱處理,分類字段進行類別合并,時間戳進行字段轉換,把缺失值自動視為新的類別(Tree-AS)等等
(3) 隨機樹節點新增功能選項
隨機樹節點,大家可以理解為隨機森林,但因為隨機森林最早被Leo Breiman和Adele Cutler提出后,就被注冊成了商標,因此這里稱之為隨機樹模型。該模型新增了兩個功能選項:
(a) 指定要用于拆分的最小預測變量數:如果是構建拆分模型,請設置要用于構建每個拆分的最小預測變量數。這防止拆分創建過小的子組。
(b) 當準確性無法再提高時停止構建 要:改進模型構建時間,請選擇此選項,以在結果的準確性無法提高時停止模型構建過程。
(4)時間序列算法的增強
時間序列算法主要增強在兩方面,一個是支持了多線程計算,二是增加了同時計算多個時間序列模型功能。
例如在舊版本中,當我們的原始數據是6個銷售門店從2015年1月到2016年6月的銷售額,那么我們只能通過編程或分別使用多個時間序列節點才能完成對6個銷售門店時間序列的預測,但是在新版本中,我們則可以一次性構建多個模型,大大簡化了建模的步驟。
3. 在開源技術上更多的擴展和更強大的支持
3.1 在開源工具上更好的擴展和支持
機器學習是一個充滿生命力的技術領域,開源技術每天都會有長足的進步,為了能夠保證能夠在SPSS Modeler平臺上使用到新的數據技術,Modeler在開源技術上一直有很好的支持。
從15版本開始集成R語言,16版本開始集成Python,17版本集成Spark。而來到我們的18版本,SPSS Modeler在集成上再更進一步,以往在集成Python以及Spark上需要AS組件的支持,但是現在我們能夠直接在Modeler的客戶端上直接集成Python的能力,并且我們能夠把相關的R語言代碼/Python代碼直接集成成為一個建模節點。
3.2 全新的擴展中心
除了通過上述的方法,通過在Modeler中嵌入相關的R/Python代碼定制相關節點外,IBM也開發了更多的功能在Github上,而現在我們可以直接在Modeler上下載應用相關的功能節點。
這些新的擴展空能包括了天氣數據獲取,GIS集成,地理空間應用等等,具體的數量已經從3月份24個功能到現在的35個功能。
在擴展中心獲取這些功能后,會自動在Modeler的節點區域位置新增相應的功能節點,例如浩彬老撕之前安裝了天氣數據節點,那么就可以直接運用了。
最后,SPSS最近開通了專門的社區,所有的SPSS用戶(包括Statistics,Modeler用戶)都可以在上面查找資料,資料包括各種技術文檔,應用擴展功能,SPSS+R的集成,SPSS+Python的集成。當然上面也非常歡迎大家進行各種的技術交流。
SPSS論壇
IBM SPSS Predictive analytics 社區
spss modeler://fc6vip.cn/product/3729/overview
spss statistics://fc6vip.cn/product/3729/overview
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn