轉帖|使用教程|編輯:龔雪|2014-09-04 09:59:42.000|閱讀 324 次
概述:根據數據來源劃分,大數據主要包括三類:商業運作產生的數據、人類行為產生的數據和機器數據。目前,人們談論最多的是前兩類數據的處理和分析。創立于2004年的Splunk公司獨樹一幟,從公司成立之初就一直專注于機器數據的處理和分析。Splunk公司產品營銷副總裁SanjayMehta在接受本報記者采訪時表示,機器大數據未來具有非常廣闊的發展前景。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
根據數據來源劃分,大數據主要包括三類:商業運作產生的數據、人類行為產生的數據和機器數據。目前,人們談論最多的是前兩類數據的處理和分析。創立于2004年的Splunk公司獨樹一幟,從公司成立之初就一直專注于機器數據的處理和分析。Splunk公司產品營銷副總裁SanjayMehta在接受本報記者采訪時表示,機器大數據未來具有非常廣闊的發展前景。
機器大數據有可為
何為機器數據?人們的每項活動都會在機器數據中留下痕跡,這些數據包含客戶行為、使用事務處理、應用程序行為、服務水平等的明確記錄,像人們非常熟悉的日志文件、傳感器數據等都是機器數據。SanjayMehta表示:“機器生成的數據是發展最快、最復雜同時也是最寶貴的那部分大數據。但是現有的數據分析、管理和監控解決方案很少有為這類數據設計的。”
機器數據處理的難點在于以下三方面:機器數據來自于不同來源,而將這些不同來源關聯起來十分復雜;機器數據主要是非結構化的,很難用預先定義的架構來處理;機器數據對實時處理的要求非常高。Splunk的產品被外界稱為機器數據的引擎,它能夠有效應對機器數據的種種挑戰,收集非結構化的時間序列機器數據,并編制索引加以利用。SanjayMehta表示,Splunk可以讀取人們能夠想到的任何來源的數據,比如網絡流量、Web服務器、自定義應用程序、應用程序服務器、虛擬機管理程序、GSP系統甚至股市源、社交媒體和結構化數據庫的數據,并通過它們實時掌握業務狀況,深入分析在整個IT系統和基礎設施中發生了什么,從而做出正確決策。
增強Hadoop的易用性
“我們的某些客戶告訴我們,他們要使用Hadoop,希望以更低成本來存儲數據。但問題是,如果想部署Hadoop并基于它獲得更多價值并不是一件容易的事。部署Hadoop所花費的人力和服務可能是部署普通軟件的20倍。如果想充分發揮Hadoop的作用,至少要將13個項目與Hadoop進行集成。另外很多客戶反映,Hadoop平臺上的數據量太大而無法隨意遷移。”SanjayMehta表示,“2012年10月,我們推出了SplunkHadoopConnect,讓用戶可以簡單、方便地在SplunkEnterprise和Hadoop之間轉移數據。”
SplunkHadoopConnect打通了Hadoop與Splunk產品平臺之間的傳輸通道,用戶可以將Splunk平臺上的數據傳輸到Hadoop平臺上進行長期存儲。Hadoop上的數據也可以實時地傳輸到Splunk上進行分析和可視化。
對于很多客戶來說,最棘手的問題是Hadoop上的數據量太大,無法隨意移動。
2013年6月22日,Splunk發布了Hunk測試版——SplunkAnalyticsforHadoop,它提供了針對Hadoop平臺的互動數據探索分析和可視化功能,這為用戶使用Hadoop平臺提供了更多便利。
SplunkAnalyticsforHadoop是一個全功能的集成的產品,針對Hadoop上的數據在同一個平臺上提供了互動的數據探索、分析和可視化三種必要的功能。“SplunkAnalyticsforHadoop為用戶提供了一個簡單、易用的界面,不僅專業人員可以使用,即使普通的管理人員也能使用它對數據進行訪問和分析。以前可能要花幾個月時間來了解和分析數據,現在使用SplunkAnalyticsforHadoop,可能只要一小時甚至幾分鐘。”SanjayMehta表示。
SplunkAnalyticsforHadoop是首個采用Splunk虛擬索引技術(正在申請專利)的產品。用戶通過它可以無縫使用Splunk的所有技術,包括Splunk搜索處理語言(SPL)等。它可以實現互動地探索、分析和可視化存儲在任何地方的數據,就像這些數據存儲在SplunkIndex中一樣。SanjayMehta介紹說:“未來,我們會把更多技術創新反饋給Hadoop社區。目前,我們正在邀請特定的用戶參與Hunk的測試。”
來源:中國計算機報 作者:郭濤
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網