轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-05-04 09:33:51.000|閱讀 469 次
概述:Apache Spark在SnappyData支持即時(shí)SQL分析
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
2016年5月13日-15日,由CSDN重磅打造的2016中國(guó)云計(jì)算技術(shù)大會(huì)(CCTC 2016)將于5月13日-15日在北京舉辦,今年大會(huì)特設(shè)“中國(guó)Spark技術(shù)峰會(huì)”、“Container技術(shù)峰會(huì)”、“OpenStack技術(shù)峰會(huì)”、“核心技術(shù)與應(yīng)用實(shí)戰(zhàn)峰會(huì)”四大技術(shù)主題峰會(huì),以及“云計(jì)算核心技術(shù)架構(gòu)”、“云計(jì)算平臺(tái)構(gòu)建與實(shí)踐”等專場(chǎng)技術(shù)論壇。大會(huì)講師陣容囊括Intel、微軟、、AWS、Hortonworks、Databricks、Elastic、百度、阿里、騰訊、華為、樂(lè)視、京東、小米、微博、迅雷、國(guó)家電網(wǎng)、中國(guó)移動(dòng)、長(zhǎng)安汽車、廣發(fā)證券、民生銀行、國(guó)家超級(jí)計(jì)算廣州中心等60+頂級(jí)技術(shù)講師,CCTC必將是中國(guó)云計(jì)算技術(shù)開(kāi)發(fā)者的頂級(jí)盛會(huì)。詳情訪問(wèn)CCTC 2016官網(wǎng)。
Pivotal’s GemFire的基于內(nèi)存數(shù)據(jù)存儲(chǔ)團(tuán)隊(duì)最近發(fā)布了一種新的數(shù)據(jù)庫(kù)解決方案,叫做SnappyData,基于GemFire 和 Apache Spark。
SnappyData是最近又出現(xiàn)的一個(gè)使用Spark作為組件的數(shù)據(jù)庫(kù)解決方案。這種使用Spark的方案中,有一些使用了Apache Hadoop的技術(shù)。SnappyData的查詢可以使用傳統(tǒng)的SQL語(yǔ)句,或者使用Spark的查詢,這樣原來(lái)的工作可以兼容SnappyData,也可以使用兩種方式同時(shí)工作。
Snap和Spark
SnappyData是這個(gè)新數(shù)據(jù)庫(kù)的名字,同時(shí)也是這個(gè)組織的名字,跨越了兩個(gè)領(lǐng)域。它使用了Apache Spark的內(nèi)存數(shù)據(jù)分析引擎,所以可以在靜態(tài)數(shù)據(jù)和流數(shù)據(jù)中實(shí)時(shí)分析SQL。
在存儲(chǔ)和取回?cái)?shù)據(jù)方面,SnappyData使用了一個(gè)分布式的數(shù)據(jù)存儲(chǔ),叫做Snappy-Store,起源于GemFire的技術(shù)。它要么使用自己的數(shù)據(jù)存儲(chǔ),要么使用一種異步的回寫(xiě)式高速緩沖存儲(chǔ)器連接另一個(gè)數(shù)據(jù)庫(kù),比如Hadoop或者HDFS。這意味著,原來(lái)的數(shù)據(jù)可以直接使用SnappyData,而不需要一些正式的數(shù)據(jù)遷移操作。
SnappyData也嘗試對(duì)流數(shù)據(jù)的問(wèn)題提供一些新奇的解決方案。比如,如果有個(gè)查詢返回的結(jié)果太多,可能導(dǎo)致不能及時(shí)地反回結(jié)果。SnappyData使用近似查詢結(jié)果(approximate query processing,AQP)或者從結(jié)果中抽樣的方式來(lái)生成結(jié)果。
這種方式返回的結(jié)果,相比與在所有數(shù)據(jù)上操作并不準(zhǔn)確,而且AQP并不能適用于所有查詢。但是,AQP查詢對(duì)CPU和內(nèi)存的要求更低,速度更快。
這并不是Spark第一次在數(shù)據(jù)分析方面同時(shí)覆蓋OLTP和OLAP了。基于內(nèi)存的數(shù)據(jù)庫(kù)系統(tǒng)Splice Machine使用了Hadoop的組件,就同時(shí)支持OLTP和OLAP。2.0版本加入了Spark作為一個(gè)OLAP的處理引擎。
SnappyData和Splice Machine背道而馳的地方,就是使用Spark的不同。SnappyData稱,他們?cè)诤芏喾绞綄?duì)Spark的流進(jìn)行的擴(kuò)展,比如允許流可以像表一樣被查詢和操作,包括連接這樣的操作。
SnappyData的環(huán)境也比較適合嘗試使用Apache Spark新特性。比如Spark 2.0將在今年發(fā)布,屆時(shí)將重構(gòu)內(nèi)存管理和流系統(tǒng),拉取流數(shù)據(jù)將更加簡(jiǎn)單。
本文轉(zhuǎn)載自
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn