成人亚洲欧洲,91成人免费看片,国产高清精品在线

下載：65 收藏：0

查看價格免費下載

Tajo (產品編號：13796)

Apache Tajo是Hadoop上的一個大數據倉庫系統。

標簽：大數據 BI 數據可視化數據分析 Hadoop

開發商： Apache

當前版本： v0.11.1

產品類型：開源

產品功能：大數據分析工具

平臺語言：

開源水平：不提供源碼

本產品的分類與介紹僅供參考，具體以商家網站介紹為準，如有疑問請來電 023-68661681 咨詢。

Apache Tajo是一個健壯的 Hadoop大數據關系型和分布式數據倉庫系統。Tajo是常用于低延遲、可伸縮的點對點查詢、在線聚合以及儲存在HDFS 等數據源的大數據集的提取-轉換-裝載。通過對SQL標準的支持，利用先進的數據庫技術，Tajo可以對分布式執行和各種查詢評估策略的數據流進行直接控制并提供優化的機會

* 關于本產品的分類與介紹僅供參考，精準產品資料以官網介紹為準，如需購買請先行測試。

特性：

快速高效

完全的分布式SQL查詢處理引擎。
高級查詢優化，如基于成本和漸進式的查詢優化。
合理的數據集上進行交互式分析。

可伸縮

容錯性與長時間運行查詢的動態調度。
比主內存更大的數據集核外算法。

可兼容

遵從ANSI / ISO SQL標準。
支持Hive MetaStore 的訪問。
支持JDBC驅動。
支持各種格式文件。如CSV、 JSON、 RCFile、SequenceFile、 ORC以及 Parquet。

簡單

用戶定義函數
交互性的外殼
方便的備份/恢復功能
異步/同步Java API

體系架構：

Tajo采用了Master-Worker架構，Master-Worker-Client之間的RPC通信是使用Protocol buffer + Netty來實現的，具體如下：

1） TajoMaster：為客戶端提供查詢服務和管理各個QueryMaster（也可以說是Tajo Worker），解析Query并協調QueryMaster，目前還內置了catalog服務器。大致可以分為四個組件：Cluster Manager、Catalog、Global Query Engine以及History Manager。

Catalog 的工作是管理諸如tables、schemas、partitions，functions，indices及statistics等各種metadata。這些元數據信息一般都是Global Query Engine來操作，為了低延遲考慮跟hive一樣都是存在RDBMS（目前支持Derby和MySQL），默認是保存在內置的Derby數據庫中。后面可能會考慮使用hive的HCatalog來完成這塊功能。
Cluster Manager 主要是管理集群中各個節點之間的通信信息及資源（內存/CPU/Disk）信息，每個節點定期發送資源信息，交給Master來管理將用于查詢計劃的分配等，這一塊是依賴Yarn的ResourceManager來管理。
Global Query Engine 當一條query提交到master，GQE就會依據表的metadata以及集群資源信息（依賴于Catalog和Cluster Manager兩個模塊提供的信息）生成一個全局的查詢計劃。對于一個分布式執行環境，全局的查詢計劃將會被分片，劃分成各個查詢單元分配給各個worker去執行，在這些worker執行過程中GQE會監控每一個查詢單元的運行狀況并實時去優化和容錯。在這一塊目前的語法解析是用ANTLR 4生成AST（抽象語法樹），這個以后可能會使用Tenzing的SQL Query Engine。
History Manager 收集各個query job狀態信息包括查詢語句，劃分的查詢單元等，通過web ui（默認端口號：26080）可以查詢。

2） QueryMaster：負責一個query的解析、優化與執行，它參與多個task runner worker協同工作，完成一個query的計算。每個Query Master可以生成多個TaskRunner來執行master的查詢單元，這些task runner都是由yarn中的NodeManager來管理。

3）Tajo Worker 每個節點就是一個worker角色，每個worker包含存儲模塊管理和一個Local模式的Query Engine，這個local模式的Query Engine就是來接受master分配的查詢單元。每個查詢單元包含一個邏輯查詢計劃和一個分片（輸入數據關系的信息塊），在執行過程中worker定期向master匯報查詢進度和資源信息，master可以很靈活地面對非異常的錯誤。

如上圖所示，Tajo采用傳統數據庫技術開發了SQL解析器，包括SQL解析、生成查詢計劃、優化查詢計劃、執行查詢技術等。但與傳統的數據庫技術不同，Tajo最終執行查詢技術時借鑒了MapReduce的設計思想，它將查詢計劃轉化為一系列任務，這樣，執行查詢計劃實際上就是執行這些任務，而每一個任務就是一個計算單位，同時Map Task和Reduce Task一樣。

更新時間:2017-06-05 11:14:18.000 | 錄入時間:2016-02-04 17:12:45.000 | 責任編輯:陳俊吉

慧都公開課 更多