* 關于本產品的分類與介紹僅供參考,精準產品資料以官網介紹為準,如需購買請先行測試。
InfoSphere CDC 復制原理
InfoSphere CDC 能夠對包括數據倉庫,主數據管理,BI,SOA 等在內的應用整合及升級項目提供高速、可靠、低延遲的數據復制方案,而且對生產系統低影響。由于只復制變化的數據,減少了處理的開銷和占用的帶寬。復制可以是持續的也可以是周期性的。
圖 1 CDC 架構圖:
CDC 的關鍵組件主要的組成部分包括:
Access Server(AS):用戶配置和監控 CDC 引擎的安全管理工具,支持圖形化界面(V6.5 之后集成在 MC 中)及命令行。當用戶登錄 Management Console,就會連接到 AS。在客戶端關閉 AS,不會影響源服務器到目標服務器到數據復制。
Management Console(MC):CDC 的圖形化界面工具,允許用戶配置、監控和管理在多個不同服務器上到數據復制,可以在客戶端上指定復制的參數,初始化刷新和鏡像。MC 也允許用戶監控復制操作、延遲、事件消息和其他源和目標 datastore 支持的統計數據。
源端引擎:讀取源端數據庫的日志文件捕獲變更數據,經過行列過濾,字符編碼轉換后由 TCP/IP 發送給目標端。
目標端引擎:接收源端發送的變更數據,經過數值轉換,字符編碼轉換,沖突檢測后將變更數據應用到目標數據庫。
Metadata:存儲 CDC 實例的配置信息,包括數據庫連接信息,預定信息以及表的映射信息等,同時記錄當前的復制進行狀態
源和目標 Datastore(數據存儲):存儲的是數據文件和數據復制需要的 InfoSphere CDC 實例信息。每個 datastore 代表了一個用戶要連接的數據庫,存儲要復制的表。
多數的 CDC 引擎既可作為源端引擎捕獲變化數據又可作為目標端引擎接收變化數據并將其應用于指定的數據庫;通常,CDC 引擎稱為 CDC 實例,如果從 AS/MC 的角度,一個 CDC 引擎也被稱作一個 CDC 數據存儲。
圖 2 CDC 處理數據的流向圖
1、當 CDC 處于復制狀態的時候,CDC 源端引擎中的 log reader 組件將會不停的從源端數據庫日志中捕獲所有要復制表的新變化的日志。
2、而 CDC 源端引擎中的 log parser 組件則將這些變化日志中跟 CDC 需要復制的表相關的日志找出來并根據其所屬的 transaction ID 放在不同的 transaction queue 中。Transaction queue 是 log parser 在內存在分配的一片區域,專門存放沒有提交的跟 CDC 復制表相關的事務信息。每個 Transaction queue 會寫在以“txnq”做前綴的文件里,此文件在“/tmp”下可以找到。如果 txnq 開頭的文件大小大于 0 字節,說明在處理非常大的還沒有提交的事務。當訂閱停止后,transaction queue 里的內容會存放在 pointbase 容器里。
3、當 CDC 讀到 commit 觸發一個事務結束時,該 transaction queue 將其內容提交給 Staging Store 后會釋放相應的內存空間。Staging Store 是 CDC 分配的存放已提交的事務信息的內存區域,目標端引擎會自動從 Staging Store 中抽取出其當前要復制的事務信息,一旦數據復制到里目標端,該記錄就會從 Staging Store 中刪除。
其中 1, 2, 3 是數據在源端引擎的流向。
4、復制表的事務信息通過 TCP/IP 傳送至目標端??梢岳妙愃?sniffer 的工具來查看持續的在網絡上的數據流。也可以通過 MC 的“activity monitor”來監控復制的數據情況。
5、目標段將抽取過來的事務信息經過必要的轉換重新組裝成 SQL 語句。
6、將組裝好的 SQL 語句應用于目標數據庫,并更新 bookmark 信息(這個 bookmark 信息是為了保證數據的一致性,當由于某種原因復制中斷后,在下次 CDC 重啟后,目標端的 bookmark 信息首先被傳到源端,從而源端從最后一個成功應用到目標數據庫的日志開始復制),整個數據復制過程完成。
其中 5, 6 是數據在目標引擎的流向。
InfoSphere Change Data Capture 提供:
低影響數據捕獲
基于日志的技術可近乎實時地復制關鍵業務型數據事件而不影響系統性能。
僅捕獲變更的數據并將其從發布者傳輸到訂戶系統。
基于內容,動態地將數據路由到由一個或多個應用程序使用的各種消息隊列。
無需數據登臺或網關技術。
在高度安全的環境中交付敏感數據,并使其僅由授權接收方訪問。
靈活簡單的數據交付
提供一個 GUI,幫助支持更快速地數據集成流程部署。
提供監控功能,加速故障診斷與排除。
支持單向、雙向、多到一和一到多的數據交付。
使用實時審計功能來提供源表的變更歷史記錄。
與 IBM 和其他系統集成
與 IBM InfoSphere DataStage? 集成,提供數據訂閱源,進而抽取、變換和裝入 (ETL) 流程并保持事務完整性。基于定義的數據規則更快地進行變更數據有效性檢查。
將元數據集成到 IBM InfoSphere Metadata Workbench,使諸如影響力分析和數據沿襲的功能擴展到其余信息管理基礎架構。
將數據事務打包到 XML 文檔并交付給 IBM WebSphere? MQ 之類的消息傳遞中間件,進而支持面向服務架構 (SOA)。
現在作為 IBM InfoSphere Data Replication for DB2 for z/OS? 的組成部分,它與 IBM InfoSphere Change Data Capture for z/OS 和 IBM InfoSphere Replication Server 集成,針對分布式和 IBM System z? 環境提供廣泛的數據庫和操作系統支持。
支持 IBM DB2?、IBM i、IBM Informix?、Oracle、Sybase、Microsoft SQL Server、IBM IMS? 和 Teradata 數據庫。
更新時間:2016-12-30 17:49:10.000 | 錄入時間:2016-02-29 10:55:38.000 | 責任編輯:胡濤