原創(chuàng)|行業(yè)資訊|編輯:況魚杰|2020-11-23 11:01:25.047|閱讀 282 次
概述:相信接觸數(shù)據(jù)管道的公司都很困惑到底應(yīng)該選擇ETL還是ELT?有人認(rèn)為ELT可以根據(jù)數(shù)據(jù)的分布情況進(jìn)行并行處理優(yōu)化,它更好;也有人認(rèn)為ETL可以分擔(dān)數(shù)據(jù)庫(kù)系統(tǒng)的負(fù)載,可采用單獨(dú)的硬件服務(wù)器部署,所以它更好,到底誰(shuí)好一直爭(zhēng)論不休,那么希望看完本文能平息這一爭(zhēng)端。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
相信接觸數(shù)據(jù)管道的公司都很困惑到底應(yīng)該選擇ETL還是ELT?有人認(rèn)為ELT可以根據(jù)數(shù)據(jù)的分布情況進(jìn)行并行處理優(yōu)化,它更好;也有人認(rèn)為ETL可以分擔(dān)數(shù)據(jù)庫(kù)系統(tǒng)的負(fù)載,可采用單獨(dú)的硬件服務(wù)器部署,所以它更好,到底誰(shuí)好一直爭(zhēng)論不休,那么希望看完本文能平息這一爭(zhēng)端。
任何數(shù)據(jù)管道的流動(dòng)的目的只是將以規(guī)定的格式和結(jié)構(gòu)存儲(chǔ)的數(shù)據(jù)從一個(gè)地方移動(dòng)到另一個(gè)地方。數(shù)據(jù)的源頭稱為源,目的地稱為目標(biāo),有時(shí)也稱為匯。有兩種模式描述了這個(gè)過(guò)程,但都沒(méi)有規(guī)定持續(xù)時(shí)間、頻率、傳輸技術(shù)、編程語(yǔ)言或工具。這兩種模式如下:
ETL--代表提取、轉(zhuǎn)換、加載,確切地描述了流水線的每個(gè)階段所發(fā)生的事情。首先從源頭提取數(shù)據(jù),然后以某種方式進(jìn)行轉(zhuǎn)換。最后,數(shù)據(jù)子集被加載到目標(biāo)系統(tǒng)中。
ELT - Extract, Load, Transform模式類似。管道開始時(shí),再次從源數(shù)據(jù)中提取一個(gè)數(shù)據(jù)子集,但隨后立即將其加載到目標(biāo)中。最后一步執(zhí)行數(shù)據(jù)轉(zhuǎn)換。
很明顯,這兩種模式之間的唯一區(qū)別是,當(dāng)你執(zhí)行數(shù)據(jù)轉(zhuǎn)換時(shí)。請(qǐng)注意,這兩種模式都沒(méi)有規(guī)定轉(zhuǎn)換是發(fā)生在數(shù)據(jù)傳輸之前、期間還是之后。例如,讓我們檢查一下ETL模式。
下圖說(shuō)明了數(shù)據(jù)子集是在轉(zhuǎn)換和最終加載發(fā)生之前通過(guò)線傳輸?shù)摹?br />
同樣的道理,在傳輸和最終加載之前,提取和轉(zhuǎn)換數(shù)據(jù)子集也同樣有效。
在現(xiàn)實(shí)中,廠商的實(shí)現(xiàn)往往決定了數(shù)據(jù)傳輸操作的順序和優(yōu)先性。事實(shí)上,前面提到的許多實(shí)施細(xì)節(jié)(如頻率等)也高度依賴于供應(yīng)商。
一般來(lái)說(shuō),ETL流程按照預(yù)定的時(shí)間表運(yùn)行,例如每分鐘、每小時(shí)、每天或每周,這取決于用例。請(qǐng)注意,ETL管道也可以響應(yīng)外部觸發(fā)器或事件而運(yùn)行,但這種情況不太常見(jiàn)。
一個(gè)預(yù)定的ETL過(guò)程被稱為以批處理模式運(yùn)行,其頻率往往由以下約束條件決定。
總的來(lái)說(shuō),這個(gè)過(guò)程很好用,但當(dāng)數(shù)據(jù)量和ETL處理時(shí)間超過(guò)所需的時(shí)效性時(shí),就會(huì)出現(xiàn)困難。例如,一家銀行可能需要每10分鐘更新100萬(wàn)筆交易的數(shù)據(jù)倉(cāng)庫(kù),但提取、轉(zhuǎn)換和加載批處理需要15分鐘。將頻率延長(zhǎng)到20分鐘不是答案,因?yàn)閿?shù)據(jù)量也分別增加到了200萬(wàn)行。
它們是做什么的?
銀行的備用策略是重新思考流程,并在不同步驟發(fā)生時(shí)重新安排優(yōu)先級(jí)。如果我們假設(shè)提取、傳輸和加載數(shù)據(jù)的時(shí)間與之前相同,那么使用ELT可以讓后端進(jìn)行轉(zhuǎn)換,可能是在更多資源可用的時(shí)候。
這種模式可以通過(guò)添加變更數(shù)據(jù)捕獲(CDC)進(jìn)一步增強(qiáng)。CDC不像ETL那樣按批處理計(jì)劃運(yùn)行,而是在數(shù)據(jù)源發(fā)生變化時(shí)每次都會(huì)被觸發(fā)。因此,在我們銀行的例子中,ELT流程為每一筆交易運(yùn)行,并且通過(guò)電報(bào)傳輸?shù)臄?shù)據(jù)量很少。不需要等待處理一百萬(wàn)行的數(shù)據(jù)。實(shí)際上,提取和加載過(guò)程是實(shí)時(shí)發(fā)生的。
然后,銀行可以選擇安排一個(gè)批量轉(zhuǎn)換過(guò)程,或者推遲轉(zhuǎn)換,直到數(shù)據(jù)被消耗。通常情況下,我們發(fā)現(xiàn)客戶會(huì)采用這兩種選擇。
此外,近年來(lái)數(shù)據(jù)的數(shù)量、速度和種類都在大規(guī)模增長(zhǎng),ELT在很多情況下已經(jīng)取代ETL成為數(shù)據(jù)移動(dòng)的事實(shí)模式,尤其是在云數(shù)據(jù)遷移、數(shù)據(jù)倉(cāng)庫(kù)和湖泊攝取以及ML Ops--利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)管道的持續(xù)交付和自動(dòng)化等場(chǎng)景下。
在這篇文章的開頭,我們爭(zhēng)論了對(duì)于數(shù)據(jù)管道來(lái)說(shuō),ETL還是ELT是更好的模式,最后得出了 "這要看情況 "這個(gè)不滿意的答案。雖然傳統(tǒng)上ETL一直是數(shù)據(jù)集成的主力軍,然而事實(shí)是,時(shí)效性很重要,而ETL卻步履蹣跚。因此,如果你的分析或機(jī)器學(xué)習(xí)項(xiàng)目需要實(shí)時(shí)的數(shù)據(jù),那么ELT是首選模式。
如果您想使用屢獲殊榮的ELT解決方案實(shí)時(shí)移動(dòng)數(shù)據(jù),請(qǐng)選擇進(jìn)行測(cè)試。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn