集成整個組織的數據可以讓您更好地了解客戶、簡化運營并幫助團隊做出更好、更快的決策。但整合數據并不容易。
通常,組織使用各種工具和系統(tǒng)(例如數據攝取服務)從不同來源收集數據。數據通常存儲在孤島中,這意味著必須將其移至數據湖或數據倉庫中,然后才能運行分析、人工智能 (AI) 或機器學習 (ML) 工作負載。在數據準備好進行分析之前,需要對其進行組合、清理和規(guī)范化,這一過程也稱為提取、轉換、加載 (ETL),這可能非常費力且容易出錯。
在 AWS,我們的目標是讓組織更輕松地連接到所有數據,并以客戶所需的速度和敏捷性實現這一點。我們基于以下目標開發(fā)了實現零 ETL 未來的開創(chuàng)性方法:打破數據孤島,使數據集成更容易,并加快數據驅動創(chuàng)新的步伐。
合并來自不同來源的數據就像將一堆礫石從一個地方移動到另一個地方一樣,這是一項困難、耗時且常常令人不滿意的工作。首先,ETL 經常要求數據工程師編寫自定義代碼。然后,DevOps 工程師或 IT 管理員必須部署和管理基礎設施,以確保數據管道的擴展。當數據源發(fā)生變化時,數據工程師必須手動更改代碼并重新部署。
此外,當數據工程師遇到數據復制滯后、架構更新中斷以及源和目標之間的數據不一致等問題時,他們必須花費時間和資源來調試和修復數據管道。在準備數據時(這個過程可能需要幾天時間),數據分析師無法運行交互式分析或構建儀表板,數據科學家無法構建機器學習模型或運行預測,較終用戶(例如供應鏈經理)也無法做出數據驅動的決策。
這個漫長的過程扼殺了任何實時用例的機會,例如根據交通狀況將司機分配到路線、放置在線廣告或向乘客提供列車狀態(tài)更新。在這些情況下,可能會失去改善客戶體驗或解決新業(yè)務前景的機會。
零 ETL 支持通過聯合查詢就地查詢數據,并以零工作量自動將數據從源移動到目標。這意味著您可以近乎實時地對事務數據進行分析、連接到軟件應用程序中的數據以及從數據存儲中生成 ML 預測以更快地獲得業(yè)務洞察,而不必將數據移動到 ML 工具。您還可以跨數據庫、數據倉庫和數據湖查詢多個數據源,而移動數據。為了完成這些任務,我們在服務之間構建了各種零 ETL 集成,以解決許多不同的用例。
例如,假設一家在十幾個國家/地區(qū)設有工廠的制造公司使用數據庫集群來存儲每個國家/地區(qū)的訂單和庫存數據。為了實時查看所有訂單和庫存,該公司必須在每個集群與中央數據倉庫之間構建單獨的數據管道,以便跨組合數據集進行查詢。為此,數據集成團隊必須編寫代碼來連接到 12 個不同的集群并管理和測試 12 個生產管道。團隊部署代碼后,必須不斷監(jiān)控和擴展管道以優(yōu)化性能,當發(fā)生任何變化時,他們必須在 12 個不同的地方進行更新。通過使用Amazon Aurora 零 ETL 與 Amazon Redshift 集成,數據集成團隊可以消除構建和管理自定義數據管道的工作。
另一個例子是銷售和運營經理正在尋找公司銷售團隊應重點關注的領域。使用完全托管的無代碼集成服務 Amazon AppFlow,數據分析師可以將銷售機會記錄從 Salesforce 提取到 Amazon Redshift 中,并將其與來自不同來源(例如計費系統(tǒng)、ERP 和營銷數據庫)的數據相結合。通過分析所有這些系統(tǒng)中的數據進行銷售分析,銷售經理能夠無縫更新銷售儀表板,并為團隊提供正確的銷售機會。
在一個現實世界的用例中, Magellan Rx Management (現在是 Prime Therapeutics 的一部分)。使用數據和分析來提供改善患者護理、優(yōu)化成本和改善結果的臨床解決方案。該公司通過其 MRx Predict 解決方案開發(fā)和提供這些分析,該解決方案使用各種數據(包括藥房和醫(yī)療索賠以及人口普查數據)來優(yōu)化預測模型的開發(fā)和部署,并較大限度地提高預測準確性。
在 Magellan Rx Management 開始使用 Redshift ML 之前,其數據科學家通過使用各種工具執(zhí)行一系列步驟得出了預測。他們必須在 SageMaker 中確定適當的 ML 算法或使用 Amazon SageMaker Autopilot,從數據倉庫導出數據,并準備訓練數據以使用這些模型。部署模型后,科學家們使用新數據進行了各種迭代以進行預測(也稱為推理)。這涉及通過一系列手動步驟在 Amazon Redshift 和 SageMaker 之間來回移動數據。
借助 Redshift ML,該公司的分析師可以通過輕松創(chuàng)建和使用 ML 模型來對新藥進行市場分類。通過利用 Redshift ML 支持此流程所獲得的效率提高了生產力、優(yōu)化了資源并產生了高度的預測準確性。
我們的使命是讓客戶輕松地從他們的數據中獲得較大價值,而集成服務是此過程的關鍵。這就是我們今天致力于構建零 ETL 未來的原因。通過數據工程師可以自由地專注于從數據中創(chuàng)造價值,組織可以加速數據的使用,以簡化運營并推動業(yè)務增長。