數據并不單獨存在于一個數據庫、文件系統、數據湖或存儲庫中。在記錄系統中創建的數據必須滿足多種業務需求,與其他數據源相集成,然后才能在分析、面向客戶的應用程序或內部工作流中使用。例子包括:
- 來自電子商務應用程序的數據與用戶分析、客戶關系管理 (CRM) 系統中的客戶數據或其他主數據源相集成,以建立客戶細分并定制營銷信息。
- 物聯網 (IoT) 傳感器數據與運營和財務數據存儲相關聯,用于控制吞吐量和報告制造過程的質量。
- 員工工作流應用程序把跨多個軟件即服務 (SaaS) 平臺和內部數據源的數據和工具連接到一個易于使用的移動界面中。
許多企業還擁有數據科學家、數據分析師和創新團隊,他們越來越需要整合內部和外部數據源。開發預測模型的數據科學家通常會加載多個外部數據源,例如計量經濟學、天氣、人口普查和其他公共數據,然后將它們與內部數據源混合。進行人工智能試驗的創新團隊需要聚合大量且通常很復雜的數據源來訓練和測試他們的算法。曾經在電子表格中執行分析的業務和數據分析師現在可能需要更復雜的工具來加載、加入和處理多個數據供給。
用編程和腳本處理數據集成
對于任何具有基本編程技能的人來說,將數據從源移動到目的地的最常見方法就是開發一個簡短的腳本。代碼從一個或多個源中提取數據,執行任何必要的數據驗證和操作,并將其推送到一個或多個目標。
開發人員可以使用多種方法對點對點的數據集成進行編碼,例如:
- 將數據變化推送到其他數據庫系統的數據庫存儲過程
- 作為預定工作或服務來運行的腳本
- 當應用程序的最終用戶更改數據時向服務發出警報的webhook
- 連接系統間數據的微服務
- 部署到無服務器架構的小型數據處理代碼片段
這些編碼過程可以從多個源中提取數據,在將數據傳送到目標數據源之前加入、篩選、清理、驗證和轉換數據。
編寫腳本可能是一種快速簡便的數據移動方法,但它并不算是專業級的數據處理方法。生產級數據處理腳本需要自動執行處理和傳輸數據以及處理多個操作所需的步驟步驟。
例如,處理大量數據的集成應該是多線程的,并且對有許多數據源的工作也需要可靠的數據驗證和異常處理。如果需要有效的業務邏輯和數據轉換,開發人員應該記錄這些步驟或采取其他措施來確保這些集成是可以被觀察到的。
支持這些操作需求的腳本編程并非易事。它要求開發人員預測數據集成可能出現的問題,并相應地進行編程。此外,在使用很多實驗數據源時,開發自定義腳本可能并不劃算。所以最后,數據集成腳本通常難以在多個開發人員之間進行知識轉移和維護。
出于這些原因,許多有數據集成需求的企業通常會尋找編程和編寫數據流腳本之外的方法。
作者:Isaac Sacolick是StarCIO的總裁,也是亞馬遜暢銷書《推動數字化:通過技術實現業務轉型的領導者指南》的作者。Sacolick是公認的頂級社交CIO和數字化轉型影響者。他在InfoWorld.com、CIO.com、他的博客Social、Agile和Transformation以及其他網站上發表了700多篇文章。
原文網址:https://www.infoworld.com/article/3621992/why-you-need-a-data-integration-platform.html
文章來源:https://mp.weixin.qq.com/s/BitlwMsjsRi2RCiMi_kfQQ