機器學習|MaxCompute 湖倉一體介紹

2022-05-18 機器學習 Hadoop

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

正文：
本篇內容將通過兩個部分來介紹MaxCompute湖倉一體。
一、什么是 MaxCompute 湖倉一體二、湖倉一體成功案例介紹

一、什么是 MaxCompute 湖倉一體湖倉一體的整體架構，主要面向數據分析師，數據科學家以及大數據工程師來使用。主要應用的業務有Machine ，非結構化數據分析， Ad-hoc/BI ， Reporting和Learning等等。在整體架構中， DataWorks作為數據統一開發管理的平臺，主要負責數據安全，開發IDE ，任務調度和數據資產管理等綜合工作，確保平臺穩定運行。

如上圖所示，在整體架構中，我們首先將數據湖集群和MaxCompute數倉集群的網絡打通，然后將存儲層的數據打通，確保智能Cache ，冷熱分層，存儲優化和性能加速。在計算層，我么實現了DB級元數據的透視，避免數據孤島。

DataWorks統一了各種數據資產，比如E-MapReduce ， CDH HBase ， CDH Hive和AnalyticDB for等。不但能在數據地圖中看到全域的數據資產，而且還支持從數據源里抽取元素與信息。

在阿里內部，我們實現了一定程度的數據民主化。現如今，阿里集團內部所有的表，員工都能夠看到表名稱和的元數據信息，以及信息的安全等級。 DataWorks作為中臺：可以從列表中支持的數據源采集數據，納入平臺管控。

目前，統一的表級、字段級別數據血緣就現有的產品能力，只能局限于單一引擎內部的跨血緣。預計明年能夠實現跨引擎的數據血緣。

在單一引擎內部，可以掛載多個hadoop集群，實現統一引擎的對接與管理。

DataWorks作為統一的數據開發平臺，能夠將MC的任務和hadoop任務混編在一個流程中。不但可以統一臨時查詢入口，發送給不同的引擎。而且可以將不同的引擎作業混合調度。比如數據集成作業， MaxCompute作業以及Hive作業等。

二、湖倉一體成功案例介紹某互聯網游戲公司的廣告算法團隊是湖倉一體主要客戶，主要應用是機器學習DW+MC+PAI+EAS在線模型服務。該團隊的自服務程度高、需要一站式的機器學習平臺。而Hadoop集群有多團隊共用，使用集群管控較嚴，無法短時間支撐大workload的創新業務。基于以上需求，我們通過湖倉一體，將新業務平臺與原有數據平臺打通，即PAI on MaxCompute+DataWorks 。為客戶提供了一站式機器學習，模型開發、模型發布，大規模計算等能力，提升了團隊的工作效率。

數禾公司通過引入MaxCompute作為計算引擎的數據中臺，不但讓數據湖計算自由流動，而且解決了先前異構計算引擎存儲管理，元數據管理和權限管理不同統一的問題。不但提升了整體的工作效率，而且降低了運維成本，起到了降本增效的作用。

上圖是數禾公司構建的基于MaxCompute+DLF+EMR的湖倉一體架構。底層是OSS數據湖存儲，我們通過DLF構建了元數據管理，數據血緣管理，數據權限管理。通過JindoFS+MC的方式，實現了數據的冷熱分層和本地緩存。我們結合MaxCompute和EMR ，成功實現了智能數據構建與數據中臺管理。

相關經驗推薦

上一篇：工業機器人|釘科技快評：“大屏化”未必是彩電業的“靈丹妙藥”

下一篇：|安卓真不如iOS？蘋果老用戶的真實感受：在便捷功能和隱私保護不一定