機器學習|MaxCompute 湖倉一體介紹

機器學習|MaxCompute 湖倉一體介紹

文章圖片

機器學習|MaxCompute 湖倉一體介紹

文章圖片

機器學習|MaxCompute 湖倉一體介紹

文章圖片

機器學習|MaxCompute 湖倉一體介紹

文章圖片

機器學習|MaxCompute 湖倉一體介紹

文章圖片

機器學習|MaxCompute 湖倉一體介紹

正文:
本篇內容將通過兩個部分來介紹MaxCompute湖倉一體 。
一、什么是 MaxCompute 湖倉一體二、湖倉一體成功案例介紹

一、什么是 MaxCompute 湖倉一體 湖倉一體的整體架構 , 主要面向數據分析師 , 數據科學家以及大數據工程師來使用 。 主要應用的業務有Machine , 非結構化數據分析 , Ad-hoc/BI , Reporting和Learning等等 。 在整體架構中 , DataWorks作為數據統一開發管理的平臺 , 主要負責數據安全 , 開發IDE , 任務調度和數據資產管理等綜合工作 , 確保平臺穩定運行 。

如上圖所示 , 在整體架構中 , 我們首先將數據湖集群和MaxCompute數倉集群的網絡打通 , 然后將存儲層的數據打通 , 確保智能Cache , 冷熱分層 , 存儲優化和性能加速 。 在計算層 , 我么實現了DB級元數據的透視 , 避免數據孤島 。

DataWorks統一了各種數據資產 , 比如E-MapReduce , CDH HBase , CDH Hive和AnalyticDB for等 。 不但能在數據地圖中看到全域的數據資產 , 而且還支持從數據源里抽取元素與信息 。

在阿里內部 , 我們實現了一定程度的數據民主化 。 現如今 , 阿里集團內部所有的表 , 員工都能夠看到表名稱和的元數據信息 , 以及信息的安全等級 。 DataWorks作為中臺:可以從列表中支持的數據源采集數據 , 納入平臺管控 。

目前 , 統一的表級、字段級別數據血緣就現有的產品能力 , 只能局限于單一引擎內部的跨血緣 。 預計明年能夠實現跨引擎的數據血緣 。

在單一引擎內部 , 可以掛載多個hadoop集群 , 實現統一引擎的對接與管理 。

DataWorks作為統一的數據開發平臺 , 能夠將MC的任務和hadoop任務混編在一個流程中 。 不但可以統一臨時查詢入口 , 發送給不同的引擎 。 而且可以將不同的引擎作業混合調度 。 比如數據集成作業 , MaxCompute作業以及Hive作業等 。

二、湖倉一體成功案例介紹 某互聯網游戲公司的廣告算法團隊是湖倉一體主要客戶 , 主要應用是機器學習DW+MC+PAI+EAS在線模型服務 。 該團隊的自服務程度高、需要一站式的機器學習平臺 。 而Hadoop集群有多團隊共用 , 使用集群管控較嚴 , 無法短時間支撐大workload的創新業務 。 基于以上需求 , 我們通過湖倉一體 , 將新業務平臺與原有數據平臺打通 , 即PAI on MaxCompute+DataWorks 。 為客戶提供了一站式機器學習 , 模型開發、模型發布 , 大規模計算等能力 , 提升了團隊的工作效率 。

數禾公司通過引入MaxCompute作為計算引擎的數據中臺 , 不但讓數據湖計算自由流動 , 而且解決了先前異構計算引擎存儲管理 , 元數據管理和權限管理不同統一的問題 。 不但提升了整體的工作效率 , 而且降低了運維成本 , 起到了降本增效的作用 。

上圖是數禾公司構建的基于MaxCompute+DLF+EMR的湖倉一體架構 。 底層是OSS數據湖存儲 , 我們通過DLF構建了元數據管理 , 數據血緣管理 , 數據權限管理 。 通過JindoFS+MC的方式 , 實現了數據的冷熱分層和本地緩存 。 我們結合MaxCompute和EMR , 成功實現了智能數據構建與數據中臺管理 。

相關經驗推薦