阿里巴巴|技術揭秘:實時數倉Hologres如何支持超大規模部署與運維

阿里巴巴|技術揭秘:實時數倉Hologres如何支持超大規模部署與運維

文章圖片

阿里巴巴|技術揭秘:實時數倉Hologres如何支持超大規模部署與運維

文章圖片

阿里巴巴|技術揭秘:實時數倉Hologres如何支持超大規模部署與運維


2021年11月23日至12月3日 , 中國信息通信研究院(以下簡稱“中國信通院”)對第13批分布式分析型數據庫共計27款產品進行了大數據產品能力評測 。 阿里云實時數倉Hologres(原阿里云交互式分析)在報表任務、交互式查詢、壓力測試、穩定性等方面通過了中國信通院分布式分析型數據庫性能評測(大規模) , 并以8192個節點刷新了通過該評測現有參評的規模記錄 。
在本次評測中 , Hologres是目前通過中國信通院大數據產品分布式分析型數據庫大規模性能評測的規模最大的MPP數據倉庫產品 。 通過該評測 , 證明了阿里云實時數倉Hologres能夠作為數據倉庫和大數據平臺的基礎設施 , 可以滿足用戶建設大規模數據倉庫和數據平臺的需求 , 具備支撐關鍵行業核心業務數據平臺的能力 。
在Hologres實例的云原生調度和運維體系建設上 , 團隊也聯合阿里云云原生等團隊 , 解決了在超大規模集群;在運維能力建設上 , 團隊通過自動化、智能化的運維體系建設 , 解決了實例部署和穩定性保障的問題 。
一 超大規模部署面臨的挑戰 隨著互聯網的發展 , 數據量出現了指數型的增長 , 單機的數據庫已經不能滿足業務的需求 。 特別是在分析領域 , 一個查詢就可能需要處理很大一部分甚至全量數據 , 海量數據帶來的壓力變得尤為迫切 。 同時 , 隨著企業數字化轉型進程的加速 , 數據的時效性變得越來越重要 , 如何利用數據更好的賦能業務成為企業數字化轉型的關鍵 。
大數據實時數倉場景相比數據庫的規模往往是成倍增加:數據量增加(TB級、PB級甚至是EB級)、數據處理的復雜度更高、性能要更快、服務和分析要同時滿足等等 。
而使用過開源OLAP系統的用戶 , 尤其是通過開源OLAP自建集群的用戶 , 都有一些比較深刻的體會 , 就是部署和運維困難 , 包括ClickHouse、Druid等 , 都面臨了如下難題:
如何滿足集群的快速交付和彈性伸縮 如何定義服務的可用性指標和SLA體系 存儲計算一體 , 機型選擇和容量規劃困難 監控能力弱 , 故障恢復慢 , 自愈能力缺失 同時 , 隨著規模的增加 , 規模優勢和高性能吞吐下的壓力 , 實時數倉的部署和運維難度呈指數級增加 , 系統面臨了諸多調度、部署和運維上的各種挑戰:
如何解決調度能力滿足在單集群萬臺規模下服務實例的秒級拉起和彈性伸縮能力的要求; 如何解決大規模集群自身的容量規劃、穩定性保障、機器自愈 , 提升相關的運維效率; 如何實現實例和集群的監控時效和準確性的雙重要求 , 包括怎么在分鐘內完成問題發現和分鐘級的問題解決 得益于阿里云強大的云原生基礎服務研發能力 , 實時數倉Hologres通過優秀的架構設計和阿里云大數據智能運維中臺的能力等多個核心能力的建設 , 解決這些挑戰 , 為用戶提供了一個性能強大、擴展能力優秀、高可靠、免運維的實時數倉產品 。
本文將會從超大規模部署與運維體系建設出發 , 分析超大規模實時數倉面臨的挑戰和針對性的設計及解決方案 , 實現在高負載高吞吐的同時支持高性能 , 并做到生產級別的高可用 。
二 基于云原生的大規模調度架構設計 隨著云技術的興起 , 原來越多的系統剛開始利用Kubernetes作為容器應用集群化管理系統 , 為容器化應用提供了自動化的資源調度 , 容器部署 , 動態擴容、滾動升級、負載均衡 , 服務發現等功能 。

相關經驗推薦