解決方案
運用科技進行整合性創新
恒聯云容器平臺

· 云容器平臺使用主流容器編排工具kubernetes搭建容器集群,并提供RBAC控制,容器及服務的生命周期管理和資源分配;

· 定制化的應用商店由Helm提供,可為多用戶提供公開或用戶定制的應用快速部署;

· 制化的私有容器鏡像倉庫由Harbor提供,可為多用戶提供研究用戶的容器鏡像;

· 監控及日志分析由Prometheus和ELK提供,可實時監控平臺內服務器、虛擬機、容器的使用情況;

· 方便結合CI/CD工具,如Jenkins。提供原廠CI/CD工具Rancher pipline;

· 提供GPU sharing。

DGX加速的數據中心
DGX系統支持NVIDIA的AI軟件,包括為DGX優化的操作系統(OS dgx),集群管理和業務流程工具,可在NGC平臺上下載的庫和深度學習框架(為DGX系統優化)。
圖1
圖2
推薦說明:
NVIDIA推薦的AI軟件棧建立在針對DGX硬件系統優化的OS系統,ubuntu操作系統上,包括認證的GPU驅動,網絡應用組合,預設的NFS服務器配置,NVIDIA數據中心GPU管理工具(DCGM),支持GPU的docker容器,NVIDIA CUDA® SDK, cuDNN, NCCL和其他NVIDIA加速庫,以及NVLINK/NVswitch技術。

用戶可自行部署推薦的DGX系統管理應用平臺來管理DGX系統,該管理應用平臺也支持其他服務器。該平臺是由多個運行在容器中的不同服務組件組成,示意圖2。
·該管理平臺利用DHCP和PXE技術實現DGX OS的網絡遠程安裝;
·Ansible可以遠程實現分發應用和庫;
·可以 使用kubernetes對容器實例進行管理;
·可使用SLURM對DGX系統提交用戶的作業任務,并實現作業任務的調度;
·推薦使用Prometheus為DGX系統做監控;
·推薦使用Grafana作為數據可視化工具;
·支持資源計費。
產品功能
恒聯提供豐富的產品功能為用戶解決問題
海量數據存儲管理
Massive data storage management
通過分布式文件系統,可將海量各類原始數據、結果數據進行快速存儲,并通過自帶副本機制,完成對數據的多份備份。
靈活多樣數據處理引擎
Flexible data processing engine
通過批量計算、內存計算框架、流式計算框架、多維數據分析計算、圖計算等多種技術支持多種應用,計算引擎實現“術業有專攻”。
海量數據快速查詢
Massive data quick query
通過低成本的硬件提供高性能的數據加載、索引和查詢,具備對海量數據快速查詢響應能力。
優化的分布式數據庫
Optimized distributed database
面向結構化數據分析設計開發的,經過優化的MPP查詢引擎,能夠有效處理PB級別的數據量;性能超群TB數據秒級返回。
數據遷移
data migration
支持關系型數據庫、大數據(OLAP)等數據源間的數據遷移。致力海量數據遷移需求下,解決遠距離、毫秒級異步數據傳輸難題;同時數據遷移輕松構建安全、可擴展、高可用的數據傳輸架構。
系統高可用性
System high availability
結合各類分布式軟件架構特性,通過引入HA熱備方式,進一步提升系統的高可靠和高可用性。
系統運維監控
System operation and maintenance monitor
系統運維監控中心提供產品套件的快速安裝部署、集群性能監控、組件服務管理、系統告警分析、主機管理、版本管理、日志管理等計算平臺運維監控服務。通過統一的圖形化界面實現對大數據平臺運行服務狀況的實時監控和管理,實現運維的健康化、自動化、智能化,大大降低了人力成本的投入。
資源統一調配管理
Unified resource management
通過統一的資源調度技術,可實現底層硬件資源的共享。將共享的各類計算資源根據需要劃分為多個邏輯運行單元,按需動態分配給不同負載的應用,實現一個集群支撐多套不同的應用運行,在提升集群設備資源利用率的同時,降低日常運維工作量。
數據資產
Data asset
基于元數據、主數據等重要元素,構建數據資產管理平臺,實現數據資產定義、可視化等管理能力,數據安全提供數據訪問權限管理、隱私策略管理、數據加解密,依托大數據平臺實現數據全生命周期的管理,支持以價值挖掘為導向的數據應用開發。
任務調度
Task scheduling
擁有先進可靠的自動化任務管理調度功能,提供可操作的 web 圖形化管理滿足多種場景下各種復雜的定時任務、Cron 任務調度和任務執行生命周期管理。有較好的伸縮性和擴展性,提供業務日志記錄器。支持節點監控、任務執行監控,支持暫停/恢復任務,以及終止運行中任務,支持在線配置調度任務入參和在線查看調度結果。提供海量任務的情況下,嚴格精確定時觸發任務服務。
QQ
返回頂部