qGPU on TKE騰訊云發(fā)布下一代GPU容器共享技術(shù),阿里gpu云TKE騰訊云上的QGPU發(fā)布下一代GPU容器共享技術(shù)背景QGPU是騰訊云推出的GPU共享技術(shù)。支持多個容器間共享GPU卡,并提供容器間內(nèi)存和計算能力隔離的能力,從而保證使用粒度更小的GPU卡的基礎(chǔ)上的業(yè)務(wù)安全,達(dá)到提高GPU利用率,降低客戶成本的目的......
背景
QGPU是騰訊云推出的GPU共享技術(shù)。支持多個容器間共享GPU卡,并提供容器間內(nèi)存和計算能力隔離的能力,從而保證使用粒度更小的GPU卡的基礎(chǔ)上的業(yè)務(wù)安全,達(dá)到提高GPU利用率,降低客戶成本的目的。
TKE上的QGPU依托騰訊云TKE開源的Nano GPU調(diào)度框架[1],可以實現(xiàn)GPU計算能力和顯存的細(xì)粒度調(diào)度,支持多容器共享GPU和多容器跨GPU資源分配。同時,依托底層強(qiáng)大的qGPU隔離技術(shù),可以將GPU的顯存和計算能力進(jìn)行強(qiáng)隔離。在通過共享使用GPU的同時,盡可能保證業(yè)務(wù)性能和資源不受干擾。
功能優(yōu)勢
qGPU方案通過更有效地調(diào)度NVIDIA GPU卡上的任務(wù),達(dá)到在多個容器之間共享和使用的目的。支持的功能如下:
靈活性:用戶可以自由配置GPU的顯存大小和計算能力比例。
云原生:支持標(biāo)準(zhǔn)Kubernetes,兼容NVIDIA Docker解決方案。
兼容性:不修改鏡像/不替換CUDA庫/不編譯業(yè)務(wù),易于部署,業(yè)務(wù)無感知。
高性能:底層操作GPU設(shè)備,高效收斂,吞吐量接近零損耗
強(qiáng)隔離:支持顯存和計算能力嚴(yán)格隔離,業(yè)務(wù)共享不受影響。
技術(shù)架構(gòu)
TKE上的QGPU采用Nano GPU調(diào)度框架,通過Kubernetes擴(kuò)展調(diào)度機(jī)制,同時支持GPU計算能力和內(nèi)存資源調(diào)度。并且依托Nano GPU的容器定位機(jī)制,支持精細(xì)化GPU卡調(diào)度、多容器GPU卡共享分配和多容器GPU跨卡分配。
QGPU直接利用NVIDIA GPU的底層硬件特性進(jìn)行調(diào)度,實現(xiàn)了細(xì)粒度的計算能力隔離,打破了傳統(tǒng)CUDA API劫持方案只能使用CUDA內(nèi)核進(jìn)行計算能力隔離的限制,提供了更好的QoS保障。
客戶收入
1.多任務(wù)靈活共享GPU,提高利用率
2.GPU資源被強(qiáng)隔離,業(yè)務(wù)共享不受影響。
3.完全面向Kubernetes,商業(yè)使用零成本
未來規(guī)劃
1.支持細(xì)粒度的資源監(jiān)控:TKE上的qGPU將支持Pod和容器級GPU使用情況的收集,從而實現(xiàn)更細(xì)粒度的資源監(jiān)控和與GPU靈活性的集成。
2.支持線下混合:TKE上的qGPU將支持線上業(yè)務(wù)和線下業(yè)務(wù)的高低優(yōu)先級混合,最大化GPU利用率。
3.支持qGPU計算能力池化:基于qGPU的GPU計算能力池化可以解耦CPU、內(nèi)存資源和異構(gòu)計算資源。
參考數(shù)據(jù)
[1]Nano GPU調(diào)度框架:[https://github.com/nanogpu]
特別聲明:以上文章內(nèi)容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機(jī)入駐更便捷
返回頂部