在12月13日召開(kāi)的第二屆數據安全治理年會(huì )上,中國工程院院士鄭緯民表示,我國人工智能基礎設施亟待優(yōu)化,應從軟硬件兩方面突破瓶頸。
我國人工智能產(chǎn)業(yè)面臨軟硬件兩方面瓶頸
在會(huì )上,鄭緯民提出了算力“三大定律”:人類(lèi)已經(jīng)進(jìn)入以算力為核心生產(chǎn)力的數字經(jīng)濟時(shí)代,算力就是生產(chǎn)力,這是“時(shí)代定律”;當下,算力每12個(gè)月就增長(cháng)一倍,算力資源增速顯著(zhù),已經(jīng)打破摩爾定律,這是“增長(cháng)定律”;算力每投入1元,就帶動(dòng)3~4元GDP經(jīng)濟增長(cháng),這是“經(jīng)濟定律”。
近年來(lái),我國人工智能產(chǎn)業(yè)發(fā)展呈指數級增長(cháng)。鄭緯民表示,預計到2025年,中國人工智能產(chǎn)業(yè)規模將超過(guò)4500億元,帶動(dòng)產(chǎn)生間接經(jīng)濟效益超1.6萬(wàn)億元。
鄭緯民直言,我國人工智能產(chǎn)業(yè)正面臨著(zhù)軟件、硬件兩方面的瓶頸。
從硬件角度看,一方面,我國國產(chǎn)芯片產(chǎn)量不足。鄭緯民表示,2021年,我國人工智能服務(wù)器芯片總用量100萬(wàn)片,其中,美國英偉達市場(chǎng)份額高達95%左右。
從軟件角度看,我國在算法等技術(shù)方面發(fā)展仍然有所欠缺,當前,谷歌和Meta的人工智能算法開(kāi)發(fā)框架占中國人工智能市場(chǎng)份額的90%以上。
鄭緯民坦言,要解決當下面臨的問(wèn)題,一是營(yíng)造完善的人工智能服務(wù)器硬件生態(tài),二是優(yōu)化人工智能大模型基礎設施架構。
“4個(gè)平衡”優(yōu)化大模型基礎設施
鄭緯民強調,在設計大模型基礎設施時(shí),要思考“4個(gè)平衡”的優(yōu)化問(wèn)題。
一是半精度運算性能與雙精度運算性能的平衡設計。在計算機系統的內存中,半精度、單精度和雙精度是決定數據計算精確度的度量標準,雙精度比半精度更精密,但同時(shí)要占據更多存儲空間。鄭緯民提出,大模型設計中不僅要考慮16位的半精度運算性能,還要考慮支持64位的雙精度運算。他表示,最優(yōu)的雙精度與半精度運算性能比為1:100。
二是網(wǎng)絡(luò )平衡設計。鄭緯民指出,在網(wǎng)絡(luò )設計方面,高帶寬、低延遲的網(wǎng)絡(luò )是極大規模預訓練模型運行的必要條件。“在訓練過(guò)程中,我們采用數據并行、模型并行和專(zhuān)家并行三種不同的并行方式,但這三種方式對互聯(lián)有不同的要求。”鄭緯民表示,“只有把通信做好,大模型才能順暢跑通。”
三是體系結構感知的內存平衡設計。通俗而言,大模型在訓練過(guò)程中使用的大量數據會(huì )產(chǎn)生大量的內存訪(fǎng)問(wèn)請求;對內存平衡的優(yōu)化,目的是提升模型訪(fǎng)存性能,從而提高模型訓練效率。
四是輸入輸出子系統平衡設計。鄭緯民指出,機器在執行大規模訓練任務(wù)時(shí),發(fā)生硬件、軟件錯誤在所難免。針對這樣的情況,容錯檢查點(diǎn)成為了大模型訓練中的一道“保險閘”。容錯檢查點(diǎn)設置不足,會(huì )導致模型訓練效率降低;檢查設置過(guò)于頻繁,則會(huì )浪費大量時(shí)間和存儲空間。因此,優(yōu)化檢查點(diǎn)存儲在大模型訓練中的重要性不言而喻。
“以上四點(diǎn)平衡的問(wèn)題得到解決,AI大模型將實(shí)現快速發(fā)展。”鄭緯民總結道。
(來(lái)源:中國電子報)