國(guó)家超級(jí)計(jì)算天津中心黨組成員、總工程師馮景華:基于自主算力的產(chǎn)業(yè)賦能經(jīng)驗(yàn)分享

泰達(dá)汽車(chē)論壇2024-08-31
38760

由中國(guó)汽車(chē)技術(shù)研究中心有限公司、中國(guó)汽車(chē)工程學(xué)會(huì)、中國(guó)汽車(chē)工業(yè)協(xié)會(huì)、中國(guó)汽車(chē)報(bào)社共同主辦,天津經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)管理委員會(huì)特別支持,日本汽車(chē)工業(yè)協(xié)會(huì)、德國(guó)汽車(chē)工業(yè)協(xié)會(huì)、中國(guó)汽車(chē)動(dòng)力電池產(chǎn)業(yè)創(chuàng)新聯(lián)盟、新能源汽車(chē)國(guó)家大數(shù)據(jù)聯(lián)盟聯(lián)合協(xié)辦的第二十屆中國(guó)汽車(chē)產(chǎn)業(yè)發(fā)展(泰達(dá))國(guó)際論壇(以下簡(jiǎn)稱(chēng)“泰達(dá)汽車(chē)論壇”)于2024年8月29日至9月1日在天津?yàn)I海新區(qū)舉辦。本屆論壇以“風(fēng)雨同舟二十載 攜手并肩向未來(lái)”為年度主題,邀請(qǐng)重磅嘉賓展開(kāi)深入研討。

在8月30日“生態(tài)專(zhuān)場(chǎng)二:加速云計(jì)算與數(shù)字技術(shù)應(yīng)用,推動(dòng)新質(zhì)型產(chǎn)業(yè)發(fā)展”中,國(guó)家超級(jí)計(jì)算天津中心黨組成員、總工程師,天津市天河計(jì)算機(jī)技術(shù)有限公司執(zhí)行董事、總經(jīng)理馮景華發(fā)表了題為“基于自主算力的產(chǎn)業(yè)賦能經(jīng)驗(yàn)分享”的演講。

1馮景華.jpg

國(guó)家超級(jí)計(jì)算天津中心黨組成員、總工程師,天津市天河計(jì)算機(jī)技術(shù)有限公司執(zhí)行董事、總經(jīng)理  馮景華

以下為演講實(shí)錄:

對(duì)于算力國(guó)家是有明確定義的。對(duì)于算力的引導(dǎo)性,比如要建什么樣的算力,如何做通用計(jì)算、超計(jì)算和智能計(jì)算的合理梯次布局,最新發(fā)布的文件中“一體化算力網(wǎng)”建設(shè)涵蓋了通用計(jì)算、智能計(jì)算、超級(jí)計(jì)算的融合算力中心。

從個(gè)人視角看,或者是從學(xué)術(shù)的視角看,其實(shí)并不太過(guò)分區(qū)分超算和智算的區(qū)別。超算和智算的區(qū)別在哪兒,從個(gè)人視角看,核心區(qū)別在于算力精度,因?yàn)槌阃ǔJ怯肔P64雙精度的計(jì)算能力來(lái)表達(dá)科學(xué)計(jì)算的精度問(wèn)題,智算通常是LP16的能力。但是,其實(shí)客觀(guān)講,建一個(gè)超算中心,或者建一個(gè)智算中心,天津超算不太區(qū)分這個(gè),因?yàn)槌愫椭撬愣际峭瑯拥乃懔Γ椰F(xiàn)在融合算力發(fā)展趨勢(shì)也非常明顯,很多應(yīng)用比如說(shuō)傳統(tǒng)氣象的科技計(jì)算應(yīng)用是非常傳統(tǒng)的,做氣候氣象、氣候預(yù)報(bào)的,做臨時(shí)、短時(shí)、中長(zhǎng)期的預(yù)報(bào),現(xiàn)在很多也要介入人工智能,APC+AI,而且現(xiàn)在有很多科學(xué)研究是用AI for Science,用AI來(lái)解決Science求解工作量大的問(wèn)題,所以是不太區(qū)分的。比如說(shuō)美國(guó)的算力中心大部分都叫超級(jí)計(jì)算機(jī)。因?yàn)槊绹?guó)以英偉達(dá)為代表的單位,生產(chǎn)的GPU是帶著LP64和LP16的能力,所以GPU既可以用科技計(jì)算,也可以用于智能計(jì)算。但是我們國(guó)內(nèi)的某些芯片設(shè)計(jì)中只有LP16,沒(méi)有雙精度。大家可以看到,像英偉達(dá)的比如說(shuō)H100系列,就是雙精度計(jì)算能力和網(wǎng)絡(luò)帶寬。但是從芯片的底層結(jié)構(gòu)講,其實(shí)個(gè)人不太區(qū)分超算和智算,因?yàn)樯蠈討?yīng)用需求是多樣性的,不同的應(yīng)用領(lǐng)域、行業(yè)需求需要超算和智算,國(guó)家層面也是建立涵蓋超算、智算的通用融合算力中心,并沒(méi)有強(qiáng)調(diào)一定要建智算或者是超算。

國(guó)家關(guān)于算力作用非常明確,主要有四個(gè)方向作用,即助推產(chǎn)業(yè)升級(jí)、賦能科技創(chuàng)新、滿(mǎn)足人民美好生活和實(shí)現(xiàn)高效社會(huì)治理。在跟很多單位合作的時(shí)候,這是基本的認(rèn)知,算力是一定會(huì)產(chǎn)生價(jià)值的。對(duì)算力的投入,投入多少錢(qián)會(huì)有多少數(shù)字經(jīng)濟(jì)的產(chǎn)出,雖然這個(gè)比例值不太一樣,但是大多數(shù)都是明確的,算力投入一定會(huì)帶動(dòng)數(shù)字經(jīng)濟(jì),因?yàn)樗懔Ρ旧砭褪且粋€(gè)數(shù)字產(chǎn)業(yè)化的過(guò)程,會(huì)推動(dòng)產(chǎn)業(yè)數(shù)字化的發(fā)展。從算力中心的角度,確實(shí)要兼顧這四個(gè)方面的作用,至少要兼顧其中一兩個(gè)方面,不是單純的建一個(gè)算力中心出去給用戶(hù)。

從2010年一直到現(xiàn)在,天河一號(hào)到現(xiàn)在也是世界領(lǐng)先的結(jié)構(gòu),基本上采用世界領(lǐng)先的“異構(gòu)體系結(jié)構(gòu)”融合的算力模式,由基礎(chǔ)設(shè)施、計(jì)算處理、互聯(lián)通信、并行存儲(chǔ)等硬件組成,軟件包括服務(wù)環(huán)境、運(yùn)行庫(kù)、應(yīng)用環(huán)境和管理服務(wù)平臺(tái)等。而且,全部使用的國(guó)產(chǎn)芯片。也實(shí)現(xiàn)了云、超算、智算的融合,當(dāng)然它有自己配套的運(yùn)營(yíng)管理、算力服務(wù)、資源調(diào)度、人工智能開(kāi)發(fā)平臺(tái)、綜合一體化平臺(tái)等等這些。以芯片為例,可以看到MT-3000芯片的性能指標(biāo),由通用儲(chǔ)蓄盒和加速處理單元組成的。國(guó)產(chǎn)的GPU芯片不是類(lèi)似的結(jié)構(gòu),但也包括通用處理單元和協(xié)助單元還有GSM全局共享存儲(chǔ)單元等。從體系結(jié)構(gòu)就能夠看出來(lái)它很復(fù)雜,所以調(diào)動(dòng)應(yīng)用的時(shí)候絕不像CPU這樣簡(jiǎn)單,CPU是同構(gòu)的,所有芯片都是一樣的,訪(fǎng)存也是一樣的,訪(fǎng)存要走來(lái)走去,要從加速處理單元到通用處理單元,內(nèi)存之間包括編制空間也不一樣,這些都很復(fù)雜,所以寫(xiě)代碼的時(shí)候需要對(duì)核心代碼重寫(xiě),所以面臨很大挑戰(zhàn)性。當(dāng)然,寬向量體系解決的一個(gè)問(wèn)題,為了發(fā)揮性能指標(biāo),要有實(shí)現(xiàn)更大的計(jì)算能力,同時(shí)要實(shí)現(xiàn)自動(dòng)變優(yōu)化,能夠讓程序少寫(xiě)一點(diǎn),少改一點(diǎn),同時(shí)能兼顧一些性能的提升。還有一些異構(gòu)編程接口,像GPU里面有統(tǒng)一的聯(lián)盟OpenCL,就是做GPU之間的接口,所以實(shí)現(xiàn)所謂NMB、英偉達(dá)等等生態(tài)的兼容,但是這種兼容一定會(huì)帶來(lái)性能損失,這是正常的魚(yú)和熊掌很難兼得。了解底層邏輯,代碼寫(xiě)起來(lái)就很復(fù)雜,如果你不想了解底層邏輯,用接口編輯的時(shí)候就會(huì)帶來(lái)性能的損失,因?yàn)椴煌木幹瓶臻g、不同的方式,計(jì)算方法不一樣。甚至一個(gè)簡(jiǎn)單的矩陣乘法,行列的排列方式都會(huì)帶來(lái)效率的不一樣。

基于國(guó)產(chǎn)算力的,面向汽車(chē)領(lǐng)域很多場(chǎng)景下的應(yīng)用,三個(gè)層次問(wèn)題是要解決的:

一是底層庫(kù)。像常用的人工智能的基本算子、科學(xué)計(jì)算的ILP庫(kù)等等這些基礎(chǔ)庫(kù),是沒(méi)有辦法通過(guò)優(yōu)化,甚至要用到底層匯編,才能發(fā)揮極致性能。在這種情況下,大家就可以用庫(kù)來(lái)提升應(yīng)用,應(yīng)用甚至都不用重寫(xiě),通過(guò)庫(kù)就可以達(dá)到質(zhì)的提升,即使無(wú)法發(fā)揮100%,能發(fā)揮30%、40%,也是質(zhì)的提升。

二是典型應(yīng)用的移植和優(yōu)化。面向汽車(chē)產(chǎn)業(yè)的很多應(yīng)用,沒(méi)有編制,沒(méi)法移植,只能基于自己的工業(yè)軟件做移植。這個(gè)移植和優(yōu)化功能也是一個(gè)很大的工作量要做的,基本上一個(gè)軟件,10萬(wàn)行左右代碼的軟件基本上需要5至6個(gè)人半年的時(shí)間,這個(gè)工作量是很大的,要調(diào)優(yōu),要移植、優(yōu)化。

三是整合平臺(tái)。從用戶(hù)層面角度其實(shí)不太關(guān)心底層邏輯,甚至都不關(guān)心底層用的什么芯片,重要的是我的應(yīng)用要能夠跑起來(lái)。就像汽車(chē)上的應(yīng)用,應(yīng)用到底用在什么樣的芯片用戶(hù)是不關(guān)心的,用戶(hù)關(guān)心的是這個(gè)應(yīng)用跑的好不好、快不快。要把這個(gè)應(yīng)用移植好以后放在平臺(tái)上,通過(guò)平臺(tái)調(diào)度,打好底層的接口,上層不感知,讓用戶(hù)用起來(lái)更簡(jiǎn)單。

如果選擇了國(guó)產(chǎn)的算力芯片,基本上這三層都是要面臨的,不管是做工業(yè)軟件還是做智能網(wǎng)聯(lián)車(chē),還是做其他的,都是要解決的問(wèn)題。

舉幾個(gè)例子。比如做智算,從整個(gè)框架從頭開(kāi)始寫(xiě),對(duì)于模型的、推理的,包括FFT、ftmDNN庫(kù)、訓(xùn)練庫(kù),包括適配相應(yīng)的算子庫(kù)、設(shè)備庫(kù)、通信庫(kù)等等,我們做了一個(gè)3D的渲染框架,是開(kāi)源的,網(wǎng)上能查到,支持GPU版本,支持外創(chuàng)版本,也可以實(shí)現(xiàn)大規(guī)模智能化運(yùn)營(yíng)開(kāi)發(fā)訓(xùn)練,3D的并行訓(xùn)練,其實(shí)工作量還是很大的。實(shí)現(xiàn)了可編程性和效率,提高可編程性還兼顧效率,肯定不能說(shuō)既提高可編程性又達(dá)到極致的效率,但是我們?cè)谧鰢L試,讓它既好用又能夠更快。比如做顯示屏的軟件,這個(gè)是完全自主的,每一行代碼都是自己寫(xiě)的,從后處理的算法到前端的展示到整個(gè)應(yīng)用等,入選了科創(chuàng)中國(guó)的先導(dǎo)技術(shù)榜,也有很多專(zhuān)利。這個(gè)基本上能夠?qū)?biāo)國(guó)外的,是用來(lái)做顯示動(dòng)力學(xué)的爆炸、毀傷、沖撞、碰撞等結(jié)構(gòu)的力學(xué)軟件,比如說(shuō)像航空發(fā)動(dòng)機(jī)攝入無(wú)人機(jī)以后是什么狀態(tài),太空碎片撞擊衛(wèi)星會(huì)怎么樣,比如說(shuō)一個(gè)子彈或者是導(dǎo)彈射到一個(gè)墻體上,甚至還有飛機(jī)庫(kù)等。

汽車(chē)?yán)镆灿蓄?lèi)似結(jié)構(gòu)的應(yīng)用,這是我們做的顯示動(dòng)力學(xué)的基本軟件。這個(gè)很難,行業(yè)里面也有很多汽車(chē)的單位參與CAE聯(lián)盟,它里面講到專(zhuān)家們有一個(gè)共識(shí)的觀(guān)點(diǎn),工業(yè)軟件的差距遠(yuǎn)遠(yuǎn)超過(guò)芯片,芯片現(xiàn)在說(shuō)3至5年,但是工業(yè)軟件差距還是比較大,還有很大的工作量,但是這兩年國(guó)家花了很大的力氣,給了很大的支持在做工業(yè)軟件。

基于自主芯片做的智能的大模型,生成式的智能,包括云的開(kāi)發(fā),在海關(guān)、政務(wù)、醫(yī)療領(lǐng)域,汽車(chē)還沒(méi)用,其實(shí)可以做很多深入的工作,這里面有很多工作量。好處是完全基于國(guó)產(chǎn)芯片去適配。在汽車(chē)產(chǎn)業(yè)領(lǐng)域其實(shí)主要是目前做的比較成熟的是仿真研發(fā)相關(guān)的工作,也有一體化的平臺(tái),從應(yīng)用的底層、數(shù)據(jù)(包括行業(yè)的材料數(shù)據(jù)、模型數(shù)據(jù)、測(cè)試數(shù)據(jù))、商業(yè)軟件,還有自主國(guó)產(chǎn)的軟件,整合在一起,其實(shí)就是數(shù)據(jù)和軟件的整合,給上層應(yīng)用做服務(wù),把我們的應(yīng)用層里面的開(kāi)發(fā)工具,包括機(jī)器學(xué)習(xí)和測(cè)評(píng)、優(yōu)化的方式和方法、流程整合在一起,再加上項(xiàng)目管理能力,實(shí)現(xiàn)業(yè)務(wù)邏輯,從產(chǎn)品需求到方案設(shè)計(jì),從性能目標(biāo)到仿真自動(dòng)化。這個(gè)過(guò)程也是讓項(xiàng)目經(jīng)理、測(cè)試工程師、仿真工程師、設(shè)計(jì)工程師全程參與其中,共同完成一個(gè)項(xiàng)目,共同推進(jìn)一個(gè)成果的落地,例如研發(fā)成果、做新產(chǎn)品、新工業(yè)優(yōu)化等。這是我們做的從底層到管理、項(xiàng)目協(xié)同,實(shí)現(xiàn)了整個(gè)項(xiàng)目的管理,項(xiàng)目里可以列進(jìn)度和進(jìn)展計(jì)劃、人物權(quán)限,來(lái)保證項(xiàng)目的安全性等等,包括執(zhí)行的流程性,包括數(shù)據(jù)管理、材料管理、性能管理,知識(shí)庫(kù)的一些基本管理。

底層的支持依賴(lài)于軟硬件的資源,包括資源管理、資源分配、資源調(diào)度、求解器等,整合在一起就是汽車(chē)產(chǎn)業(yè)領(lǐng)域的服務(wù)。比如說(shuō)我們做電池的、做模具的、做整車(chē)的、做系統(tǒng)分析的,包括數(shù)值風(fēng)洞等等。舉幾個(gè)典型的例子,比如做汽車(chē)性能大規(guī)模的仿真分析,超低風(fēng)阻數(shù)字化的開(kāi)發(fā),還有復(fù)雜環(huán)境的性能仿真,還有多工況、多方案的安全性能的開(kāi)發(fā)和尋優(yōu),還有批量計(jì)算作業(yè)的提交,可以針對(duì)一個(gè)項(xiàng)目,批量提交計(jì)算任務(wù),然后得到結(jié)果,然后盡快地反饋?lái)?xiàng)目基本完成的情況。

風(fēng)洞基本上實(shí)現(xiàn)了國(guó)產(chǎn)化替代,從算力芯片、底層算力資源到軟件數(shù)值風(fēng)洞CFD軟件,都實(shí)現(xiàn)了比傳統(tǒng)商用的并發(fā)處理難以滿(mǎn)足數(shù)值風(fēng)洞的快速計(jì)算需求的情況下,實(shí)現(xiàn)了CFD計(jì)算結(jié)果和數(shù)值風(fēng)洞測(cè)試結(jié)果進(jìn)行對(duì)標(biāo),是國(guó)產(chǎn)軟件、國(guó)產(chǎn)芯片或者國(guó)產(chǎn)的算力系統(tǒng)支持做的。我們做的仿真一體化平臺(tái),從算力資源到應(yīng)用,甚至后面的人工智能的工作,都在推進(jìn)的過(guò)程中。

以上是把我們?cè)谄?chē)產(chǎn)業(yè)能做的工作給大家分享,如果有興趣可以再進(jìn)一步溝通,謝謝!

責(zé)任編輯:王思思
后發(fā)表評(píng)論
信息咨詢(xún)
請(qǐng)輸入11位手機(jī)號(hào)

×
登錄
注冊(cè)
忘記密碼