在美國,exascale(百億億次)高性能計算系統(tǒng)的第一步始于2007年的一系列專題研討。直到15年后,橡樹嶺國家實驗室才真正上線1686 petaflops的“Frontier”系統(tǒng)。今年,阿貢國家實驗室正準備為“Aurora”啟動上線儀式,這將是美國第二或第三臺百億億級超算設備——究竟位次如何,還要看勞倫斯利弗莫爾國家實驗室的“El Capitan”何時通電。
這些百億億級超算的誕生之路充滿了延誤和挫折,期間還遭遇過技術(shù)變革、中國的競爭壓力及其他挑戰(zhàn)。阿貢國家實驗室環(huán)境與生命科學計算實驗室副主任Rick Stevens則表示,更進一步的zettascale、甚至是量子計算目標可能落地更慢,二者很可能都需要15到20年、甚至是更加漫長的開發(fā)周期。
而這,正是高性能計算的本質(zhì)所在。
(資料圖)
Stevens在最近一場網(wǎng)絡研討會會上這樣描述HPC計算的近期和遠期發(fā)展態(tài)勢,“這將是一場持久戰(zhàn)。如果大家只關(guān)注明年會發(fā)生什么,那HPC明顯不適合你。如果你想著眼于10年甚至20年的中長周期,那HPC才是最佳選擇。至于向著其他恒星系探索,那就是超遠期的千年大計了??傊覀兡壳安艅倓偲鸩?,之前還能沿著摩爾定律前進,但現(xiàn)在最重要的問題是思考10年后的高性能計算會是什么樣子?20年后呢?可能到時候情況已經(jīng)完全不同的,我們當下就需要做好準備?!?
Stevens此次演講的主題在于AI。不只是HPC應用程序和研究工作能夠從AI技術(shù)中受益2,AI管理的模擬與智能體、專用AI加速器乃至AI在大型系統(tǒng)開發(fā)中的作用都有巨大的想象空間。他指出,2019年至2022年間既是COVID-19突然爆發(fā)的危機時刻,也是AI大事頻發(fā)的歷史性階段。
隨著大語言模型(廣受歡迎的ChatGPT及其他生成式AI聊天機器人都以此為基礎)和Stable Diffusion文本到圖像深度學習的起飛,AI技術(shù)已經(jīng)被納入蛋白質(zhì)結(jié)構(gòu)預測、開放式數(shù)學問題和各類HPC開發(fā)場景。也正是在此期間,百億億次超算系統(tǒng)開始真正落地。
Stevens表示,“越來越多的機構(gòu)開始構(gòu)建自己的大語言模型,這波爆發(fā)式增長仍在繼續(xù),而且?guī)缀跛心P投技性谒綘I部門。其中只有少數(shù)是由非營利性組織完成的,且以GPT-4為代表的最強模型大多采取閉源模式。由此可見,AI模型的發(fā)展趨勢并未走向種類繁多的小體量模型,而是數(shù)量有限的超大模型。這也是當前階段內(nèi)最重要的元事件?!?
所有這一切——模擬與智能體、新興AI應用和AI用例——都將在未來幾年內(nèi)消耗更多算力。伊利諾伊州的阿貢國家實驗室的領(lǐng)導級計算設施(ALCF)項目考慮的正是這個問題,規(guī)劃Aurora及之后的超算設計方向。Stevens和他的同事們正在構(gòu)想一套比Aurora強大8倍以上的系統(tǒng),征求建議書將于2024年秋季發(fā)布,實際裝機計劃在2028年或2029年?!皩τ跈C器學習這類低精度運算需求,這套系統(tǒng)預計將擁有近0.5 zettaflop,相當于當前系統(tǒng)的2到3倍?!?
目前一大關(guān)鍵挑戰(zhàn),就是此類系統(tǒng)到底要搭載怎樣的加速器。究竟是現(xiàn)有通用GPU的后續(xù)版本(針對AI模擬用例提供增強支持),還是面向AI優(yōu)化的其他全新引擎?
“這是最根本的問題。我們知道模擬將繼續(xù)發(fā)揮重要作用,也需要性能和精度更上一層樓的技術(shù)規(guī)范,但這項技術(shù)在AI中到底占比多少仍沒有明確的答案。世界各國都在考慮下一代超算系統(tǒng)要如何權(quán)衡,特別是要以怎樣的態(tài)度側(cè)重于AI市場或AI應用基礎?!?
ALCF使用來自Cerebras Systems、SambaNova Systems、GraphCOre、英特爾Habana Labs和Groq的系統(tǒng)構(gòu)建起AI測試環(huán)境,其中將采用專為AI工作負載設計的加速器,探索這些技術(shù)能否快速發(fā)展成熟并作為大規(guī)模超算系統(tǒng)的基礎,以更高效率運行HPC機器學習應用。
“問題在于,通用GPU在未來的用例下能否提供充足的性能支持并與CPU緊密耦合,證明其仍然是正確的解決方案?;蛘哒f,未來會很快出現(xiàn)其他更好的替代方案?!逼渲卸嘧鈶糁С挚赡艹蔀榕袛嗟年P(guān)鍵?!叭绻程滓嬲褂霉?jié)點內(nèi)的一個子集,那要如何同時支持子集內(nèi)的其他應用?如何使用補充資源支持節(jié)點上應用程序的具體占用?這類需求中仍有很多懸而未決的現(xiàn)實挑戰(zhàn)。”
目前值得考量的幾個現(xiàn)實問題:
此外,新的大系統(tǒng)該如何構(gòu)建也是件麻煩事。一般來講,新的技術(shù)浪潮(例如冷卻或供電系統(tǒng)的變化)要求對整個基礎設施做出重大升級。Stevens表示,更加模塊化的設計理念(即更換組件但保留系統(tǒng)的整體架構(gòu))當然更具意義。系統(tǒng)內(nèi)的模塊可能比目前的節(jié)點還更大,能夠定期更換且無需升級整個基礎設施。
“我們要構(gòu)想一個包含供電、冷卻,也許還有無源光學器件的基礎設施,之后就是可以頻繁更換的模塊,它們要具備簡單接口來跟晶圓廠的制程節(jié)點對齊。另外還有電源連接器、光學連接器和冷卻連接器。我們正在認真與供應商開展討論,考慮如何開發(fā)這種模塊化設計,爭取在未來兩年、而不是五年內(nèi)實現(xiàn)系統(tǒng)內(nèi)的組件升級。”
考慮到能源部各科學實驗室目前擁有的資產(chǎn),包括百億億級超算系統(tǒng)和數(shù)據(jù)基礎設施、大型實驗設施和用于科學模擬的大型代碼庫,ALCF正在加緊關(guān)注這些現(xiàn)實問題。另外,原本為百億億級系統(tǒng)組建的跨領(lǐng)域、跨學科實驗室團隊也要利用起來;Stevens介紹稱,之前的團隊規(guī)模達到千人級別。
再來看自動化因素。阿貢和其他實驗室都掌握著超算系統(tǒng)和海量應用程序。于是問題來了:他們能不能找到覆蓋大部分工作的自動化方法,例如創(chuàng)建和管理AI智能體,從而高流程更快、更輕松、更高效?這個問題目前同樣沒有明確的答案。
以上研究工作都在不斷推進,zettascale和量子系統(tǒng)發(fā)展也在按自己的節(jié)奏同步進行。Stevens預計這兩類系統(tǒng)在未來15年到20年內(nèi)都沒有廣泛落地的可能性。Zettascale恐怕要到這個十年末才能實現(xiàn)低精度部署,而64位精度的系統(tǒng)也許要到2035年才能出現(xiàn)。(英特爾則認為這個時間節(jié)點可能是2027年。)
在量子計算方面,成本的重要性與技術(shù)本身同樣重要。在exascale百億億次設備上運行應用程序兩周,大概要燒掉約700萬美元。而在擁有1000萬量子比特(目前尚不存在)的大規(guī)模量子設備上運行相同的作業(yè),可能要花掉50億至2000億美元(參見下圖)。因此,這個成本必須再降幾個數(shù)量級,才能以物有所值的方式真正幫助人們解決大規(guī)模問題。
“也就是說, 我們需要在發(fā)展量子計算的同時,在經(jīng)典計算方面也取得持續(xù)進展,利用經(jīng)典計算解決期間出現(xiàn)的現(xiàn)實問題。雖然預計zettascale的開發(fā)同樣需要15到20年的時間,但這是更可以把握的發(fā)展節(jié)奏,也是我們真正觸手可及的技術(shù)選項?!?
所有這一切都將回歸最初的主題:HPC創(chuàng)新需要大量時間,量子加經(jīng)典的混合系統(tǒng)可能才是最終解決之道。未來的計算基板可能會以分子、光子甚至是其他未知的形式,工程師和科學家們距離正確答案還非常非常遙遠。
Stevens總結(jié)道,“目前對技術(shù)格局影響最大的仍然是AI,而且我們對于AI技術(shù)如何重構(gòu)系統(tǒng)、真正為大規(guī)模AI計算打造理想平臺也只是略知皮毛。但游戲規(guī)則已經(jīng)有所改變,如果我們在10年后重新討論這個話題,可能思路都將完全不同。也許我們的猜測是對的,也許并不成立??傊@將是一場漫長的競賽,期間會有很多顛覆性因素,我們要做的就是駕馭這些顛覆因素、而不是強行與之對抗。事實上,顛覆是我們的朋友,它們能讓我們在既有思路之外獲得新的啟發(fā)和能力,所以我們應當主動尋求顛覆、擁抱顛覆。”