電廠|英偉達再推「中國特供版」AI芯片:人工智能競爭中的貓鼠游戲
記者 肖余林編輯 高宇雷在中美人工智能的激烈競爭中,英偉達成為了游弋在政治和商業(yè)中尋找利益最大化的「鯊魚」。美國商務部產(chǎn)業(yè)與安全局(BIS) 1017 新規(guī)已經(jīng)在 11 月 16 日生效,英偉達針對中國市場推出的「特供版」 A800 和 H800 芯片遭到出口合規(guī)限制,無法向中國客戶出售。然而,11 月 9 日有消息透露,英偉達將推出三款針對中國市場的 AI 芯片,包括 H20、L20 和 L2 三款,并列出了詳細規(guī)格。隨后,英偉達在業(yè)績會上確認,將努力爭取高性能產(chǎn)品在中國市場的銷售許可,也會研發(fā)更多合規(guī)的數(shù)據(jù)中心產(chǎn)品組合。「我們正在努力擴展我們的數(shù)據(jù)中心產(chǎn)品組合,以提供不需要許可證的新法規(guī)合規(guī)解決方案,這些產(chǎn)品可能會在未來幾個月內(nèi)上市。」11月 24 日,據(jù)路透社報道,兩位消息人士透露,英偉達已告知中國客戶,H20 發(fā)布時間將推遲到明年第一季度。L20 芯片不會延期,并將按照原定計劃推出。消息人士無法分享有關 L2 狀態(tài)的信息。1017新規(guī)是 BIS 推出的第二個版本的限制措施,這一版本比第一個版本更加嚴格,根據(jù)芯片的總處理性能(TPP)和性能密度劃出限制條件,符合任一條件即認為處于管制范圍。特供版如何突破封鎖根據(jù) Semianalysis 透露的規(guī)格參數(shù),H20、L20 和 L2 三款芯片的性能被大幅壓縮。以 H20 為例,這款芯片的峰值算力最大理論值僅為 296 TFLOPs,數(shù)字上還不如消費級的游戲顯卡。作為比較,熱門的 H100 芯片的這一數(shù)值為 1979 TFLOPs,消費級的 RTX 4090 顯卡為 661 TFLOPs。這樣的壓縮顯然是為了限制總處理性能和性能密度,以避開精心設計的封鎖條件:- H20的總處理性能為2368,性能密度僅為 2.9,小于 3.2 的管制許可值;- L20的總處理性能為1912,但性能密度為 3.1,小于 3.2 的管制許可值;- L2的性能密度為 5.2,但總處理性能僅為1544,小于 1600 的管制許可值。大幅壓縮參數(shù)之后,三款芯片仍然有眾多耐人尋味的地方。H20有比 H100 更高的緩存和帶寬,支持英偉達第四代 NVLink 連接,連接速度保留了 900 GB/s 滿速。這保證了多卡增強效果的實現(xiàn),在實際多卡互聯(lián)環(huán)境中,H20 組合性能接近 H100 的 50%。不過,H20 的側(cè)重點在模型推理環(huán)節(jié),不需要承擔 H100 那樣的預訓練任務。由于采用了與英偉達下一代 GPU 相似的核心,Semianalysis 推算,H20 在大模型推理運算中比 H100 還要快 20%,這將極大提高大模型產(chǎn)品在應用端的表現(xiàn)。比如,運行 Meta 700 億參數(shù)的 LLAMA 模型需要兩個 H100,但只需要一個 H20。L20和 L2 分別替代此前遭到管制的 L40 和 L4,更適合用于工作站等領域。L20 和 L2 采用了跟 RTX 4090 同樣的 Ada Lovelace 架構(gòu),其中,L20 使用的是 RTX 4090 同款的 AD102 GPU 核心。此前國內(nèi)有 RTX 4090 顯卡 DIY 工廠被曝出,買家大量囤積 RTX 4090,通過拆解出 GPU 核心,再外置鼓風機風冷的方式,讓多卡組合適配 AI 服務器工作。考慮到國內(nèi)客戶的 DIY 能力,且由于 L20 在生產(chǎn)中不涉及產(chǎn)能受限的 CoWoS 封裝環(huán)節(jié),因此能夠短時間內(nèi)推向市場,緩解很多買家的算力慌。誰還需要「特供版」聯(lián)想集團董事長兼 CEO 楊元慶曾表示,目前大多數(shù)大模型都在算力較強的公有云上訓練。未來,大模型的計算負載將逐漸由云端向邊緣側(cè)和端側(cè)下沉。越來越多的人工智能的推理任務將會在邊緣和設備端進行。英偉達的第一代「特供版」芯片 A800 和 H800 有 11 個月的出口窗口期,平臺公司利用這一窗口期大量采購。市場上有消息稱,百度、字節(jié)跳動、騰訊和阿里已向英偉達訂購了價值 10 億美元的共約 10 萬張 A800 芯片,將于年內(nèi)交付,另外價值 40 億美元的芯片將于 2024 年交付。騰訊曾發(fā)布公開聲明稱,儲備了大量的 A800 和 H800 芯片,足夠支持好幾套 AI 大模型的訓練。可以預見,第一代「特供版」將成為公有云算力的重要來源,承擔大模型的預訓練任務。第二代「特供版」把重點放在了大模型推理運算環(huán)節(jié)上,這一環(huán)節(jié)更靠近應用端,對算力要求相對于模型預訓練更低,更多的要求是在短時間內(nèi)處理大量的輸入數(shù)據(jù)。AI大模型訓練涉及到眾多環(huán)節(jié),從 OpenAI 到創(chuàng)業(yè)公司,普遍面臨缺少訓練數(shù)據(jù)的情況,特別是垂直領域當中與業(yè)務有關的數(shù)據(jù)。電廠記者從業(yè)內(nèi)人士那里了解到,很多行業(yè)在上一輪數(shù)字化轉(zhuǎn)型當中沒能做好,導致在 AI 落地方面缺少數(shù)據(jù)。低數(shù)據(jù)量會造成應用端表現(xiàn)差,直接影響前端的表現(xiàn),進而無法沉淀更多數(shù)據(jù)出來。因此,中小企業(yè)和個體創(chuàng)業(yè)者急需大模型落地,用相對不高的算力啟動,用時間把數(shù)據(jù)跑出來。這次的三款特供版芯片,也針對這一趨勢,面向更多「邊緣」客戶。英偉達此前就有布局,為了幫助更多沒有拿到足夠算力的中小企業(yè)和個體創(chuàng)業(yè)者。英偉達在 10 月份針對 Windows 平臺推出了 TensorRT-LLM,這個模型可以幫助運行在 Windows 設備的大模型更好地利用 RTX 顯卡和 GPU 的性能。根據(jù)英偉達的說法,這樣的設備超過 1 億臺。「特供版」還是「煙霧彈」美國商務部 1017 新規(guī)的生效時間是 11 月 16 日,正是傳言中 H20 的發(fā)布日期。H20 「原計劃」將在 11 月 16 日發(fā)布,在 12 月量產(chǎn),但后來推遲到明年一季度。黃仁勛在業(yè)績會上也提到,「我們將確保與美國政府充分討論我們在這些產(chǎn)品上的意圖。」很顯然,英偉達要留出時間窗口,等待監(jiān)管方的反應。那么,H20 首先是一枚煙霧彈。從 BIS 1017 新規(guī)中表現(xiàn)出的「哪里漏了補哪里」的特點來看,英偉達在與 BIS 的這場貓鼠游戲中占有主動權,有更豐富的技術儲備和應對思路。一旦 H20 進入安全通道,更多「特供版」也會陸續(xù)到來。可另一方面,即便英偉達主動推出「特供版」,也要考慮市場容量和產(chǎn)能。英偉達 H100 還在消化訂單,H200 排隊到明年二季度,整個供應瓶頸卡在臺積電的 CoWoS 封裝環(huán)節(jié)。H20 同樣使用臺積電的 CoWoS 封裝,這意味著 H20 即便繞過監(jiān)管,交付時間也可能比傳聞更長。由于出口限制措施,英偉達沒有在算力上實現(xiàn)突破,但 H20 在中國市場仍然是一款一魚多吃的產(chǎn)品。H20 買家將更依賴 NVLink 技術,英偉達也能借此鞏固自己 CUDA 軟件平臺的護城河。相應的,H20 買家在后續(xù)考慮國產(chǎn)替代時,就要承擔額外的遷移成本。等待時間越久,這枚「特供版」芯片的命運也會愈發(fā)撲朔迷離。
11-30