大模型由OpenAI引爆，算力則是英偉達(dá)的“拿手戲”

2024-04-08 來(lái)源：賢集網(wǎng)

3585

北京時(shí)間3月19日凌晨，全球芯片巨頭英偉達(dá)（NVIDIA）公司召開(kāi)了一年一度的 GTC 大會(huì)，公司創(chuàng)始人兼首席執(zhí)行官黃仁勛發(fā)表演講，正式宣布將推出用于萬(wàn)億參數(shù)級(jí)生成式AI的NVIDIA Blackwell架構(gòu)及搭載Blackwell技術(shù)的B200和GB200系列芯片，將人工智能的計(jì)算能力推向了前所未有的高度。

在規(guī)格和性能方面，英偉達(dá)的新一代超級(jí)AI芯片顯示出顯著的進(jìn)步。據(jù)會(huì)上介紹，上一代H100/H200芯片有800億個(gè)晶體管，而B(niǎo)200擁有2080億個(gè)晶體管。晶體管是集成電路的基本組件，更多的晶體管可以處理更多的數(shù)據(jù)，執(zhí)行更復(fù)雜的計(jì)算，從而提供更高的性能。B200采用允許更小的晶體管尺寸和更高的集成度的臺(tái)積電4NP工藝制程，可以支持多達(dá)10萬(wàn)億個(gè)參數(shù)的AI大模型來(lái)進(jìn)行更高級(jí)的自然語(yǔ)言處理、圖像識(shí)別和復(fù)雜的數(shù)據(jù)分析任務(wù)。GB200芯片將兩個(gè)B200 Blackwell GPU與一個(gè)基于Arm架構(gòu)的Grace CPU進(jìn)行配對(duì)，兩塊芯片之間的互聯(lián)速度高達(dá)10TBps，這種設(shè)計(jì)結(jié)合了GPU的強(qiáng)大并行處理能力和CPU的高效序列處理能力。

在能效方面，Blackwell芯片架構(gòu)也有顯著改進(jìn)，黃仁勛舉例如果要訓(xùn)練一個(gè)1.8萬(wàn)億參數(shù)量的GPT模型，在沒(méi)有使用Blackwell技術(shù)的情況下，需要連續(xù)運(yùn)行90天，使用8000張Hopper GPU，并消耗15兆瓦的電力。但如果使用了Blackwell GPU，只需要2000張芯片，而且只需消耗四分之一的電力，大約4兆瓦，就可以完成同樣的任務(wù)。Blackwell芯片架構(gòu)的能效改進(jìn)意味著在處理大規(guī)模AI模型訓(xùn)練時(shí)，可以實(shí)現(xiàn)更高的性能和更低的能源消耗，這對(duì)于可持續(xù)發(fā)展具有重要意義。

在當(dāng)前人工智能快速發(fā)展的背景下，對(duì)于計(jì)算能力的需求也日益增長(zhǎng)。從自動(dòng)駕駛汽車(chē)到智能醫(yī)療診斷，再到大規(guī)模數(shù)據(jù)分析、數(shù)字孿生等，沒(méi)有哪一項(xiàng)不在渴求更高的處理速度和更低的能耗。

大語(yǔ)言模型助推 GPU 算力需求增長(zhǎng)

市場(chǎng)對(duì) 3D 圖像處理和 AI 深度學(xué)習(xí)計(jì)算等需求不斷增加，GPU 市場(chǎng)保持高增速。據(jù) Global Market Insights 的數(shù)據(jù)，全球 GPU 市場(chǎng)預(yù)計(jì)將以 CAGR 25.9%持續(xù)增長(zhǎng)，至 2030 年達(dá)到 4000 億美元規(guī)模。在 GPU 市場(chǎng)中，NVIDIA 依靠在深度學(xué)習(xí)、人工智能等領(lǐng)域布局的先發(fā)優(yōu)勢(shì)并憑借其優(yōu)異產(chǎn)品性能以及成熟的生態(tài) 平臺(tái)長(zhǎng)期處于領(lǐng)導(dǎo)地位，根據(jù) JPR 數(shù)據(jù)，2022 年 Q1，NVIDIA 的在獨(dú)顯市場(chǎng)份額約為 78%。

大語(yǔ)言模型有望拉動(dòng) GPU 需求增量，我們測(cè)算 23/24/25 年大模型有望貢獻(xiàn) GPU 市場(chǎng)增量 69.88/166.2/209.95 億美元。具體假設(shè)測(cè)算如下：訓(xùn)練端，近年來(lái)各大廠商陸續(xù)發(fā)布大模型，我們假設(shè) 23/24/25 年新增 5/10/15 個(gè) 大模型，根據(jù) OpenAI 團(tuán)隊(duì)于 2020 發(fā)表的論文《Scaling Laws for Neural Language Models》提出的計(jì)算方法，對(duì)于以 Transformer 為基礎(chǔ)的模型，假設(shè)模型參數(shù)量為 N，單 Token 所需的訓(xùn)練算力約為 6N。參考 OpenAI 團(tuán)隊(duì) 2020 同年發(fā)表的論文《Language Models are Few-Shot Learners》，GPT-3 模型參數(shù)量約為 1750 億個(gè)，Token 數(shù)量約為 3000 億個(gè)，近年發(fā)布的模型均在千億級(jí)參數(shù)級(jí)別，因此我們中性假設(shè) 23 年新增大模型平均參數(shù)量約為 2000 億個(gè)，Token 數(shù)量約為 3000 億個(gè)，兩者后續(xù)每年以 20%增速增加。另外假設(shè)單次訓(xùn)練耗時(shí)約 30 天，算力效率為 30%，后續(xù)伴隨算法精進(jìn)，算力效率預(yù)計(jì)逐漸提升。以目前主流的訓(xùn)練端 GPU 英偉達(dá) A100 測(cè)算，假設(shè) ASP 為 1 萬(wàn)美元，23/24/25 年全球訓(xùn)練端 GPU 需求市場(chǎng)規(guī)模預(yù)計(jì)分別為 0.74/2.00/4.07 億美元。

推理端，基于訓(xùn)練端的假設(shè)，根據(jù)論文《Scaling Laws for Neural Language Models》，單 Token 所需的推理算力開(kāi)銷(xiāo)約為 2N。則對(duì)于 GPT-3 模型，其單 Token 所需的推理算力開(kāi)銷(xiāo)為 3500 億 FLOPs-S。假設(shè)單次最大查詢(xún) Tokens 數(shù)為 1000(對(duì)應(yīng)漢字約 300-500 字，英文約 750 詞)，每人每天查詢(xún) 20 次。在并發(fā)用戶(hù)數(shù)的估計(jì)上，我們參考國(guó)際主流社交媒體日活用戶(hù)數(shù)進(jìn)行測(cè)算，根據(jù) Dustin Stout 統(tǒng)計(jì)，F(xiàn)acebook、WhatsApp、Instagram 全球日活用戶(hù)數(shù)分別為 16 億、10 億、6 億，考慮到目前(類(lèi)) GPT 平臺(tái)仍處于發(fā)展早期，我們預(yù)計(jì)全球大模型日活用戶(hù)數(shù)在 23/24/25 分別為 2/6/10 億，按照所有用戶(hù)平均分布于 24 小時(shí)，并以 10 倍計(jì)算峰值并發(fā)數(shù)量。以目前英偉達(dá)用于推理端計(jì)算的 A10 測(cè)算，假設(shè) ASP 為 2800 美元，23/24/25 年全球推理端 GPU 需求市場(chǎng)規(guī)模預(yù)計(jì)分別為 69.14/164.2/205.88 億美元。

英偉達(dá)GPU何以獨(dú)霸市場(chǎng)？

GPU成為AI計(jì)算的標(biāo)配，其中最大的贏家非英偉達(dá)莫屬，在AI計(jì)算領(lǐng)域英偉達(dá)的GPU幾乎占到市場(chǎng)的絕大部分，英特爾和AMD等芯片巨頭也幾乎都錯(cuò)過(guò)了這一波AI浪潮的紅利。英偉達(dá)做對(duì)了什么？英特爾與AMD緣何錯(cuò)過(guò)GPU需求爆發(fā)的市場(chǎng)機(jī)會(huì)？

2006年英偉達(dá)推出CUDA，帶來(lái)了靈活便捷的GPU編程手段，這為使用GPU完成AI計(jì)算創(chuàng)造了良好的條件。2014年英偉達(dá)發(fā)布cuDNN V1.0深度神經(jīng)網(wǎng)絡(luò)加速庫(kù)，并集成進(jìn)了Caffe等AI框架中，進(jìn)一步為基于英偉達(dá)GPU的AI計(jì)算提升性能和易用性等，使得AI開(kāi)發(fā)和研究人員可以更加專(zhuān)注于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)等。2016年英偉達(dá)推出的Pascal架構(gòu)GPU產(chǎn)品，已經(jīng)開(kāi)始專(zhuān)門(mén)為AI計(jì)算場(chǎng)景，特別是推理計(jì)算場(chǎng)景，做了許多的定制和優(yōu)化，能更好的滿(mǎn)足AI計(jì)算的需求，此外推出NVlink單機(jī)多卡的互聯(lián)技術(shù)，增加了GPU之間通信的帶寬，也加速了多卡并行計(jì)算的效率。2017年英偉達(dá)在Volta架構(gòu)系列GPU中引入TensorCore，使得英偉達(dá)GPU產(chǎn)品在AI計(jì)算的訓(xùn)練場(chǎng)景的性能繼續(xù)提升。2020年英偉達(dá)又推出新一代Ampere架構(gòu)的GPU產(chǎn)品，在算力和性能等又大幅提升。

目前在AI計(jì)算場(chǎng)景下，英偉達(dá)GPU已經(jīng)成為最主流的選擇，從整個(gè)發(fā)展過(guò)程中可以看到英偉達(dá)在軟硬件方面的所做的努力也密不可分，并且從2014年開(kāi)始英偉達(dá)在AI方面每一次布局都剛好恰到好處。CUDA的推出可能為2011年前后發(fā)現(xiàn)GPU在AI計(jì)算中10-60倍的加速效果創(chuàng)造有利條件；2014年推出的cuDNN，并集成進(jìn)Caffe等AI框架，在軟件層面進(jìn)一步增加了英偉達(dá)GPU的易用性等；2016年開(kāi)始直接在芯片層面全面支持AI計(jì)算場(chǎng)景需求，后續(xù)的產(chǎn)品在算力和性能等方面的提升正好又迎合了AI技術(shù)和產(chǎn)業(yè)發(fā)展的大趨勢(shì)。

再看另外兩家芯片巨頭英特爾和AMD，這兩家都有非常強(qiáng)大的實(shí)力，按理說(shuō)應(yīng)該也能在這一波AI浪潮取得巨大紅利，但事實(shí)上卻并沒(méi)有。當(dāng)然因?yàn)锳I的發(fā)展帶動(dòng)CPU采購(gòu)肯定也給英特爾和AMD帶來(lái)了不少收益。過(guò)去10年中，英特爾并沒(méi)有專(zhuān)門(mén)針對(duì)AI計(jì)算推出相應(yīng)的產(chǎn)品，不論學(xué)界還是業(yè)界有AI方面新的研究成果，英特爾可能都會(huì)跟進(jìn)在CPU上進(jìn)行一些優(yōu)化，聲稱(chēng)在GPU上的性能只比在CPU上快2-3倍左右，并沒(méi)有像其他地方所說(shuō)的幾十倍上百倍的效果。在AI計(jì)算效率等方面，英特爾在CPU上優(yōu)化后確實(shí)能夠縮小與GPU的差距，但這種優(yōu)化的思路在業(yè)界并沒(méi)有太多的跟隨者，主要是優(yōu)化工作本身的門(mén)檻相對(duì)較高。

AMD在過(guò)去十多年中CPU一直被英特爾壓著，無(wú)暇顧及GPU市場(chǎng)的更多需求，雖然AMD的GPU在游戲市場(chǎng)也不錯(cuò)，但在AI計(jì)算方面始終沒(méi)有形成氣候。當(dāng)然2018年前后AMD新架構(gòu)的CPU產(chǎn)品面世之后，最近幾年大有反超英特爾的架勢(shì)，不久前AMD推出的Instinct MI100的GPU產(chǎn)品不知道是否會(huì)在AI計(jì)算領(lǐng)域挑戰(zhàn)英偉達(dá)的地位，讓我們拭目以待。

國(guó)產(chǎn)GPU該如何破局？

國(guó)內(nèi)這一批GPU方面的創(chuàng)業(yè)公司主要都是在過(guò)去3年內(nèi)成立，如沐曦、壁仞、摩爾線(xiàn)程等等，并且不少已經(jīng)完成了幾十億元的融資，今年下半年或者明年這些家國(guó)產(chǎn)GPU廠商的產(chǎn)品估計(jì)也都差不多能推向市場(chǎng)。面對(duì)已經(jīng)占據(jù)市場(chǎng)絕對(duì)主導(dǎo)地位的英偉達(dá)，以及強(qiáng)勢(shì)入場(chǎng)的英特爾和AMD，國(guó)產(chǎn)GPU產(chǎn)品如何破局，才能在市場(chǎng)中占得一席之地？

中美貿(mào)易戰(zhàn)以及最近的俄烏戰(zhàn)爭(zhēng)中西方對(duì)俄羅斯的制裁，對(duì)于國(guó)有GPU產(chǎn)品的采納有重要的作用。回顧過(guò)去20年國(guó)產(chǎn)CPU產(chǎn)品的發(fā)展，由于英特爾和AMD的CPU產(chǎn)品的性?xún)r(jià)比較高，國(guó)產(chǎn)CPU產(chǎn)品此前一直未成氣候，中美貿(mào)易戰(zhàn)之后，信創(chuàng)產(chǎn)品的需求帶動(dòng)了國(guó)產(chǎn)CPU產(chǎn)品的發(fā)展。在當(dāng)前的社會(huì)大背景下，國(guó)產(chǎn)GPU產(chǎn)品也有很大的用武之地，對(duì)于每一個(gè)國(guó)產(chǎn)GPU的廠商而言都是重大的機(jī)遇。

國(guó)產(chǎn)GPU產(chǎn)品短期內(nèi)要跟英偉達(dá)等巨頭抗衡估計(jì)難度比較大，因此在后續(xù)的發(fā)展路徑中，建議是先積極擁抱信創(chuàng)產(chǎn)品體系，積極開(kāi)展與地方政府或者在關(guān)系國(guó)計(jì)民生的特定領(lǐng)域等部門(mén)等緊密合作，針對(duì)該具體領(lǐng)域與上下游服務(wù)商形成相應(yīng)解決方案，先保證能在市場(chǎng)中立足。只要在一個(gè)地方或一個(gè)領(lǐng)域占據(jù)優(yōu)勢(shì)位置，應(yīng)該足以在市場(chǎng)中立足，然后再圖更大的發(fā)展。

從英偉達(dá)GPU產(chǎn)品的成功案例中，國(guó)產(chǎn)GPU廠商也可以借鑒不少經(jīng)驗(yàn)，在商用領(lǐng)域可能第一步需要實(shí)現(xiàn)對(duì)英偉達(dá)CUDA等軟件生態(tài)的兼容，使得開(kāi)發(fā)人員在實(shí)際使用過(guò)程中遷移成本最低，后續(xù)需要進(jìn)一步增加在軟件平臺(tái)方面投入，不斷提升自身GPU產(chǎn)品的易用性等，并聯(lián)合更多的軟件生態(tài)企業(yè)不斷完善GPU和AI計(jì)算的軟硬件生態(tài)體系。如果主要幾個(gè)國(guó)產(chǎn)GPU廠商能聯(lián)合制定和推出一套類(lèi)CUDA的標(biāo)準(zhǔn)體系可能，或許能夠?qū)φ麄€(gè)國(guó)產(chǎn)GPU產(chǎn)品的推廣會(huì)有一定的意義。

相關(guān)文章

登入后，方可留言>>

行業(yè)動(dòng)態(tài)

英國(guó)制裁兩家中國(guó)公司，外交部回應(yīng)

傳亞馬遜大中華區(qū)組織架構(gòu)調(diào)整：行業(yè)線(xiàn)洗牌，高管變動(dòng)

SpaceX擬明年啟動(dòng)史上最大規(guī)模IPO，目標(biāo)估值1.5萬(wàn)億美元

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會(huì)

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬(wàn)美元收購(gòu)鴻海精密美國(guó)子公司相關(guān)資產(chǎn)