芯片新貴,集體轉向
在AI芯片這個波瀾壯闊的競技場上,一度被奉爲“技術聖杯”的大規模訓練,如今正悄然讓位於更低調、但更現實的推理市場。
Nvidia依然在訓練芯片市場一騎絕塵,Cerebras則繼續孤注一擲地打造超大規模計算平台。但其他曾在訓練芯片上爭得面紅耳赤的玩家——Graphcore、英特爾Gaudi、SambaNova等——正在悄悄轉向另一個战場:AI推理。
這一趨勢,並非偶然。
AI訓練作爲一個重資本、重算力、重軟件生態的產業,Nvidia的CUDA工具鏈、成熟的GPU生態與廣泛的框架兼容性,使其幾乎掌握了訓練芯片的全部話語權。而Cerebras雖然另闢蹊徑,推出了超大芯片的訓練平台,但仍局限於科研機構和極少數商業化應用場景。
在這種格局下,新晉芯片企業在訓練市場幾乎沒有生存空間。“訓練芯片的市場不是大多數玩家的競技場”,AI基礎設施創業者坦言,“光是拿到一張大模型訓練訂單,就意味着你需要燒掉數千萬美元——而且你未必贏。”
正因如此,那些曾在訓練芯片上“正面硬剛”Nvidia的創業公司,开始尋求更容易進入、更能規模化落地的應用路徑。推理芯片,成爲最佳選項。
Graphcore:推理成救命稻草
成立於2016年的英國AI芯片獨角獸Graphcore一度是Nvidia最具挑战性的對手之一,其IPU(Intelligence Processing Unit)主打用於神經網絡訓練的並行處理架構。
據Graphcore介紹,IPU是一種專爲人工智能和機器學習工作負載設計的處理器,與傳統的 CPU或 GPU相比,IPU 在結構和處理方式上都有所不同,旨在更高效地執行 AI 模型訓練和推理任務。
隨着全球對人工智能芯片需求的持續飆升,Graphcore迅速崛起,並在短時間內吸引了大量投資者的關注,2020年,Graphcore 發布的 Colosual MK2 GC200 IPU,採用台積電7納米制程,據稱已接近 NVIDIA A100 的表現,同年,其以 28 億美元的估值籌集了 2.22 億美元,成爲了英國最有前途的初創公司之一。
在Graphcore技術負責人Simon Knowles看來,與英偉達展开全面競爭並不明智。他在The Robot Brains Podcast上分享了核心創業准則:絕不生產大公司現有產品的強化版,因爲大公司擁有龐大市場基礎,初創企業難以直接抗衡。
他認爲AI將存在於人類未來技術的各個領域,而不同行業需求無法由單一架構支持,Graphcore只需在特定領域讓IPU優於GPU,即可在這個快速增長的市場分得一杯羹。
由於架構的特殊性,IPU特別適合處理當前CPU和GPU無法最優運行的高性能計算任務,尤其是"稀疏數據"處理。分子就是典型應用案例——分子排列不規律,行爲復雜且體積小,而IPU的大規模並行結構適合處理這類不規則數據結構。
在應用領域,IPU在化學材料和醫療領域表現突出,曾被用於冠狀病毒研究。2020年,微軟的Sujeeth Bharadwaj將IPU內置於Azure系統中用於識別新冠胸部X光片,他表示:“Graphcore芯片可在30分鐘內完成英偉達傳統芯片需5小時的工作。”
商業模式上,Graphcore將IPU集成於“pods”系統中,打包銷售給雲計算和服務器廠商。最令人矚目的無疑是2019年11月,微軟與Graphcore籤署了採購處理器的協議,這對於一家初創公司來說,無異於天上掉下了一塊喫不完的餡餅。
只可惜,現實是殘酷的,隨着市場對訓練平台的門檻不斷拔高,Graphcore的IPU系統在大型AI訓練項目中難以撼動Nvidia的地位,2021年春季,隨着微軟終止與Graphcore的合作,這家初創企業就开始走向了衰落,爲了削減成本,Graphcore在2022年9月宣布裁員,並於次月關閉奧斯陸辦公室。
2023年,Graphcore被曝在北美大幅裁員、關閉美國業務,同時放棄了IPO計劃,創始人Simon Knowles在一次內部講話中承認:“訓練市場太集中,我們需要轉向能帶來收入的實際落地場景。”
2024年7月,日本軟銀集團宣布完成對Graphcore的收購,开始將重心轉向企業AI部署中的高效推理任務,其重新優化了Poplar SDK,推出輕量級模型推理加速方案,並面向金融、醫療和政府等場景,強調“高吞吐、低功耗”的AI推理解決方案。
對於Graphcore來說,推理或許就是它最後的救命稻草。
英特爾Gaudi:不再死磕GPU
創立於2016年的Habana Labs,一度也是以色列的明星公司之一,旗下產品主要針對AI的推理預測和訓練。2018年,Habana Labs推出旗下第一款產品——Goya推理處理器,主要用於AI推理和預測。而在2019年推出的Gaudi,主要用於AI訓練,在被收購前,其已經在AI芯片的訓練、推理兩端初步形成了完整產品线。
2019年,英特爾以20億美元的價格高調收購了Habana,而Gaudi也順勢成爲了其AI訓練战略中的重要拼圖。2022年5月,英特爾正式發布了採用了7nm制程得 Gaudi2 和 Greco 深度學習加速器,據英特爾介紹,其對比Nvidia的A100 GPU 的吞吐量性能提高了 2 倍。
盡管在部分性能參數上,英特爾Gaudi系列足以挑战Nvidia,但從後續的市場反饋來看,即使在雲廠商中,Gaudi訓練平台的採用率也始終低迷。
一位前英特爾高管坦言:"從收購Habana的那一刻起,英特爾內部始終無法理解爲何同時運營兩個开發競爭架構的部門——Habana和GPU部門。"Habana前員工則將英特爾的官僚效率視爲嚴重障礙。一位前Habana員工對比道:"在Habana,五分鐘的走廊交談就能做出決定;而在英特爾,同樣的決定需要三次會議,數十人參與,卻毫無進展。"
直至2022年,英特爾一直雙线並行——一邊銷售Gaudi處理器,一邊开發競爭產品Ponte Vecchio GPU。然而,隨着ChatGPT等生成式AI模型崛起,英偉達的市場主導地位日益穩固,英特爾再次面臨客戶負面反饋。
2023年中期,英特爾宣布將Gaudi並入新成立的AI加速產品线,並將Gaudi 3的重點轉向“訓練+推理並重”,其中推理性能和性價比成爲新賣點。
Gaudi 3在2024年初發布時,英特爾重點宣傳的是其在推理場景下對大語言模型的加速表現——例如在運行Meta Llama 2等模型時,相比Nvidia A100實現了更低的延遲和更高的能效。更重要的是,英特爾大力宣傳Gaudi在成本端的優勢,其“每美元推理吞吐量”高於同類GPU芯片近30%。
最終,英特爾开始嘗試整合業務,將Habana與GPU部門合並,並开發名爲Falcon Shores的新型AI處理器——一款結合GPU(類似英偉達)和CPU(英特爾專長)的混合芯片。Habana員工對此舉表示質疑,甚至自嘲道:"突然間,他們想起我們了。"
今年年初,英特爾除了公布令人失望的財務業績外,還宣布其下一代 Habana 處理器 Falcon Shores 收到了客戶的負面反饋,因此不會進行商業化銷售。此前,大約六個月前,英特爾曾宣布 Gaudi 未能達到 2024 年實現 5 億美元營收的預期。因此,英特爾決定不再开發 Gaudi 3 之後的下一代產品。
截至目前,Gaudi 3被打包進入Supermicro等廠商的AI服務器中,面向企業部署大模型、構建私有化語義搜索、文檔摘要、客服機器人等場景。對於希望“部分替代公有雲推理API”的中大型企業客戶而言,Gaudi正在成爲一個價格友好型選擇。
對於英特爾來說,包括Gaudi在內的GPU業務的重要性正在不斷削弱,其未來可能也會更多傾向於推理而非訓練。
Groq:以速度換市場
同樣是初創AI芯片的公司的Groq,其故事起點可以追溯到 Google 內部。其創始人 Jonathan Ross 是 Google 第一代 TPU(Tensor Processing Unit)芯片的首席架構師。在目睹了TPU在深度學習訓練和推理上的突破後,Ross於2016年離开Google,成立了 Groq,試圖打造一個比TPU更快、更可控的“通用AI處理器”。
Groq的核心技術是自研的 LPU(Language Processing Unit) 架構。這種架構拋棄了傳統的亂序執行和動態調度機制,採用靜態調度、數據路徑固定、執行流程可預測的“確定性設計”(deterministic design)。Groq 宣稱,這種設計可以實現極低延遲和高吞吐率,非常適合大規模推理任務。
一开始,Groq也曾押注訓練市場,其在早期嘗試將LPU推向大模型訓練市場,聲稱其架構可提供比GPU更高的利用率和更快的訓練周期。但現實卻是殘酷的:Nvidia的CUDA生態壁壘幾乎無法撼動,訓練市場的競爭邏輯更多拼的是“大生態 + 大資本 + 大客戶”。對於一個芯片初創企業而言,很難獲得主流AI實驗室和雲廠商的認可。
同時,Groq的架構對主流AI框架(如PyTorch、TensorFlow)的兼容性有限,也缺乏成熟的編譯工具鏈支撐,使得訓練任務的遷移成本極高。這些現實逼迫Groq重新思考其市場切入點。
從2023年下半年开始,Groq明確轉向推理即服務(Inference-as-a-Service)方向,打造一個完整的“AI推理引擎平台”——不僅提供芯片,更向开發者和企業开放超低延遲的API接口,強調“文字輸入後幾毫秒出結果”的極致響應。
Groq在2024年展示了其系統運行 Llama 2-70B 模型時,實現了每秒超過300個Token的生成速度,遠超主流GPU系統。這一優勢讓Groq迅速吸引到一批對延遲敏感的垂直行業用戶,如金融交易系統、軍事信息處理、以及語音/視頻同步字幕生成。
此外,Groq將產品定位從“AI芯片”擴展爲“AI處理平台”,通過GroqCloud平台向开發者提供API訪問權限,與LangChain、LlamaIndex等生態集成,試圖把自己變成一個專注速度優化的大模型推理雲。
目前,Groq正在與多家初創AI應用公司合作,作爲其低延遲後端推理服務提供方,在小型助手、嵌入式交互設備和高頻問答系統中獲得初步部署落地。
對於Groq而言,專注推理速度讓它在一衆初創AI芯片公司中脫穎而出。
SambaNova:從系統即服務到推理即服務
SambaNova是少數幾家不靠“賣芯片”而是“賣系統”的AI芯片創業公司。其Reconfigurable Dataflow Unit(RDU)芯片架構採用數據流計算方式,以高吞吐量爲賣點,曾在訓練大型Transformer模型時展現出優越性。
SambaNova曾非常重視在其硬件上訓練模型,他們發布過關於如何在其硬件上訓練的文章,炫耀自己的訓練性能,並在官方文檔中提及訓練,許多分析師和外部觀察者都認爲,能夠用一款芯片同時處理訓練和推理市場,是SambaNova相較於Groq等競爭對手的一大優勢,而Groq是最早轉向推理的初創公司之一。
這一公司也投入了大量時間和精力來實現高效的訓練功能。在2019年至2021年左右,SambaNova的工程師花了相當多的時間爲NAdam優化器實現內核代碼,這是一種常用於訓練大型神經網絡的基於動量的優化器。其軟硬件特性都被設計並優化用於訓練,無論是對內還是對外的信息傳達中,而訓練也始終是SambaNova價值主張的重要組成部分。
然而,自2022年起,SambaNova的銷售重點已悄然發生變化。公司推出了“SambaNova Suite”企業AI系統,不再強調訓練模型能力,而是聚焦“AI推理即服務”(Inference-as-a-Service)。用戶無需擁有復雜硬件或AI工程團隊,只需調用API即可完成大模型推理工作,SambaNova在後台提供算力與優化模型。
而在今年四月下旬,SambaNova Systems大幅轉變了其最初的目標,其宣布裁員15%,並將重心完全轉向AI推理,幾乎放棄了此前主打的訓練目標。
據介紹,其系統特別適用於私有化模型部署需求強烈的領域——如政府、金融、醫療。在這些領域,數據敏感、合規嚴格,企業更傾向於自己掌控模型運行環境。SambaNova爲其提供了“大模型交鑰匙工程”式方案,主打易部署、低延遲、符合合規的推理平台。
SambaNova目前與多個拉美金融機構、歐洲能源公司建立了合作,提供多語言文本分析、智能問答和安全審計等大模型推理服務,商業化路徑逐漸清晰。
在經歷各種挫折之後,SambaNova也在推理AI市場中找准了自己的定位。
推理,更喫香了
在一篇報道中,有分析師指出,要高效完成訓練,你需要復雜的內存層級結構,包括片上SRAM、封裝內HBM和片外DDR。而AI初創公司難以獲得HBM,更難將HBM集成進高性能系統——所以像Groq和d-Matrix這樣的許多AI芯片就不具備足夠的HBM或DDR容量或帶寬來高效訓練大型模型。推理則沒有這個問題。在推理過程中,無需存儲梯度,激活值也可以在使用後丟棄。這極大減少了推理任務的內存負擔,也降低了僅支持推理的芯片所需的內存系統復雜度。
另一個挑战是芯片間的網絡通信。在訓練中生成的所有梯度需要在所有參與訓練的芯片之間同步。這意味着你需要一個大型、復雜的全互聯網絡來高效完成訓練。相比之下,推理是一個前饋操作,每個芯片只需與推理鏈中的下一個芯片通信。許多初創公司的AI芯片網絡能力有限,不適合用於訓練所需的全互聯架構,但對推理工作負載卻綽綽有余。Nvidia則很好地解決了AI訓練中內存和網絡的雙重挑战。
而目前就而言,Nvidia的優勢過於明顯。得益於CUDA賦予GPU的多功能性,Nvidia的硬件能夠完成訓練和推理所需的全部運算。而在過去十年中,Nvidia不僅致力於構建針對機器學習工作負載高度優化的芯片,還在優化整個內存和網絡架構以支持大規模訓練和推理。
每顆芯片上搭載大量HBM,使得Nvidia硬件能夠輕松高效地緩存每一步訓練生成的梯度更新。再加上NVLink等規模擴展技術以及InfiniBand等集群擴展技術,Nvidia硬件能夠勝任每一步訓練後對整個大型神經網絡權重進行全局更新所需的全互聯網絡。像Groq和d-Matrix這樣的僅推理芯片在內存和網絡能力上都無法與Nvidia在訓練方面競爭。
而且事實證明,Nvidia在訓練性能上的優勢不僅僅是HBM和網絡。他們在低精度訓練方面投入了巨大努力,而頂級AI實驗室也相應地在算法超參數調優上做了大量工作,以適配Nvidia低精度訓練硬件的復雜細節。若要從Nvidia轉向其他芯片進行訓練,就需要將極其敏感的訓練代碼遷移到一個全新的硬件平台上,並處理一整套新的“坑”。對於一個GPT-4規模的大模型來說,這種遷移成本和風險極高。
AI推理並不新鮮,但當越來越多芯片公司“集體轉身”擁抱它,它便不僅是一個市場趨勢,更是一次战略轉向。在推理市場,贏家可以是一個懂用戶需求的小團隊,也可以是一個專注邊緣計算的初創公司。
未來的AI芯片競爭,將不再只圍繞浮點計算和TOPS展开,而是進入一個更貼近“真實世界”的階段——一個講究成本、部署、可維護性的時代。對AI芯片企業而言,從訓練到推理,不是放棄技術理想,而是走向產業現實。
標題:芯片新貴,集體轉向
地址:https://www.iknowplus.com/post/219540.html