本文來(lái)源微信公眾號(hào)“半導(dǎo)體行業(yè)觀察”,作者李飛。
隨著人工智能漸漸落地,人工智能對(duì)于算力的需求逐漸增強(qiáng)。本輪人工智能熱潮背后的基礎(chǔ)是大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò),需要海量的數(shù)據(jù)去訓(xùn)練復(fù)雜的神經(jīng)網(wǎng)絡(luò),而訓(xùn)練完成后的神經(jīng)網(wǎng)絡(luò)也較為復(fù)雜,執(zhí)行神經(jīng)網(wǎng)絡(luò)的推理操作相對(duì)于其他基于邏輯規(guī)則等智能方案需要更大的計(jì)算力。因此,算力成為了人工智能背后的基礎(chǔ)資源,而算力的提升則離不開(kāi)芯片的支持。近日,高通、寒武紀(jì)、依圖等來(lái)自不同背景的明星公司都發(fā)布了其用于服務(wù)器端的人工智能芯片方案,再加上谷歌、亞馬遜、Intel、Nvidia等早已在服務(wù)器人工智能芯片領(lǐng)域押注的大公司,我們看到了服務(wù)器人工智能芯片的熱潮。
服務(wù)器AI芯片市場(chǎng)已經(jīng)有明確需求
人工智能計(jì)算一般可以分為兩類(lèi),即訓(xùn)練和推理。訓(xùn)練是指使用收集到的大量數(shù)據(jù)去優(yōu)化神經(jīng)網(wǎng)絡(luò)的各項(xiàng)參數(shù),從而能實(shí)現(xiàn)最優(yōu)的精確度。推理則是在訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)上將輸入數(shù)據(jù)在各層網(wǎng)絡(luò)之間做正向傳遞去求得輸出。訓(xùn)練任務(wù)和推理任務(wù)執(zhí)行的計(jì)算對(duì)于計(jì)算精度和內(nèi)存訪問(wèn)的模式都有所不同,因此芯片上往往需要不同的優(yōu)化。
人工智能芯片根據(jù)應(yīng)用場(chǎng)合也可以分為三個(gè)種類(lèi):服務(wù)器、邊緣計(jì)算、終端。服務(wù)器人工智能芯片主要部署在數(shù)據(jù)中心的服務(wù)器中,執(zhí)行訓(xùn)練和/或推理任務(wù)。服務(wù)器人工智能芯片對(duì)于芯片的首要需求就是單芯片算力(目前的主流算力在100TOPS級(jí)別),其次才會(huì)去考慮功耗和成本。邊緣計(jì)算是指部署在更接近數(shù)據(jù)源頭的服務(wù)器上執(zhí)行的計(jì)算,以推理計(jì)算為主,典型應(yīng)用場(chǎng)景包括在自動(dòng)駕駛汽車(chē)上執(zhí)行自動(dòng)駕駛算法、在智能銷(xiāo)售領(lǐng)域無(wú)人店中執(zhí)行監(jiān)控和結(jié)賬操作等等。在邊緣計(jì)算中,芯片的功耗和成本相對(duì)于云端有更嚴(yán)格的限制,而算力則還是多多益善(10TOPS以上)。終端計(jì)算則是指直接部署在手機(jī)、智能音箱等終端設(shè)備上人工智能計(jì)算,由于使用電池供電,其對(duì)于芯片的首要需求是能效比(1TOPS/W數(shù)量級(jí)),需要使用盡可能低的能量消耗去完成人工智能計(jì)算以保證電池壽命。雖然終端計(jì)算對(duì)于算力的要求較低(0.1-1TOPS數(shù)量級(jí)),但是其功耗約束很強(qiáng),可用的功耗在1W以下,甚至可以低至幾十毫瓦級(jí)別,同時(shí)終端設(shè)備對(duì)于成本也很敏感。
目前上述三個(gè)人工智能應(yīng)用場(chǎng)景中,邊緣計(jì)算尚處于概念驗(yàn)證階段,預(yù)計(jì)未來(lái)幾年隨著5G和無(wú)人駕駛、機(jī)器人、智能零售等概念的興起會(huì)出現(xiàn)一批相關(guān)芯片公司,但是在今天市場(chǎng)規(guī)模還較小。終端人工智能計(jì)算目前已經(jīng)得到初步驗(yàn)證,手機(jī)等智能設(shè)備都在爭(zhēng)相加入人工智能專(zhuān)用處理模塊,但是由于其市場(chǎng)對(duì)于成本的敏感性,我們預(yù)期未來(lái)人工智能在終端設(shè)備上的形態(tài)會(huì)以SoC上的IP模塊為主,這也就意味著人工智能要么是由高通、海思等智能設(shè)備SoC廠商自研集成到自家的SoC中,要么是由第三方以IP的形式授權(quán)給SoC廠商,總體來(lái)說(shuō)該市場(chǎng)的利潤(rùn)率并不會(huì)太高,還是要以量取勝。
相較而言,服務(wù)器端人工智能芯片市場(chǎng)目前已經(jīng)得到了較好的驗(yàn)證,業(yè)務(wù)模式和市場(chǎng)規(guī)模都已經(jīng)獲得了認(rèn)可,利潤(rùn)率也較高,因此成為了主流芯片公司的必爭(zhēng)之地;而邊緣和終端市場(chǎng)在今天來(lái)看還主要是針對(duì)未來(lái)的前瞻性布局。根據(jù)Barclays Research的研究報(bào)告,服務(wù)器端人工智能市場(chǎng)會(huì)在未來(lái)三年內(nèi)快速增長(zhǎng),并預(yù)計(jì)于2021年達(dá)到100億美元的規(guī)模;而終端和邊緣計(jì)算市場(chǎng)則將在三年后才開(kāi)始真正落地。所以,我們看到了巨頭紛紛在今年加碼服務(wù)器端人工智能芯片。
進(jìn)入服務(wù)器AI芯片市場(chǎng)的幾種打法
目前來(lái)看,做云端AI芯片的主要有兩種廠商,一種是芯片公司,另一種是互聯(lián)網(wǎng)公司,包括AI公司(如依圖)這樣的“新物種”。
對(duì)于芯片公司來(lái)說(shuō),服務(wù)器AI市場(chǎng)的客戶往往比較分散,而且每個(gè)廠商都有自己獨(dú)特的訴求,因此需要一家一家談。由于不同的公司有不同的人工智能技術(shù)棧,芯片公司需要能兼容不同公司的需求,有時(shí)候甚至需要和客戶公司合作開(kāi)發(fā)來(lái)確保能滿足需求。同時(shí),芯片公司需要在各大公司的需求中尋找到最大公約數(shù),來(lái)確保自己的芯片能進(jìn)入盡可能多的客戶中。芯片公司可以直接進(jìn)入終端客戶的服務(wù)器中,或者與提供服務(wù)器的系統(tǒng)集成商合作,為客戶設(shè)計(jì)滿足其需求的服務(wù)器來(lái)完成銷(xiāo)售。例如,中國(guó)AI芯片獨(dú)角獸寒武紀(jì)據(jù)悉已經(jīng)獲得了滴滴、海康威視等商業(yè)客戶的直接訂單,同時(shí)也與浪潮、聯(lián)想和曙光等服務(wù)器系統(tǒng)集成商積極合作來(lái)完成服務(wù)器的訂單。寒武紀(jì)于一周前披露的最新思元270芯片使用TSMC 16nm制造,額定功耗75W,其整數(shù)計(jì)算能力分別為256TOPS(int4)、128TOPS(int8)和64TOPS(int4),這樣的設(shè)計(jì)預(yù)計(jì)主要針對(duì)服務(wù)器推理市場(chǎng),其算力和功耗與Nvidia T4基本相當(dāng),基本可以作為Nvidia T4的國(guó)產(chǎn)替代,同時(shí)寒武紀(jì)有位于中國(guó)市場(chǎng)離客戶近以及性價(jià)比的優(yōu)勢(shì),因此想必還是能夠拿下大量訂單。另外,寒武紀(jì)的思元270還集成了視頻圖像編解碼模塊,估計(jì)其找到的客戶“最大公約數(shù)”仍然是計(jì)算機(jī)視覺(jué)相關(guān)領(lǐng)域,如視頻內(nèi)容分析、安防等。
除了芯片公司向上進(jìn)入服務(wù)器AI市場(chǎng)外,另一類(lèi)公司則是互聯(lián)網(wǎng)以及AI公司親自入場(chǎng)做芯片,例如谷歌、亞馬遜以及剛發(fā)布自研芯片的中國(guó)AI獨(dú)角獸依圖。傳統(tǒng)來(lái)說(shuō),互聯(lián)網(wǎng)和AI公司主要是服務(wù)器和芯片的終端客戶,他們的需求是尋找市面上最合適的硬件來(lái)運(yùn)行自己的應(yīng)用。然而,當(dāng)市面上的硬件都無(wú)法滿足這些終端客戶的需求時(shí),他們也會(huì)親自做滿足自己需求的芯片。
互聯(lián)網(wǎng)和AI公司親自做芯片背后的邏輯主要在于建立競(jìng)爭(zhēng)壁壘。隨著AI的落地以及AI對(duì)于算力的強(qiáng)烈需求,硬件已經(jīng)成為AI背后重要的競(jìng)爭(zhēng)要素。目前,隨著市場(chǎng)的充分競(jìng)爭(zhēng),各大AI巨頭在算法和模型等方面都沒(méi)有和彼此拉開(kāi)很大的差距,于是硬件就成為了差異化競(jìng)爭(zhēng)的重要因素。當(dāng)模型和算法差距不大時(shí),是否能使用較低的成本部署AI系統(tǒng)并提供良好的用戶體驗(yàn)就成了能否拿到用戶訂單的重要因素了。另外,互聯(lián)網(wǎng)和AI公司是最清楚自己需求和算法的,因此通過(guò)軟硬件協(xié)同優(yōu)化可望能實(shí)現(xiàn)最優(yōu)化的系統(tǒng)設(shè)計(jì)。
上周依圖公布的求索就是AI公司入場(chǎng)AI芯片的最新動(dòng)態(tài)。求索SoC完全結(jié)合依圖的算法做優(yōu)化,只支持int8操作,主要針對(duì)視覺(jué)應(yīng)用,例如人臉識(shí)別、車(chē)輛檢測(cè)、視頻結(jié)構(gòu)化分析等任務(wù)。配合依圖的算法,使用四塊求索芯片的依圖原子服務(wù)器算力和使用八塊Nvidia P4的服務(wù)器相當(dāng),而體積僅為P4服務(wù)器的一半,功耗則低至20%,從而能大大減少部署的難度。更關(guān)鍵的是,目前一塊Nvidia P4的市價(jià)為2000美元左右,而求索芯片板卡的成本我們預(yù)計(jì)可以做到100美元以下,因此可以幫助依圖進(jìn)入更多的客戶。相比使用Nvidia GPU的其他競(jìng)爭(zhēng)公司,依圖的算法配合自研的芯片確實(shí)是一個(gè)很強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)。
未來(lái)服務(wù)器AI芯片競(jìng)爭(zhēng)格局預(yù)估
隨著服務(wù)器端AI市場(chǎng)的真正落地,越來(lái)越多的廠商開(kāi)始真正投入該市場(chǎng),Nvidia的壟斷難度也越來(lái)越大。如前所述,新進(jìn)入服務(wù)器AI芯片戰(zhàn)場(chǎng)的廠商要么擁有芯片背景,或者是互聯(lián)網(wǎng)/AI公司親自做芯片。服務(wù)器AI市場(chǎng)的特殊性在于不同垂直應(yīng)用對(duì)于芯片的需求有較大不同,而使用目前的主流芯片架構(gòu)做一款能兼容大多數(shù)應(yīng)用的芯片往往性能不夠好,因此芯片廠商還是需要認(rèn)準(zhǔn)一些重要的垂直應(yīng)用,并且在垂直應(yīng)用中打下站穩(wěn)腳跟之后再考慮去橫向擴(kuò)展。對(duì)于互聯(lián)網(wǎng)/AI公司造芯來(lái)說(shuō),由于他們對(duì)于垂直應(yīng)用的前景非常清楚,因此主要就是看自研芯片對(duì)于競(jìng)爭(zhēng)壁壘的構(gòu)建有多少幫助,是否值得投入資金真正做芯片。在設(shè)計(jì)服務(wù)行業(yè)越來(lái)越成熟的今天,造芯的成本會(huì)逐漸降低,因此我們預(yù)期看到越來(lái)越多的互聯(lián)網(wǎng)和AI公司加入自研芯片的行列。因此,服務(wù)器AI芯片的競(jìng)爭(zhēng)格局我們預(yù)期在未來(lái)幾年會(huì)看到Nvidia憑著CUDA生態(tài)的優(yōu)勢(shì)仍然占據(jù)通用芯片的主流地位,但是其市場(chǎng)份額將會(huì)被其他芯片公司和客戶公司慢慢蠶食,同時(shí)在云端數(shù)據(jù)中心FPGA也會(huì)占據(jù)一部分市場(chǎng)。
服務(wù)器AI芯片競(jìng)爭(zhēng)的變數(shù)在于下一代技術(shù)。目前馮諾伊曼架構(gòu)的加速器的架構(gòu)潛力已經(jīng)被挖掘得很充分,之后難以再期待數(shù)量級(jí)上的提升,因此能帶來(lái)重大變革的當(dāng)屬下一代技術(shù)。下一代技術(shù)還擁有不少不確定性,但是我們也看到了不少新技術(shù)擁有巨大的潛力,例如使用光技術(shù)做計(jì)算的LightIntelligence,可以實(shí)現(xiàn)超低延遲超低功耗計(jì)算。