從競爭打響,再到?jīng)Q出勝負,最快需要多長時間?
【資料圖】
在科技圈,大模型如論第二,則很少有行業(yè)敢稱第一。2023年,業(yè)界刮起一股“百模大戰(zhàn)”風(fēng)潮,百余個大模型面世,期待贏得下一個人工智能時代的入場券。但時間僅過半年有余,這場萬眾矚目的角逐便走至了“決賽圈”。
目前,行業(yè)中的大模型用戶體驗已逐漸出現(xiàn)“分水嶺”。背后的推手,無疑是科技巨頭們正在投入巨資,強化自家產(chǎn)品的基礎(chǔ)模型能力。
近期有媒體報道稱,百度正在加緊訓(xùn)練文心大模型4.0,或?qū)⒃?0月17日百度世界大會上發(fā)布。據(jù)透露,目前這款基礎(chǔ)模型已在理解、生成、邏輯和記憶四大方面有巨大突破,在邏輯推理、代碼、數(shù)學(xué)等方面的進步水平明顯。另一組引人注意的信息是,文心大模型4.0的推理成本相比文心大模型3.5增加很多,有傳聞是8-10倍,也有說法是至少翻了10倍。
如何理解大模型的推理成本?其訓(xùn)練成本和推理成本的關(guān)系是什么?如果百度文心4.0推理成本真的至少翻了10倍,那么大模型的可持續(xù)發(fā)展之路在何方?這些問題無疑為這場科技競賽增添了更多看點。
01
推理成本激增
什么是推理成本?通常意義上,它指的是大語言模型訓(xùn)練完成后在線為用戶提供生成內(nèi)容服務(wù)時產(chǎn)生的成本,模型的每一次“思考”和“輸出”都會產(chǎn)生資源消耗。
推理成本由質(zhì)量和數(shù)量兩部分構(gòu)成。一方面,在質(zhì)量側(cè),需要優(yōu)秀的算法和技術(shù)實力儲備作為支撐,其背后往往意味著專業(yè)的算法工程師和數(shù)據(jù)科學(xué)家團隊的支持;而在數(shù)量側(cè),“暴力計算”所依賴的計算資源也是重要因素。
GPU“堆料”能不能解決所有問題?
應(yīng)該說,在過去的一段時間是可以這樣認為的。不過,目前隨著模型網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化、參數(shù)規(guī)模的巨量化,線性的基礎(chǔ)設(shè)施投入所取得的邊際收益正在降低。
對于技術(shù)研發(fā)能力不足的大模型廠商而言,由于AI芯片價格的持續(xù)高企,“堆料”邏輯是死路一條,并必將被市場淘汰。而推理成本本身,也是因不同的開發(fā)商而異的。
02
“中文天才”已就位
在市場中,有實力的企業(yè)通常愿意雇傭名牌大學(xué)的高等生。在大模型領(lǐng)域內(nèi),這個規(guī)律同樣適用。
目前,行業(yè)里已出現(xiàn)多種為大模型生成內(nèi)容付費的使用方式,不過根本上,遇到刁鉆或時效性問題時,大模型給出的結(jié)果仍然效果不甚理想。一方面,這是由于中文特有的復(fù)雜性決定;另一方面,也是用戶激增帶來的短期算力不足所導(dǎo)致。
實際上,此前行業(yè)所提及的“訓(xùn)練成本”和“推理成本”并不能等同。
一般而言,訓(xùn)練GPT-3等級的大模型的成本約為140萬美元,這也是幾個月前人們對大模型成本測算的核心依據(jù),但GPT-3迭代到3.5、GPT-4后,大模型的成本增長是非常驚人的。對于一些私有部署的模型而言,其模式是在已經(jīng)訓(xùn)練好的模型進行輸出,成本相對較低。但這種模式只能滿足特定需求,并不適用于開放市場。
目前,考慮到在線推理場景,則更需要處理大規(guī)模數(shù)據(jù),成本隨之被推高。
根據(jù)海外最新研究《TheEconomicsofLargeLanguageModels》,可以有如下估計:每個token(1000token約等于750個單詞)的訓(xùn)練成本通常約為6N(N為參數(shù)的計量單位),而推理成本約為2N,也就是說推理成本大約相當(dāng)于訓(xùn)練成本的三分之一。但隨著模型上線部署后使用量的增加,推理成本可能遠超訓(xùn)練成本。
在國外,大模型的付費是大勢所趨。其中以ChatGPT專業(yè)版為例,其版本所提供的用戶體驗與免費版差別很大。當(dāng)然,這也有助于大模型向著健康正向、持續(xù)發(fā)展的角度進步。
有媒體估算過,使用云計算服務(wù)(以AWS為例)調(diào)用ChatGPT的能力,每處理一個輸入長度為50字、輸出長度為1000字的問題,大約需要消耗0.00014611美元的云計算資源。即用1美元可以向ChatGPT提問約6843個問題。
據(jù)推測,文心4.0的推理成本將比3.5版本上升10倍。不過,其帶來的好處也是顯而易見的,那就是相當(dāng)于為每個普通人都帶來了“高知高學(xué)”的AI助手。
03
中文大模型逐漸彎道超車
應(yīng)該說,2023年是屬于“遙遙領(lǐng)先”的一年。在眾多網(wǎng)友的觀感中,這個詞匯除弘揚國產(chǎn)技術(shù)實力外,也有一些趣味因素在其中。
中文大模型是否能夠“遙遙領(lǐng)先”?這是十分令人期待的。
嚴肅些說,中國需要自己的中文大模型。可以看到,中文大模型的崛起已在日程之上。在OpenAI的GPT系列活躍量連續(xù)下滑之際,諸如百度文心一言等產(chǎn)品的增長卻與日俱增。應(yīng)該說,從落后再到領(lǐng)跑,在過去的幾個月間,中文大模型打出了一場漂亮的逆襲戰(zhàn)。
中文大模型的優(yōu)勢是,它在語義理解上更加準(zhǔn)確,在文化背景差異上也幾乎沒有代溝。如果當(dāng)我們把視角放在科技創(chuàng)新、產(chǎn)業(yè)升級等大背景下,中文大模型所承載的知識量或?qū)⒃俅嗡⑿氯藗兊恼J知。
應(yīng)該看到,中文大模型也是“國貨”的一種,它不僅是高新技術(shù)領(lǐng)域的突破,也可被看成一種對外名片和集體記憶。
一個好消息是,目前據(jù)已知的訊息,百度文心大模型4.0已進入小流量測試階段,其參數(shù)量大于所有已經(jīng)公開的LLM(大語言模型)。
值得注意的是,該款產(chǎn)品是國內(nèi)首次使用萬卡規(guī)模AI集群訓(xùn)練的大語言模型。借助百度飛槳的深度融合,它將大幅超越前作。作為國內(nèi)對標(biāo)“GPT-4"的產(chǎn)品,它的問世將是令人激動的。
有媒體爆料,百度文心大模型4.0正在加緊訓(xùn)練,已經(jīng)接近可發(fā)布狀態(tài)。
言而總之,對于國內(nèi)眾多廠商而言,如今的大模型已至競爭的下半場,“百模大戰(zhàn)”或更快落幕。不過對于普通人而言,產(chǎn)品的品牌廠商并不重要,能享受到體驗上乘的產(chǎn)品才是第一選擇。
(責(zé)任編輯:徐帥 )【免責(zé)聲明】本文僅代表第三方觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險請自擔(dān)。
關(guān)鍵詞: