國(guó)盛證券劉高暢:中文數(shù)據(jù)欠缺 算力消耗顯著|全球快資訊

發(fā)布時(shí)間:2023-04-27 08:44:02
編輯:
來(lái)源:東方財(cái)富網(wǎng)
字體:


(相關(guān)資料圖)

國(guó)盛證券劉高暢在節(jié)目中表示,數(shù)據(jù)方面,高質(zhì)量的中文語(yǔ)料庫(kù)相對(duì)稀缺,會(huì)有一些誤差率的問(wèn)題;算力方面,訓(xùn)練端對(duì)算力的要求不是很極限,但應(yīng)用端對(duì)算力的消耗非常顯著。

以下為文字精華:

提問(wèn):除了算法,人工智能訓(xùn)練的時(shí)候也需要很大的算力,包括海量的數(shù)據(jù),特別是我們中國(guó)跟海外的數(shù)據(jù)源可能還存在一些割裂。在算力和數(shù)據(jù)方面,我們和海外有多少差距?

劉高暢:數(shù)據(jù)方面,在GPT3以前用的都是互聯(lián)網(wǎng)的公開(kāi)數(shù)據(jù),中文目前來(lái)看,客觀(guān)的條件就是高質(zhì)量的語(yǔ)料庫(kù)相對(duì)來(lái)講會(huì)稀缺一些。

在整個(gè)OpenAI的大模型中,我們了解到中文的語(yǔ)料庫(kù)使用只有5%,從誤差率的角度來(lái)講,英文可能在2%—3%,中文大概在10%以上。用中文去測(cè)試ChatGPT,效果也不如英文。但是,我們也看到國(guó)內(nèi)的高質(zhì)量語(yǔ)料庫(kù)在快速生成中,大家也在探索,包括知乎和萬(wàn)方這樣的一些高質(zhì)量語(yǔ)料庫(kù)在形成。

大模型的數(shù)據(jù)還是以互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)為主,可能在寫(xiě)代碼這個(gè)階段,一些頂尖大廠(chǎng)比如微軟,代碼的水平會(huì)比較高,但是畢竟這一塊只是小部分,我們推測(cè)起不了決定性的作用,應(yīng)該不是特別大的瓶頸。OpenAI在去年GPT3.5的時(shí)候,大概用了45TB的數(shù)據(jù),做模型數(shù)據(jù)集處理和傾斜的部分應(yīng)該是不超過(guò)1TB的,所以其實(shí)是很少的數(shù)據(jù),這一點(diǎn)不用特別擔(dān)心。

算力方面,如果從訓(xùn)練端的角度來(lái)看,如果在GPT3以前,用2000張英偉達(dá)A100的算力,如果你訓(xùn)不出來(lái)成果,我們建議就不要去做了,說(shuō)明這個(gè)團(tuán)隊(duì)水平有點(diǎn)問(wèn)題。如果在GPT3.5以前,5000張如果訓(xùn)不出來(lái),我們建議也不要再做訓(xùn)練了,說(shuō)明這個(gè)團(tuán)隊(duì)多多少少有點(diǎn)問(wèn)題。

我們認(rèn)為在訓(xùn)練階段,對(duì)算力的需求量沒(méi)有那么極限,國(guó)內(nèi)明面上和潛在的產(chǎn)業(yè)中的儲(chǔ)備我們認(rèn)為是夠的。

應(yīng)用端來(lái)看,做模型蒸餾和模型裁剪,把算力的消耗做到以前的90%,已經(jīng)是很高的縮減度了。但是就這樣的情況來(lái)看,算力還是會(huì)捉襟見(jiàn)肘,對(duì)未來(lái)算力的消耗還會(huì)非常顯著,包括我們國(guó)家的一些晶圓代工和設(shè)計(jì)廠(chǎng)商,這也是他們需要努力的地方,其實(shí)是機(jī)遇也是挑戰(zhàn)。

標(biāo)簽:

   原標(biāo)題:國(guó)盛證券劉高暢:中文數(shù)據(jù)欠缺 算力消耗顯著|全球快資訊

>更多相關(guān)文章
最近更新