全球?qū)崟r(shí):從《王者榮耀》“開悟”中,窺見人工智能的未來(lái)

發(fā)布時(shí)間:2023-05-18 19:10:43
編輯:
來(lái)源:網(wǎng)易游戲
字體:

現(xiàn)場(chǎng)采訪:彭楚微

撰稿:彭楚微、祝佳音

“您覺得強(qiáng)人工智能快要出現(xiàn)了嗎?”我問鄧民文。


(資料圖)

“不管是聊天,還是做圖,目前還都屬于基本工具范疇里的進(jìn)展?!编嚸裎倪@么回答我。他坐在我的面前,似乎把采訪看成是啟發(fā)思考的討論。當(dāng)有人提醒我們問答要按照流程時(shí),他揮揮手,示意大家輕松一點(diǎn),這讓他有一點(diǎn)兒學(xué)者的氣度。

“比如人說話,不僅可以回顧過去,也能預(yù)測(cè)未來(lái),目前的聊天機(jī)器人不能預(yù)測(cè)未來(lái),因?yàn)樗腔跉v史數(shù)據(jù)去做的,所以它對(duì)于預(yù)測(cè)是比較弱的?!编嚸裎恼f,接著他又補(bǔ)上一句自謙的話:“這個(gè)是我的簡(jiǎn)單思考?!?/p>

我和鄧民文聊的話題是最近火熱的人工智能。上周二,騰訊在成都舉行了本年度的STAC科創(chuàng)聯(lián)合大會(huì)。STAC,簡(jiǎn)單理解,就是用技術(shù)聯(lián)結(jié)生活、聯(lián)結(jié)生產(chǎn),而 “技術(shù)”,具體而言指的就是人工智能。

STAC科創(chuàng)聯(lián)合大會(huì)已經(jīng)舉辦到了第3屆

如鄧民文所說,目前的人工智能更為人熟知的是根據(jù)既定事實(shí)進(jìn)行回顧和總結(jié)的功能,而少有從記憶中總結(jié)經(jīng)驗(yàn),從而“預(yù)測(cè)未來(lái)”的能力——按我的理解,這里所說的“未來(lái)”既包括數(shù)十年之后,也包括1秒之后。他說,“決策型人工智能”就是一種能“預(yù)測(cè)未來(lái)”的人工智能——模型根據(jù)未來(lái)的預(yù)期效益,決定此刻的行為。強(qiáng)化學(xué)習(xí),是目前實(shí)現(xiàn)智能決策的最優(yōu)方法,按照他的說法,“開悟”平臺(tái)主要做的就是強(qiáng)化學(xué)習(xí)研究。

我和鄧民文不是第一次打交道。在2年前的程序員節(jié)上,我和他就聊過用《王者榮耀》訓(xùn)練人工智能的事兒。鄧民文是騰訊AI Lab智能計(jì)算中心總監(jiān)和“開悟”平臺(tái)的技術(shù)負(fù)責(zé)人,“開悟”是“騰訊牽頭構(gòu)建的,依托騰訊AI Lab和《王者榮耀》技術(shù)與研究環(huán)境的AI開放研究平臺(tái)”。

在那篇文章中,我打過一個(gè)比方:人工智能就像孩子,想要讓孩子懂事兒,你就需要教他知識(shí),讓他在世界中奔跑以積累經(jīng)驗(yàn)——“開悟”就是那個(gè)孩子,《王者榮耀》就是讓這個(gè)孩子積累經(jīng)驗(yàn)的世界。

讓我們好奇的是,時(shí)至今日,當(dāng)初的孩子長(zhǎng)大了嗎?

“AI向善”

先簡(jiǎn)單介紹一下人工智能吧?!叭斯ぶ悄堋辈⒉皇且粋€(gè)新的術(shù)語(yǔ),它已經(jīng)有幾十年的歷史了。大約在上世紀(jì)80年代初,計(jì)算機(jī)科學(xué)家們就開始設(shè)計(jì)可以學(xué)習(xí)和模仿人類行為的算法。如果說人工智能是個(gè)孩子,那么,你可以把算法看成這個(gè)孩子的教育方式。

現(xiàn)在,“開悟”平臺(tái)上的人們,正在讓人工智能進(jìn)行強(qiáng)化學(xué)習(xí)。所謂“強(qiáng)化學(xué)習(xí)”,就是人工智能不僅能利用現(xiàn)有數(shù)據(jù),還可以通過事先設(shè)計(jì)的獎(jiǎng)勵(lì)規(guī)則,讓AI在行動(dòng)中根據(jù)反饋?zhàn)晕倚拚鸩綄W(xué)會(huì)正確的行為模式。

學(xué)習(xí)是為了更好地對(duì)環(huán)境進(jìn)行探索,而探索是為了獲取數(shù)據(jù)反饋進(jìn)行更好的學(xué)習(xí)。如果說深度學(xué)習(xí)是死記硬背式的學(xué)習(xí)方式,那么,強(qiáng)化學(xué)習(xí)更像是一個(gè)什么都不懂,但被放在考場(chǎng)中不斷考試的學(xué)生,通過分?jǐn)?shù)(反饋)知道自己做對(duì)了什么,在大量嘗試中提高分?jǐn)?shù)。

比起監(jiān)督學(xué)習(xí)需要的大量標(biāo)注數(shù)據(jù),強(qiáng)化學(xué)習(xí)的關(guān)鍵是讓人工智能自主地對(duì)環(huán)境進(jìn)行感知和探索,在和環(huán)境交互過程中,產(chǎn)生大量數(shù)據(jù)?!叭绻阆雽?shí)現(xiàn)強(qiáng)人工智能,就要依賴特別多的數(shù)據(jù),但是問題在于,現(xiàn)在很多場(chǎng)景數(shù)據(jù)不多。”鄧民文對(duì)我說道。

鄧民文在STAC科創(chuàng)聯(lián)合大會(huì)上

場(chǎng)景越復(fù)雜,越能模擬真實(shí)的環(huán)境,人工智能強(qiáng)化學(xué)習(xí)的效果就越好。在過去,學(xué)術(shù)界用的環(huán)境往往比較簡(jiǎn)單,比如走迷宮,這些環(huán)境適合教育入門,卻無(wú)法對(duì)應(yīng)更深度的研究和發(fā)展。這種時(shí)候,游戲便自然而然地走入了研究者們的視野。最早是簡(jiǎn)單的智力游戲,比如棋類,大名鼎鼎的AlphaGo就是這么干的,它可以同時(shí)開展很多對(duì)戰(zhàn),通過對(duì)棋類游戲的規(guī)則模擬獲得海量的數(shù)據(jù)。

但棋類游戲是一個(gè)封閉系統(tǒng)。盡管它的空間復(fù)雜程度對(duì)于普通人來(lái)說難以想象,卻并不是人工智能的算力上限——概括地說,它不夠復(fù)雜,也不夠符合現(xiàn)實(shí)。

這時(shí),研究者們就需要更加復(fù)雜的環(huán)境。多人對(duì)抗類游戲由此成為熱門選擇。早在2017年,《刀塔2》就曾開放內(nèi)部代碼供給研究團(tuán)隊(duì)訓(xùn)練人工智能,第二年,名為Open AI的機(jī)器人就能在賽場(chǎng)上和職業(yè)玩家對(duì)戰(zhàn)。但其后,《刀塔2》很快停止了對(duì)人工智能訓(xùn)練的支持,國(guó)內(nèi)研究者也無(wú)從尋找合適的游戲進(jìn)行學(xué)習(xí)。

如今,Open AI與《刀塔2》的故事已經(jīng)家喻戶曉

同樣在2017年,《王者榮耀》團(tuán)隊(duì)與騰訊AI Lab共同研發(fā)了策略協(xié)作型人工智能,這也就是現(xiàn)在玩家們耳熟能詳?shù)摹巴跽呓^悟”。按介紹所說,王者絕悟是深度強(qiáng)化學(xué)習(xí)、多智能體決策等智能課題上的重要研究成果——這得益于《王者榮耀》高復(fù)雜度、高挑戰(zhàn)性、強(qiáng)協(xié)作性等特征。介紹還說,因?yàn)椤锻跽邩s譽(yù)》能夠滿足研究人員的一系列要求,包括環(huán)境的不確定性、信息獲取的局限性、個(gè)體目標(biāo)與全局目標(biāo)的一致性(這些詞兒聽起來(lái)有些嚇人)。所以,2019年8月“開悟”平臺(tái)的上線,對(duì)人工智能的研究和發(fā)展具有重要意義。

如果再用棋類游戲來(lái)類比,圍棋和MOBA在狀態(tài)空間復(fù)雜度上有著明顯的差異。通俗地說,圍棋下一個(gè)子就是一次“狀態(tài)”變更,而MOBA游戲中,一個(gè)英雄每向前走一步,就算一個(gè)狀態(tài)變更,還要涉及到多個(gè)維度。以數(shù)字而言,一局圍棋的狀態(tài)空間大約是10的172次方,而一局《王者榮耀》則可高達(dá)10的20000次方。

鄧民文對(duì)我說:“我們提供的環(huán)境比較復(fù)雜,所以也給學(xué)術(shù)界提供了一種新的嘗試,它既有原來(lái)教育的簡(jiǎn)單的環(huán)境,也有我們比較復(fù)雜的環(huán)境?!?/p>

鄧民文口中的新嘗試,指的是在2022年11月份, “開悟”平臺(tái)宣布正式開放“《王者榮耀》AI開放研究環(huán)境”申請(qǐng)。開放的環(huán)境基于《王者榮耀》1v1對(duì)局,用個(gè)簡(jiǎn)單的例子,就是研究者們使用兩個(gè)AI來(lái)操控英雄相互戰(zhàn)斗。在《王者榮耀》中,戰(zhàn)斗的規(guī)則相對(duì)復(fù)雜——不僅要攻擊,要釋放技能,技能又影響到走位、狀態(tài)等等因素,所以非常適合用作學(xué)術(shù)上博弈問題的研究。

這種博弈環(huán)境比圍棋更加復(fù)雜,也更能夠挑起年輕人們的興趣——如今在視頻網(wǎng)站上有一種新潮的風(fēng)格,叫做“電子斗蛐蛐”,簡(jiǎn)單來(lái)說就是讓自己調(diào)試好的AI在游戲中進(jìn)行戰(zhàn)斗。年輕人大多是天然的玩家,《王者榮耀》又常常是他們第一款啟蒙游戲。誰(shuí)能拒絕看兩個(gè)英雄在自己的學(xué)習(xí)成果下相互戰(zhàn)斗呢?

AI也可以在峽谷中展開博弈

正因?yàn)椤伴_悟”平臺(tái)同時(shí)滿足了研究者的興趣和要求,所以到目前為止,申請(qǐng)超過了400人次。這遠(yuǎn)超出了鄧民文的想象。鄧民文告訴我,他原本并沒有很高的預(yù)期,因?yàn)檫@個(gè)領(lǐng)域的研究比較困難,研究這個(gè)領(lǐng)域的學(xué)者也不是很多。

“我們把它往前推了一步,從原來(lái)缺少的訓(xùn)練環(huán)境的現(xiàn)狀,這是我們覺得做得比較好的地方?!编嚸裎男α似饋?lái),還帶著點(diǎn)兒欣慰,其慈祥程度讓我想起望子多時(shí)的父母:當(dāng)初的孩子終于長(zhǎng)大了些,可以對(duì)外做點(diǎn)什么了。

當(dāng)然,如今的“開悟”平臺(tái)不僅把教育和興趣相結(jié)合,也在理論和實(shí)際應(yīng)用之間承擔(dān)著橋梁的作用。就像本次大會(huì)的主題:“AI(愛)在——合則有靈,萬(wàn)物共生”一樣,AI在從游戲中學(xué)到的知識(shí)將被用到和萬(wàn)物相融的方向。“AI向善”,是會(huì)上發(fā)言的嘉賓們不斷重復(fù)的一句話。

通過“開悟”平臺(tái),研究者們可以有條件研究博弈問題,博弈的問題不僅是學(xué)術(shù)前沿的問題,也和現(xiàn)實(shí)生活息息相關(guān)。鄧民文告訴我:“研究機(jī)器人的路徑規(guī)劃、智能的物流,或者是交通燈,或者研究虛擬場(chǎng)景下兩個(gè)智能體的交互。這些場(chǎng)景下,我們這個(gè)《王者榮耀》的研究環(huán)境比較好,所以才會(huì)吸引到很多的學(xué)生以及老師去把這個(gè)環(huán)境下載下來(lái)?!?/p>

基于游戲虛擬場(chǎng)景,訓(xùn)練AI的通用能力,讓更智能的AI在各領(lǐng)域服務(wù)人類,是游戲AI研究的核心目標(biāo)。舉個(gè)例子,假如AI在王者峽谷中,能夠快速分析瞬息萬(wàn)變的環(huán)境和對(duì)手并作出決策,這個(gè)能力運(yùn)用于同樣復(fù)雜的真實(shí)城市路況,就是自動(dòng)駕駛AI的雛形;當(dāng)AI學(xué)會(huì)了如何控制5個(gè)隊(duì)友配合互助,或許就能在工業(yè)環(huán)境中操作多個(gè)機(jī)器人,完成復(fù)雜的生產(chǎn)任務(wù)。

和高校與科研團(tuán)隊(duì)建立長(zhǎng)期合作,將現(xiàn)實(shí)問題“請(qǐng)”到游戲之中,通過低成本的游戲環(huán)境去模擬和解決現(xiàn)實(shí)問題。最后,讓AI通過在游戲中學(xué)習(xí)去解決現(xiàn)實(shí)中的問題,正是本次大會(huì)“AI向善”主題下,“開悟”希望用游戲科技去探索的方向。

“人人有高光”

上午10點(diǎn)30分,和鄧民文聊過后,我回到會(huì)議廳。此時(shí),《王者榮耀》對(duì)外宣布了新的賽事,并提出了“以賽促學(xué),學(xué)以致用”的理念。在未來(lái),所有高校的研究者都將能夠有機(jī)會(huì)使用“開悟”平臺(tái),參與到“開悟”平臺(tái)的賽事之中,“人人有高光”。

“賽事”指的是2023騰訊開悟人工智能全國(guó)公開賽,在這之前,“開悟”平臺(tái)所舉辦的賽事都是以“邀請(qǐng)賽”的形式進(jìn)行的。而在接下來(lái)的幾個(gè)月間,這項(xiàng)賽事將轉(zhuǎn)變?yōu)楣_賽。也就是說,在這次大會(huì)之后,全國(guó)大大小小的院校,不需要資格,就可以獲得由《王者榮耀》等平臺(tái)提供的研究資源、計(jì)算平臺(tái)、評(píng)估工具等等其他服務(wù)。

STAC科創(chuàng)聯(lián)合大會(huì)上,2023騰訊開悟人工智能全國(guó)公開賽正式發(fā)布

從這個(gè)意義上說,“人人有高光”不僅是說每個(gè)人都能參賽,也表示在人工智能科教方面,“開悟”平臺(tái)在逐步推動(dòng)AI教育資源的普及——這些服務(wù)不僅面向重點(diǎn)大學(xué),更會(huì)走進(jìn)更多普通的本科和大專,開展機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、多智能體決策等相關(guān)課程。鄧民文告訴我,將會(huì)有許多來(lái)自騰訊的老師前去各個(gè)高校分享教學(xué)經(jīng)驗(yàn)。

“我們幫助一些高校的老師,培訓(xùn)他們使用我們的工具,這不是說我們就比老師們要更厲害,”鄧民文說,“而是我們前期跟4所高校的合作得到了一些經(jīng)驗(yàn),把這些經(jīng)驗(yàn)分享給更多高校,就可以讓更多人學(xué)會(huì)怎么使用我們的工具去教學(xué)?!?/p>

根據(jù)騰訊提供的數(shù)據(jù),“王者AI”相關(guān)課程合作高校數(shù)量從去年的4所增至今年的19所。有超過20個(gè)班級(jí)的學(xué)生參與了“王者AI”相關(guān)課程的學(xué)習(xí),累計(jì)學(xué)生超過630名。

授人以魚不如授人以漁,這聽起來(lái)很鼓舞人心。

通過人工智能,《王者榮耀》以“開悟”平臺(tái)和高校教育相聯(lián)結(jié)。游戲是平等的,人人都可以拿起自己手機(jī),在游戲中獲得屬于自己的高光時(shí)刻?!伴_悟”平臺(tái)不僅充當(dāng)了游戲、產(chǎn)業(yè)和教育的橋梁,也把游戲本身的平等氣質(zhì)帶給了大學(xué)生們。

雖然說起來(lái)很輕巧,但這同樣需要許多人的努力加上合適的時(shí)機(jī)才能促成?!伴_悟”平臺(tái)賽制的轉(zhuǎn)變是個(gè)有趣的例子。

從2020年8月的首屆“騰訊開悟MOBA多智能體強(qiáng)化學(xué)習(xí)”大賽起,通過3年的積累,賽事逐漸提升了平臺(tái)易用性,降低了賽題門檻;準(zhǔn)備了體系化的人工智能課程,幫助參賽選手更好地學(xué)習(xí)和參與比賽。如今,也將會(huì)把課程和平臺(tái)引入高校課堂,把實(shí)踐教學(xué)與競(jìng)賽聯(lián)系起來(lái),實(shí)現(xiàn)‘以賽促學(xué),學(xué)以致用’,讓高校學(xué)子有更大的平臺(tái)驗(yàn)證和鍛煉自己。

第3屆騰訊多智能體強(qiáng)化學(xué)習(xí)大賽冠、亞、季軍

根據(jù)“開悟”平臺(tái)官網(wǎng)的介紹,在今年,“開悟”將可供測(cè)試和研究人工智能的客戶端版本調(diào)整為了Web版本——這意味著電腦配置比較低的學(xué)生,也能夠使用“開悟”平臺(tái)來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)和多智能體相關(guān)的技術(shù)研究。同時(shí),“開悟”也拓展了新的迷宮地圖——比傳統(tǒng)的峽谷PvP地圖更簡(jiǎn)單。這一方面表示,更簡(jiǎn)單的地圖能夠讓初次接觸相關(guān)領(lǐng)域的學(xué)生更輕松上手研究;同時(shí),應(yīng)用到比賽中,也能降低相關(guān)賽事門檻。

在現(xiàn)場(chǎng),當(dāng)宣布完騰訊“開悟”AI賽事將從往年的定向邀請(qǐng)模式改為公開報(bào)名模式的時(shí)候,我聽見一陣掌聲響起。當(dāng)時(shí)我正在會(huì)議廳門外站著,這給我提供了一個(gè)站在角落旁觀整個(gè)會(huì)場(chǎng)的機(jī)會(huì),過了一會(huì),我注意到周圍站了不少年輕人,掌聲也大多由他們而起。

他們是各個(gè)高校的學(xué)生,像是正在發(fā)芽的種子,接受著外界的陽(yáng)光和雨露,他們知道自己想要什么,并為之鼓掌歡呼。他們也是中國(guó)人工智能產(chǎn)業(yè)的希望。

寫在騰訊STAC?會(huì)后

成都的5月充滿了水和霧氣,這是萬(wàn)物蓬勃生長(zhǎng)的季節(jié),給人一種希望感,正如這次大會(huì)給我的感覺。

人工智能正迎來(lái)猛烈發(fā)展的時(shí)期。在今年,國(guó)家出臺(tái)了一系列支持人工智能的規(guī)劃綱要和行動(dòng)計(jì)劃,將人工智能明確為建設(shè)創(chuàng)新型國(guó)家,實(shí)現(xiàn)新型工業(yè)化、信息化,推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展必不可少的技術(shù)基礎(chǔ)。隨著過去一年中,各類繪圖、聊天AI的出現(xiàn),以AI為典型代表、基于大模型應(yīng)用的技術(shù)創(chuàng)新和產(chǎn)業(yè)成果,也開始在我國(guó)全面展開。

《王者榮耀》和“開悟”平臺(tái)正在做的事兒就是“播種”,通過自身的影響力為我國(guó)AI產(chǎn)業(yè)的未來(lái)播下希望的種子,并溫和地對(duì)待它們,盡力讓每一顆種子能夠擁有成長(zhǎng)的條件。某種程度上,能夠這樣做,并選擇這樣做的《王者榮耀》是一款電子游戲理想的樣子:它好玩,影響力足夠大,并且足夠成功,在做好自己分內(nèi)事情的基礎(chǔ)上開始思考更大的命題:科學(xué)的發(fā)展、教育的公平,讓更多的人——無(wú)論玩游戲的人,還是不玩游戲的人——都變得更好。

3年來(lái),“開悟”平臺(tái)播下的種子,其實(shí)已經(jīng)初見成效,騰訊與西南交大合作的智慧交通項(xiàng)目進(jìn)行到了實(shí)驗(yàn)階段,預(yù)計(jì)今年下半年進(jìn)入校內(nèi)場(chǎng)景測(cè)試。

一切并沒有那么快,當(dāng)初的那個(gè)孩子,如今仍然沒有長(zhǎng)大成人,它只是長(zhǎng)大了一些。但所有人都是從孩童時(shí)代開始的,AI技術(shù)已經(jīng)開始在用自己的一點(diǎn)點(diǎn)努力去帶動(dòng)更多人成長(zhǎng),并回報(bào)整個(gè)社會(huì)。

騰訊AI Lab總經(jīng)理?xiàng)钗?/p>

“最困難(的時(shí)候)是我們之前跟《王者榮耀》一起做這件事情時(shí),我們做這件事情,可以說是史無(wú)前例的。”在采訪的尾聲,騰訊AI Lab總經(jīng)理?xiàng)钗∵@樣對(duì)我說。

既史無(wú)前例,也希望無(wú)窮。

標(biāo)簽:

   原標(biāo)題:全球?qū)崟r(shí):從《王者榮耀》“開悟”中,窺見人工智能的未來(lái)

>更多相關(guān)文章
最近更新