人工智能模型消化80小時的視頻以學(xué)習(xí)手語

發(fā)布時間:2023-05-25 11:00:08
編輯:
來源:cnBeta
字體:

對于聾人和重聽者來說,像Alexa和Siri這樣的語音識別技術(shù)反而可能是有效溝通的障礙。研究人員利用人工智能開發(fā)了一種將手語轉(zhuǎn)換為文本的工具,可能會增加聾人社區(qū)的包容性和可及性。

翻譯手語需要精確理解手語者的姿勢,以產(chǎn)生準(zhǔn)確的文字轉(zhuǎn)寫。巴塞羅那超級計算中心(BSC)和加泰羅尼亞理工大學(xué)(UPC)的研究人員利用人工智能開發(fā)了一種改進(jìn)手語翻譯的工具,這是允許聾人和重聽者與技術(shù)互動并獲得為口語設(shè)計的數(shù)字服務(wù)的重要一步。

研究人員使用了一個轉(zhuǎn)化器式的機(jī)器學(xué)習(xí)模型,與ChatGPT等其他人工智能工具背后的模型類似。變壓器之所以有用,主要有兩個原因。第一,這些模型特別善于學(xué)習(xí)如何應(yīng)用上下文,這是因為架構(gòu)中存在自我注意機(jī)制--自我注意是神經(jīng)網(wǎng)絡(luò)如何通過查看文本中的其他詞匯來確定詞匯的上下文。其次,當(dāng)從訓(xùn)練實例中學(xué)習(xí)時,它們允許更快的吞吐量,使更多的訓(xùn)練數(shù)據(jù)在特定時間內(nèi)被使用。

這里的訓(xùn)練數(shù)據(jù)集來自How2Sign,這是一個公開可用的大規(guī)模、多模態(tài)和多視圖數(shù)據(jù)集,包括80小時的美國手語教學(xué)視頻和相應(yīng)的英語文字記錄。

該研究的主要作者Laia Tarrés說:"所開發(fā)的新工具是以前同樣由BSC和UPC發(fā)布的名為How2Sign的出版物的延伸,在那里,訓(xùn)練模型所需的數(shù)據(jù)(超過80小時的視頻,其中美國手語翻譯人員翻譯了烹飪食譜或DIY技巧等視頻教程)被公布。有了這些已經(jīng)可用的數(shù)據(jù),該團(tuán)隊開發(fā)了一個新的開源軟件,能夠?qū)W習(xí)視頻和文本之間的映射。"

對于研究人員來說,使用連續(xù)簽名的視頻而不是孤立的簽名是很重要的,因為它更真實地反映了說話者是如何自然地使用一連串的詞(連接)來構(gòu)建句子的,這對確定一個句子的含義是至關(guān)重要的。

研究人員面臨的一個挑戰(zhàn)是手語的多變性和復(fù)雜性,它可能受到諸如手語者的背景、背景和外表的影響。為了在這方面有所幫助,他們使用膨脹式三維網(wǎng)絡(luò)(I3D)對數(shù)據(jù)進(jìn)行了預(yù)處理,這是一種視頻提取方法,對視頻進(jìn)行三維過濾,允許直接從視頻中獲取時空信息。

研究人員發(fā)現(xiàn),文本預(yù)處理也大大改善了簽名到文本的翻譯。為了預(yù)處理原始文本,他們將其全部轉(zhuǎn)換為小寫字母,從而降低了詞匯的復(fù)雜性。

總體而言,他們發(fā)現(xiàn)他們的模型能夠產(chǎn)生有意義的翻譯,但并不完美。"研究人員說:"雖然我們的工作顯示出有希望的結(jié)果,但仍有改進(jìn)的余地。

由于該模型仍處于實驗階段,研究人員將繼續(xù)努力創(chuàng)建一個工具,使聾人和重聽者能夠獲得與無聽力損失者相同的技術(shù)。

Tarrés說:"這個自動手語翻譯的開放工具是對關(guān)注無障礙環(huán)境的科學(xué)界的寶貴貢獻(xiàn),它的發(fā)表代表了向為所有人創(chuàng)造更具包容性和無障礙的技術(shù)邁出的重要一步。"

該研究報告在線發(fā)表在arXiv上。

標(biāo)簽: 人工智能 人工智能模型 手語學(xué)習(xí)

   原標(biāo)題:人工智能模型消化80小時的視頻以學(xué)習(xí)手語

>更多相關(guān)文章
最近更新