近年來,以 ChatGPT 為代表的大模型飛速發(fā)展,在自然語言處理上展現(xiàn)出驚人的效果,儼然成為新一輪科技革命的重要驅(qū)動力量,深刻改變著人類的生產(chǎn)方式、生活方式和學(xué)習(xí)方式。
雖然大模型取得了突破性的進(jìn)展,但其在多語言能力上的探索仍然十分滯后,并存在著諸多的局限性。
為此,北京交通大學(xué)助理教授黃鍇宇和合作者,針對大模型在多語言場景下的語種維度和領(lǐng)域維度,進(jìn)行了一次總結(jié)和分析。
圖 | 相關(guān)論文(來源:arXiv)
日前,相關(guān)論文以《多語言大型語言模型研究綜述:最新進(jìn)展和新前沿》(A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers)為題發(fā)在 arXiv[1]。
圖 | 黃鍇宇(來源:黃鍇宇)
黃鍇宇和加拿大蒙特利爾大學(xué)博士生莫馮然是共同一作。
圖 | 莫馮然(來源:莫馮然)
在這篇論文中,他們找出了通用數(shù)據(jù)驅(qū)動型大模型主要面臨的三個問題:
第一,語言遷移問題。
大模型的訓(xùn)練數(shù)據(jù)主要專注以英文為核心的通用文本數(shù)據(jù)。
現(xiàn)有的具備一定多語言能力的大模型,也主要以高資源語種為主,所能支持的語種數(shù)量十分有限。
在資源受限的語種性能表現(xiàn)上存在一定的桎梏,比如難以生成流利的句子等。
第二,知識累積問題。
由于數(shù)據(jù)的限制,現(xiàn)有的數(shù)據(jù)難以實(shí)現(xiàn)互相共享和持續(xù)更新。
當(dāng)將所有語言數(shù)據(jù)匯聚到一個語言模型中,模型的通用知識也會隨著差異化訓(xùn)練而產(chǎn)生遺忘。這會讓模型難以保持原本擅長的語言能力和其他能力。
不同語言之間的知識也存在沖突,造成大模型的知識持續(xù)累積能力不足,使得其在單一模型內(nèi)難以實(shí)現(xiàn)多語言環(huán)境的通用人工智能。
第三,領(lǐng)域適應(yīng)問題。
在多語言場景下的特定領(lǐng)域,大模型存在適應(yīng)性不足的問題。
現(xiàn)有的領(lǐng)域級衍生大模型一般是單語模型。而在不同語言場景中,領(lǐng)域任務(wù)同時存在文化差異和語種差異,這時難以利用翻譯、中軸語等弱對齊方式進(jìn)行語料庫擴(kuò)展。
因此,在非英文場景之下,特定領(lǐng)域的語料庫十分匱乏,這讓模型難以擴(kuò)展成為多語言的領(lǐng)域級大模型。
(來源:arXiv)
而在本次工作中,研究人員探究了當(dāng)前大模型在多個維度下的多語言能力和訓(xùn)練方法,并提出了發(fā)掘大模型多語言潛力的方法。
同時,他們還引入“大模型的多語言性”這一概念,針對具有優(yōu)質(zhì)多語言能力的現(xiàn)有大模型進(jìn)行了系統(tǒng)性調(diào)查。
課題組表示:大模型的多語言性,有別于傳統(tǒng)的多語言大模型的概念。也就是說,現(xiàn)有的大模型不再過分強(qiáng)調(diào)自身是否是一個多語言大模型。
因此,該團(tuán)隊為這些模型提供了新的分類結(jié)構(gòu)、比較分析和多視角探索,以評估其適用性和局限性,以便為大模型的有效利用提供建議。
對于大模型來說,它們基于數(shù)據(jù)驅(qū)動的范式。因此,研究人員針對與多語言有關(guān)的可用數(shù)據(jù)集和可用評測基準(zhǔn),也進(jìn)行了總結(jié)和討論。
通過此,他們繪制出一張概括圖,并將這張圖起名為“1+2+3+4”:即一個發(fā)展樹(One Tree)、兩種范式(Two Paradigms)、三種架構(gòu)(Three Architectures)、四個未來探索點(diǎn)(Four Frontiers)。
通過此,他們針對近些年大模型的多語言能力,進(jìn)行了一次綜述性歸納,旨在探索多語言自然語言處理和多語言大模型的下一步發(fā)展方向。
(來源:arXiv)
正如研究人員在論文中所提到的:目前,多語言人工智能還面臨著諸多挑戰(zhàn)。而在大模型時代,這些挑戰(zhàn)也仍舊存在。
這些挑戰(zhàn)制約著大模型在推理能力、安全性和領(lǐng)域級解決方案等多方面的應(yīng)用。
因此,該團(tuán)隊希望本次工作能夠起到如下作用:即推動大模型在新一代多語言對話助手和多語言信息檢索系統(tǒng)等方面的應(yīng)用。
同時,研究人員指出在發(fā)展多語言大模型的同時,還需要思考下一代多語言人工智能的范式。
目前,大模型仍需依靠海量數(shù)據(jù)的支撐和驅(qū)動,這在多語言場景下會讓其應(yīng)用面臨一定的掣肘。
一種語言的使用群體規(guī)模,決定了該類語音數(shù)據(jù)的規(guī)模。而一些資源匱乏的語言,也許永遠(yuǎn)不具備形成海量資源的可能。
而人類從頭學(xué)習(xí)新語言、或借助一門基礎(chǔ)語言再學(xué)習(xí)一門新語言,根本無需很多數(shù)據(jù)。即人類通過學(xué)習(xí)詞匯和語法,就能很快進(jìn)行造句,從而達(dá)到交流的目的。
但是,目前的人工智能技術(shù)顯然并不具備這種能力,因此該團(tuán)隊認(rèn)為多語言人工智能的進(jìn)一步發(fā)展,將能夠促進(jìn)類人智能研究的發(fā)展,從而為探索人腦理解和生成語言的方式帶來助力。
此外,由于當(dāng)前大模型的數(shù)量非常多,僅國內(nèi)就有兩百多個大模型,因此在一篇論文中很難做到全部覆蓋。
為此,研究人員發(fā)布了一個 GitHub 倉庫和對應(yīng)的 leaderboard,以用于陳列和在多個維度上比較現(xiàn)有大模型的多語言能力。
未來,除了繼續(xù)維護(hù)上述倉庫之外,他們也會延展多語言能力的評測方法,促進(jìn)多語言社區(qū)的發(fā)展。
黃鍇宇補(bǔ)充稱:“語言,既是智能的一種表現(xiàn)形式,也是人類智慧的結(jié)晶,并會影響人類理解世界的方式。”
語言的界限,也意味著人類世界的界限。由于語言的獨(dú)特性和多樣性,打造多語言社區(qū)需要全世界人類的共同努力。
目前,英文社區(qū)仍然處于領(lǐng)先發(fā)展的狀態(tài),其他語言社區(qū)在這種發(fā)展態(tài)勢下可能會被越拉越遠(yuǎn),甚至逐漸消亡。
但是,多語言社區(qū)的持續(xù)發(fā)展,對于維護(hù)語言穩(wěn)定和語種的多樣性、以及保護(hù)資源匱乏語種不“被消亡”至關(guān)重要。
因此,黃鍇宇希望多語言人工智能技術(shù),可以成為打破語言界限的一種福祉。
參考資料:
1.https://arxiv.org/pdf/2405.10936
運(yùn)營/排版:何晨龍