您現(xiàn)在的位置:首頁(yè) > 科技 > 正文

今日快訊:基于詞串的小語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型及語(yǔ)言分析技術(shù)

時(shí)間:2023-05-30 17:44:17    來(lái)源:科普中國(guó)網(wǎng)    

摘 要**:**基于數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)和深度學(xué)習(xí)模型,難以真正理解語(yǔ)言中的概念和語(yǔ)義。通過(guò)建構(gòu)藏文 Hownet 語(yǔ)義知識(shí)庫(kù)以驗(yàn)證 Hownet 知識(shí)的完備性,并以漢藏英多語(yǔ)言知識(shí)詳細(xì)梳理了 Hownet 的動(dòng)態(tài)語(yǔ)義角色知識(shí)體系。借重于知識(shí)庫(kù)的“數(shù)據(jù) + 知識(shí)”方法能夠支持從感知智能到認(rèn)知智能的躍遷,應(yīng)該成為今后一段時(shí)期自然語(yǔ)言理解研究的重點(diǎn)任務(wù)之一。

關(guān)鍵詞**:**人工智能;自然語(yǔ)言理解;HowNet;語(yǔ)義

0 引言


(資料圖片僅供參考)

人工智能(AI)是跨越計(jì)算機(jī)科學(xué)、數(shù)學(xué)、認(rèn)知科學(xué)及神經(jīng)科學(xué)等學(xué)科的一門(mén)先進(jìn)技術(shù)。自 1956年,在美國(guó)達(dá)特茅斯會(huì)議上正式提出 AI 之后,其發(fā)展主要經(jīng)歷了三個(gè)時(shí)期。20 世紀(jì) 90 年代以前,采用專家系統(tǒng)和知識(shí)工程的方法,構(gòu)建“知識(shí) + 邏輯符號(hào)”系統(tǒng)來(lái)模擬人類的智能階段,稱為知識(shí)(規(guī)則)驅(qū)動(dòng)的 AI;然而,受限于當(dāng)時(shí)人工知識(shí)(規(guī)則)對(duì)自然語(yǔ)言的描述能力,這一時(shí)期 AI 基本局限在實(shí)驗(yàn)室研究范疇。從 20 世紀(jì) 90 年代中期直到近幾年,AI 的機(jī)器學(xué)習(xí)相繼跨入到統(tǒng)計(jì)機(jī)器學(xué)習(xí)及深度機(jī)器學(xué)習(xí)時(shí)期,稱之為數(shù)據(jù)驅(qū)動(dòng)的 AI 時(shí)代。這一階段由于機(jī)器性能的大幅提升,以大規(guī)模真實(shí)語(yǔ)言數(shù)據(jù)訓(xùn)練自然語(yǔ)言處理((NLP) 模型成為可能,并逐步并廣泛進(jìn)入社會(huì)應(yīng)用領(lǐng)域。然而,上述方法的缺陷在于,第一代知識(shí)驅(qū)動(dòng)的 AI 主要靠人工從原始數(shù)據(jù)中獲取知識(shí),效率低、規(guī)則描述能力有限等;第二代數(shù)據(jù)驅(qū)動(dòng)的 AI 可以從訓(xùn)練數(shù)據(jù)中自主地獲取知識(shí),但其性能受到數(shù)據(jù)規(guī)模和質(zhì)量限制,魯棒性差,易受干擾,是“黑箱操作”。為了建立一個(gè)全面反映人類智能的 AI,需要建立魯棒性強(qiáng)、可解釋的 AI 理論與方法,即第三代 AI。2018 年底,張鈸院士公開(kāi)提出第三代“知識(shí) + 數(shù)據(jù)”雙輪驅(qū)動(dòng) AI 的理論框架體系。因此,在基于大數(shù)據(jù)的深度學(xué)習(xí)進(jìn)入發(fā)展的“瓶頸”期后,從 2018 年至今,AI 開(kāi)始進(jìn)入到發(fā)展的第三個(gè)時(shí)期。這一時(shí)期不再只關(guān)注數(shù)據(jù),知識(shí)的獲取重新得到了極大重視。實(shí)現(xiàn)真正的智能系統(tǒng),需要將數(shù)據(jù)和知識(shí)進(jìn)行深度融合,在數(shù)據(jù)上要有歸納能力,能夠舉十得一;在知識(shí)上,要有邏輯推理能力,能夠舉一反三。

1 從感知到認(rèn)知

目前,隨著算力、算法等技術(shù)發(fā)展,AI 技術(shù)已經(jīng)擁有快速計(jì)算、記憶和儲(chǔ)存的能力?;诖髷?shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法,能夠挖掘高維數(shù)據(jù)復(fù)雜的結(jié)構(gòu)特征,并用人類熟悉的方式溝通和互動(dòng),具備了視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)等感知能力,在語(yǔ)音、圖像、文本和視頻識(shí)別等方面已經(jīng)逐漸接近甚至超越了人類的水平。

然而,在數(shù)據(jù)驅(qū)動(dòng)的感知 AI 框架中,只要輕微變動(dòng)圖像、文本或語(yǔ)音數(shù)據(jù)就可以欺騙這些已經(jīng)訓(xùn)練好的系統(tǒng),造成感知誤判;盡管機(jī)器能夠識(shí)別物體,但其實(shí)它并不認(rèn)識(shí)這個(gè)物體。以圖像識(shí)別為例,通常給定大規(guī)模規(guī)格化、清晰對(duì)齊、無(wú)噪聲及正面角度的圖像庫(kù)來(lái)訓(xùn)練模型,將圖像識(shí)別系統(tǒng)應(yīng)用到無(wú)人駕駛汽車場(chǎng)景下,破舊的停車標(biāo)志被無(wú)視、遠(yuǎn)處的人類被識(shí)別成狗、校車被識(shí)別成鴕鳥(niǎo)等各種錯(cuò)誤案例層出不窮。因?yàn)閿?shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)只能學(xué)習(xí)重復(fù)出現(xiàn)的局部特征,無(wú)法解決認(rèn)知的問(wèn)題,也沒(méi)有辦法做推理的思維過(guò)程,所以機(jī)器學(xué)習(xí)模型具有魯棒性差的缺陷已成為學(xué)界共識(shí)。要讓無(wú)人駕駛汽車在面對(duì)路線、信號(hào)、地理、交通、氣象等突發(fā)實(shí)時(shí)狀況,能夠達(dá)到人類的心智水平,具備很強(qiáng)的應(yīng)變、分析和決策能力,并非特定的函數(shù)設(shè)計(jì)所能實(shí)現(xiàn),無(wú)法回避的核心是缺失認(rèn)知智能。

人類引以為傲的認(rèn)知能力,都是以語(yǔ)言為載體進(jìn)行的。自然語(yǔ)言理解(NLU),是第三代 AI 的終極目標(biāo),旨在賦予機(jī)器閱讀和理解人類語(yǔ)言的能力。由于人類自然語(yǔ)言的復(fù)雜性,目前的機(jī)器學(xué)習(xí)系統(tǒng)僅能進(jìn)行數(shù)據(jù)處理,并不能真正理解數(shù)據(jù)的含義,通過(guò)縮小任務(wù)范圍或擴(kuò)大數(shù)據(jù)集來(lái)回避處理語(yǔ)義的問(wèn)題,機(jī)器只是“記錄”數(shù)據(jù),但沒(méi)有“理解”數(shù)據(jù),所以機(jī)器在 NLU 方面的表現(xiàn)遠(yuǎn)不如人類。

現(xiàn)階段面臨的最大挑戰(zhàn)是如何從更豐富的感知識(shí)別演變?yōu)樽灾魍评淼恼J(rèn)知理解,以此來(lái)打通感知和認(rèn)知之間的隔閡。因此,第三代 AI 開(kāi)啟新的突破和創(chuàng)新,利用語(yǔ)言知識(shí)資源建立對(duì)自然語(yǔ)言文本背后的語(yǔ)義預(yù)測(cè),超越對(duì)詞語(yǔ)字符識(shí)別的范疇,幫助機(jī)器進(jìn)行語(yǔ)義理解和常識(shí)推理,實(shí)現(xiàn)機(jī)器對(duì)人的模擬,這不是機(jī)理性的,而是功能性的。

2 “數(shù)據(jù) + 知識(shí)”雙驅(qū)動(dòng)的 NLU

2.1 NLU 解難在哪里

自然語(yǔ)言總是涉及對(duì)現(xiàn)實(shí)世界事件的描述。實(shí)現(xiàn)對(duì)自然語(yǔ)言的理解,需要依賴人類常識(shí)及上下文語(yǔ)境,挖掘語(yǔ)言潛在語(yǔ)義的邏輯和因果關(guān)系。由于自然語(yǔ)言本體的一些固有特性,也會(huì)導(dǎo)致計(jì)算機(jī)語(yǔ)言理解的困難。

(1)語(yǔ)言的簡(jiǎn)潔性

由于說(shuō)話、書(shū)寫(xiě)、閱讀速度的限制,自然語(yǔ)言表達(dá)非常簡(jiǎn)練,形成固定短語(yǔ)表達(dá)或俗語(yǔ)。比如,咿呀學(xué)語(yǔ)、壽終正寢、春華秋實(shí)、落葉歸根等,這些詞語(yǔ)的真實(shí)語(yǔ)義并非語(yǔ)言表層含義。讓計(jì)算機(jī)用程序思維去直接認(rèn)知、理解、推理詞語(yǔ)中深層的動(dòng)物生老病死、植物自然衰亡等常識(shí)知識(shí)并不容易。

(2)語(yǔ)言的歧義性

有些語(yǔ)句單獨(dú)看充滿了歧義,例如“雙肩包不要退了”“老王的畫(huà)很名貴”。在不同的語(yǔ)氣、語(yǔ)境及對(duì)話的上下文邏輯和生活常識(shí)條件下,語(yǔ)句會(huì)產(chǎn)生不同的理解。

(3)語(yǔ)言的時(shí)代性

自然語(yǔ)言隨著時(shí)代的發(fā)展,不斷引入新的表述概念和語(yǔ)義。諸如“針不戳”“蕪湖起飛”“凡爾賽”“雙十一最該打折的東西,是自己的手”等新詞新語(yǔ)、舊詞語(yǔ)新意、音譯外來(lái)詞、多義詞、縮略詞和多音詞等的正確語(yǔ)義都需要結(jié)合時(shí)代性背景知識(shí)來(lái)幫助理解。

人類理解和生成語(yǔ)言,依賴詞匯、句法、語(yǔ)義等語(yǔ)言本體知識(shí),以及自然常識(shí)、人文和自然科學(xué)知識(shí)等。對(duì)于機(jī)器來(lái)說(shuō),基本要求是具備一定的邏輯推理能力和認(rèn)知能力。認(rèn)知活動(dòng)最本質(zhì)的特點(diǎn)是利用知識(shí)來(lái)指導(dǎo)行為,涉及三個(gè)方面的內(nèi)容,首先是信息的獲取、表示并轉(zhuǎn)化為機(jī)器知識(shí);其次是知識(shí)的存儲(chǔ)和提??;最后是運(yùn)用知識(shí)進(jìn)行推理等處理過(guò)程。認(rèn)知過(guò)程主要是知識(shí)存儲(chǔ)并利用知識(shí)進(jìn)行語(yǔ)義推導(dǎo)。為使計(jì)算機(jī)具備一定的認(rèn)知能力,需要對(duì)各類知識(shí)進(jìn)行形式化表示,以及用能夠讓計(jì)算機(jī)可以識(shí)別的形式加以合理地描述和存貯。

因此,實(shí)現(xiàn)真正的 NLU 需要解決兩個(gè)問(wèn)題,首先獲取、表示及計(jì)算隱含的、高度多樣化的多源知識(shí);其次,整合這些抽象知識(shí)到 AI 系統(tǒng)中,幫助機(jī)器進(jìn)行語(yǔ)義理解和常識(shí)推理?;仡櫟谝淮⒌诙?AI 發(fā)展史,貫穿 NLP 的兩大代表性方法——基于知識(shí)的方法和基于統(tǒng)計(jì)的方法。

2.1.1 基于知識(shí)的方法

專家系統(tǒng)和知識(shí)工程作為認(rèn)知智能的早期代表,學(xué)者們提出“將知識(shí)引入 AI 領(lǐng)域”,為計(jì)算機(jī)理解自然語(yǔ)言建造了各種知識(shí)庫(kù),此類研究一般以某種語(yǔ)言為主體語(yǔ)言設(shè)計(jì)知識(shí)庫(kù)的框架結(jié)構(gòu),并以此為基礎(chǔ)添加其他語(yǔ)言。目前,項(xiàng)目開(kāi)發(fā)成熟、較有影響力的語(yǔ)言知識(shí)庫(kù)有 WordNet、FrameNet、PropBank、HowNet 等,其信息如表 1 所示。

表 1 語(yǔ)義知識(shí)庫(kù)項(xiàng)目信息

通過(guò)知識(shí)庫(kù)系統(tǒng)確定句子中每個(gè)單詞的作用,并提取上下文的含義。知識(shí)庫(kù)提供了良好的邏輯性和可解釋性的語(yǔ)言分析方法,但卻嚴(yán)重依賴人工定義的范疇與規(guī)則。雖然人類是用其全部的經(jīng)驗(yàn)與知識(shí)來(lái)理解和生成語(yǔ)言的,但是人工知識(shí)庫(kù)仍然難以完整地表示人類的經(jīng)驗(yàn)和知識(shí)并全部編碼進(jìn)入計(jì)算機(jī),這類知識(shí)缺少對(duì)特征抽象和學(xué)習(xí)的能力。

2.1.2 基于統(tǒng)計(jì)的方法

受限于人工知識(shí)庫(kù)存在規(guī)模較小、自動(dòng)構(gòu)建能力不足、知識(shí)獲取困難等一系列問(wèn)題,學(xué)界出現(xiàn)了從大量數(shù)據(jù)的概率分布中學(xué)習(xí)基于統(tǒng)計(jì)的模型和方法。為了讓計(jì)算機(jī)處理語(yǔ)言文本,需要將字、詞、段落等信息轉(zhuǎn)換為機(jī)器可以理解的方式進(jìn)行,以便在計(jì)算機(jī)中表示語(yǔ)言或文本,并能讓計(jì)算機(jī)程序自動(dòng)處理,這就是語(yǔ)言表示。

早期的語(yǔ)言表示是以詞袋模型、N 元模型為代表的離散表示,僅僅將詞符號(hào)化,詞與詞之間沒(méi)有距離的概念,兩個(gè)詞只要字面不同就難以刻畫(huà)它們之間的聯(lián)系,比如“電腦”和“計(jì)算機(jī)”這樣的同義詞會(huì)被看成是兩個(gè)不同詞。因此,導(dǎo)致語(yǔ)義鴻溝、維度災(zāi)難等問(wèn)題的出現(xiàn)。

與離散表示不同的是連續(xù)表示,將語(yǔ)言表示為連續(xù)空間中的一個(gè)點(diǎn),即連續(xù)向量。這種表示的優(yōu)勢(shì)可以把對(duì)文本內(nèi)容處理簡(jiǎn)化為連續(xù)向量空間中向量運(yùn)算,通過(guò)計(jì)算向量空間上的相似度,來(lái)表示文本語(yǔ)義上的相似度,計(jì)算機(jī)很容易處理“向量”,因此取得很好效果。Word2Vec 作為詞匯連續(xù)表征的代表性方法,能夠?qū)⑼x詞相互映射,借此對(duì)大小、性別、速度等語(yǔ)義進(jìn)行建模;甚至能夠?qū)?guó)家與首都等語(yǔ)義特征關(guān)聯(lián)起來(lái),可以有效地處理傳統(tǒng)離散表示中的“一詞多義”和“一義多詞”問(wèn)題。但是,將文本以向量形式表示時(shí),忽略了詞語(yǔ)內(nèi)部語(yǔ)義或詞序信息的考量,也出現(xiàn)了不少問(wèn)題。比如,圖 1中實(shí)驗(yàn),我們通過(guò)調(diào)用 Word2Vec 的中文詞向量模塊預(yù)測(cè)漢語(yǔ)相似詞,當(dāng)輸入中性詞“理解”時(shí),系統(tǒng)給出的相似詞權(quán)重排序,符合人們認(rèn)知;當(dāng)輸入有感情色彩的詞語(yǔ)“好人”時(shí),Word2Vec 給出的最大相似詞是“壞人”,并且預(yù)測(cè)結(jié)果多數(shù)是貶義詞。這是因?yàn)樵?Word2Vec 詞向量映射空間中,采用余弦相似度判斷詞匯之間的相似度,“好人”與“壞人”對(duì)應(yīng)的的詞向量距離最近,但是二者卻是兩種語(yǔ)義完全相反的詞匯。

圖 1 Word2Vec 預(yù)測(cè)中文相似詞結(jié)果

由于自然語(yǔ)言由詞匯、短語(yǔ)、句子、篇章和文檔等不同粒度的語(yǔ)言單位組成,詞匯是最基本的語(yǔ)言單位,背后關(guān)聯(lián)著豐富的語(yǔ)義信息。Word2Vec 基于上下文學(xué)習(xí)方法的詞向量技術(shù)傾向于把貢獻(xiàn)較多的詞語(yǔ)聚在一起,可以學(xué)習(xí)到上下文語(yǔ)境相似的詞匯,卻難以捕獲到深層詞匯語(yǔ)義的相似性,特別是語(yǔ)料中出現(xiàn)頻次較低的詞語(yǔ)義項(xiàng)的相似性。我們只知道某個(gè)詞可以用幾百維的向量表示,但為什么能表示這個(gè)詞,這個(gè)詞確切有什么含義卻無(wú)法解釋。

2.2 “知識(shí) + 數(shù)據(jù)”雙驅(qū)動(dòng)

近年來(lái),深度學(xué)習(xí)技術(shù)充分利用神經(jīng)網(wǎng)絡(luò)的分布式表示能力和層次結(jié)構(gòu)泛化能力,從大規(guī)模數(shù)據(jù)中自動(dòng)學(xué)習(xí),顯著提升了對(duì)無(wú)結(jié)構(gòu)文本、圖像、語(yǔ)音數(shù)據(jù)背后語(yǔ)義信息的表示與學(xué)習(xí)性能,將數(shù)據(jù)驅(qū)動(dòng)方法推向新高度。另一方面,純數(shù)據(jù)驅(qū)動(dòng)深度學(xué)習(xí)是輸入和輸出之間的特征關(guān)系,不具備因果推理性,缺少可解釋性。對(duì)大規(guī)模數(shù)據(jù)的學(xué)習(xí)與利用,離不開(kāi)深度學(xué)習(xí)技術(shù),但要實(shí)現(xiàn)有理解能力的 AI,還需要人類認(rèn)知知識(shí)作為支撐。

3 語(yǔ)言知識(shí)圖譜

不同于傳統(tǒng)知識(shí)工程的“小知識(shí)”,以知識(shí)圖譜為代表的大數(shù)據(jù)時(shí)代各種知識(shí)系統(tǒng),受益于海量數(shù)據(jù)、強(qiáng)大算力、最優(yōu)算法,能夠自動(dòng)構(gòu)建大規(guī)模、多領(lǐng)域、高質(zhì)量的知識(shí)庫(kù),形成所謂的“大知識(shí)”。知識(shí)圖譜把非結(jié)構(gòu)化、離散的知識(shí)以圖結(jié)構(gòu)形式組織起來(lái),從而描述關(guān)于世界萬(wàn)物的概念、實(shí)體、事件及其之間的關(guān)系。知識(shí)圖譜包含的背景,賦予機(jī)器精準(zhǔn)查詢、深度理解與邏輯推理等能力,被廣泛運(yùn)用于實(shí)體消歧、推薦系統(tǒng)、問(wèn)答系統(tǒng)和復(fù)雜問(wèn)題推理等任務(wù),在認(rèn)知智能實(shí)現(xiàn)中起到非常重要的作用。

今后深度學(xué)習(xí)和知識(shí)圖譜將呈現(xiàn)不斷增強(qiáng)、共同發(fā)展的態(tài)勢(shì),一方面,深度學(xué)習(xí)可以從數(shù)據(jù)中(有標(biāo)注數(shù)據(jù)、弱標(biāo)注數(shù)據(jù)及無(wú)標(biāo)注數(shù)據(jù))學(xué)習(xí)和挖掘有用信息,為大規(guī)模知識(shí)圖譜的補(bǔ)全提供支持;另一方面,知識(shí)圖譜技術(shù)的成熟,獲取的知識(shí)也可以被用于深度學(xué)習(xí)的知識(shí)指導(dǎo),為知識(shí)融入深度學(xué)習(xí)框架提供了理論基礎(chǔ)。

知識(shí)圖譜根據(jù)所含知識(shí)類型的不同,可大致分為三種。① 語(yǔ)言知識(shí)圖譜。自然語(yǔ)言具備的詞法、句法、語(yǔ)義、語(yǔ)篇及語(yǔ)用等方面的語(yǔ)言知識(shí),如WordNet、HowNet 是典型的詞法知識(shí)圖譜。② 嘗識(shí)知識(shí)圖譜。人類對(duì)自然界事物普遍認(rèn)知的日常共識(shí)知識(shí),如Cyc、ConceptNet 是典型的常識(shí)知識(shí)圖譜。③ 社會(huì)知識(shí)圖譜?,F(xiàn)實(shí)世界中人類社會(huì)活動(dòng)產(chǎn)生的各實(shí)體之間的事實(shí)知識(shí)和關(guān)系,如 WikiDatas、Freebase、DBpedia、YAGO 是典型的社會(huì)知識(shí)圖譜。

除這些有典型代表的知識(shí)圖譜外,還有涵蓋特定專業(yè)及業(yè)務(wù)領(lǐng)域的專業(yè)知識(shí)圖譜及商業(yè)知識(shí)圖譜。以上知識(shí)類型劃分并沒(méi)有嚴(yán)格界限,如HowNet 既包含詞法級(jí)語(yǔ)言知識(shí),也包含大量的常識(shí)知識(shí)。本文以基于義原的語(yǔ)義知識(shí)圖譜(又稱為“語(yǔ)義知識(shí)庫(kù)”)-HowNet 為例,探究語(yǔ)義知識(shí)庫(kù)作為包含“本體知識(shí)”“語(yǔ)言知識(shí)”的基礎(chǔ)知識(shí)工程,在“弱人工智能”轉(zhuǎn)為“強(qiáng)人工智能”中發(fā)揮的關(guān)鍵作用。

3.1 HowNet 語(yǔ)義知識(shí)庫(kù)

從語(yǔ)義層面講,詞可以具體細(xì)分成義項(xiàng),義項(xiàng)又可以細(xì)分成義原。義原是人類語(yǔ)言最小的語(yǔ)義單位。在 NLU方面,義原更貼近語(yǔ)義本質(zhì),并且語(yǔ)言學(xué)家進(jìn)一步認(rèn)為義原體系在任何語(yǔ)言中都是適用的,并不與特定語(yǔ)言相關(guān)。為了將義原的語(yǔ)言學(xué)理論付諸實(shí)踐,董振東和董強(qiáng)父子用30年之久構(gòu)建了著名的中英義原知識(shí)庫(kù)——HowNet,突破了詞的屏障,以高度抽象化和形式化的語(yǔ)言描述客觀世界中的概念,是我國(guó)首個(gè)從純粹語(yǔ)義角度出發(fā)而構(gòu)建的與具體語(yǔ)言無(wú)關(guān)的語(yǔ)義知識(shí)庫(kù),是深入了解詞背后語(yǔ)義信息的重要通道,其設(shè)計(jì)理念是以一套形式化的普遍知識(shí)系統(tǒng)描寫(xiě)和解釋自然語(yǔ)言?!傲x原”體系是其核心要素,主要分為兩種,一種為“基本義原”,是對(duì)“本體知識(shí)”的解析和闡述,主要解決“符號(hào)根基問(wèn)題”;一種為“動(dòng)態(tài)角色義原”,是對(duì)句子成分之間語(yǔ)義關(guān)系的描述和說(shuō)明,屬于“語(yǔ)言知識(shí)”,主要解決“角色指派問(wèn)題”。

在知識(shí)融合方面義原知識(shí)庫(kù)具有無(wú)可比擬的優(yōu)勢(shì),其一,現(xiàn)有深度學(xué)習(xí)算法將詞語(yǔ)對(duì)應(yīng)成模型中的處理單元,而 HowNet 關(guān)注義原與詞之間的語(yǔ)義組合關(guān)系,那么該詞的義原就可直接作為語(yǔ)義標(biāo)簽引入對(duì)應(yīng)的處理單元中,這是其他詞級(jí)別知識(shí)庫(kù)無(wú)法做到的;其二,由于義原數(shù)量有限,一般均可以得到充分訓(xùn)練,將訓(xùn)練好的義原融入深度學(xué)習(xí)模型,可以緩解低資源數(shù)據(jù)情形下模型訓(xùn)練不足的問(wèn)題。這一特點(diǎn)最典型的應(yīng)用便是詞表示學(xué)習(xí),義原的引入可以提高低頻詞的詞向量效果。

近年來(lái),很多工作將語(yǔ)義知識(shí)庫(kù) HowNet 中的義原標(biāo)注信息融入面向 NLP 的機(jī)器學(xué)習(xí)模型中,探索語(yǔ)義表示學(xué)習(xí)、詞匯表示、義原推薦、詞典擴(kuò)展、實(shí)體關(guān)系、詞義消歧和知識(shí)圖譜等任務(wù),驗(yàn)證了HowNet人工義原知識(shí)庫(kù)與深度學(xué)習(xí)模型融合的有效性。3.2 基于HowNet 的藏語(yǔ)語(yǔ)義知識(shí)庫(kù)研究HowNet 是一個(gè)蘊(yùn)含語(yǔ)義信息最為豐富的大規(guī)模高質(zhì)量中英文常識(shí)知識(shí)庫(kù),擁有超過(guò)10萬(wàn)條義原標(biāo)注的知識(shí)詞典。通過(guò)一套統(tǒng)一的義原標(biāo)注體系,能夠直接精準(zhǔn)刻畫(huà)詞義的語(yǔ)義信息,其義原體系是基于人類對(duì)客觀世界的普遍認(rèn)知;其解釋從概念最本質(zhì)的特征開(kāi)始,隨后進(jìn)行次要特征的描寫(xiě),逐步對(duì)概念進(jìn)行解析。在NLU方面,HowNet 更貼近語(yǔ)言本質(zhì)特點(diǎn)。

如“警察”的某一義項(xiàng)被 HowNet 解釋為

{human| 人:HostOf={Occupation| 職位 },

domain={police| 警 }}

“ 警察”的本質(zhì)特征為“人”;隨后是次要特征——“ 職位(Occupation)” 之“ 宿主HostOf”“ 警” 的“領(lǐng)域(domain)”。其次,HowNet 是中英雙語(yǔ),這不僅表現(xiàn)在概念上中英文的對(duì)應(yīng),還表現(xiàn)在義原解釋上中英文的結(jié)合。還是以“警察”為例,其英文對(duì)應(yīng)為 police officer,義原解釋采取了中英結(jié)合的方式,能夠有效避免單一語(yǔ)言詞形所產(chǎn)生的“歧義”問(wèn)題。

HowNet和義原的優(yōu)勢(shì)近年來(lái)經(jīng)過(guò)大量的實(shí)證研究得以驗(yàn)證。但令人遺憾的是,尚未有研究人員對(duì)HowNet知識(shí)體系的本身架構(gòu)和相關(guān)理論進(jìn)行深度探討。HowNet目前僅有英語(yǔ)和漢語(yǔ)兩種語(yǔ)言作為支撐,對(duì)其是否具備語(yǔ)言適應(yīng)性和解釋充分性的知識(shí)庫(kù),以及HowNet“本體知識(shí)”的基本義原和作為“句法 -語(yǔ)義接口”的“動(dòng)態(tài)角色”定義的完備性和適應(yīng)性研究尚未得到足夠的重視。

因此,我們?cè)贖owNet 語(yǔ)義知識(shí)庫(kù)的深層結(jié)構(gòu)和語(yǔ)言適應(yīng)性方面進(jìn)行了初步探索研究。其中,藏語(yǔ)作為一種有格標(biāo)記語(yǔ)言,其語(yǔ)義信息顯于句法表層,和漢語(yǔ)在語(yǔ)法、語(yǔ)義上差別較大,將藏語(yǔ)納入HowNet 是非常值得嘗試的工作。不同于漢語(yǔ),藏語(yǔ)的語(yǔ)義特征同句法結(jié)構(gòu)有明顯映射關(guān)系,如何科學(xué)地將其納入 HowNet 系統(tǒng)并驗(yàn)證義原體系的普適性是研究重點(diǎn)。目前我們已完成 HowNet 框架下藏語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建工作。

3.2.1 動(dòng)態(tài)角色義原體系的再厘定

HowNet 對(duì)基本義原的研究較為深入,其體系構(gòu)建十分完整,但對(duì)代表句子成分之間語(yǔ)義關(guān)系動(dòng)態(tài)角色義原的研究并不如前者。在實(shí)際處理中,我們發(fā)現(xiàn)動(dòng)態(tài)角色在跨語(yǔ)言使用中遇到了一些問(wèn)題,如在添加藏語(yǔ)時(shí)無(wú)法用 HowNet 動(dòng)態(tài)角色對(duì)藏語(yǔ)的句法結(jié)構(gòu)和語(yǔ)義特征進(jìn)行充分地描寫(xiě)和解釋。我們的研究結(jié)合藏語(yǔ)的特征,從多個(gè)視角對(duì) HowNet 的動(dòng)態(tài)角色義原進(jìn)行分析和討論,重新厘定部分存在問(wèn)題和疑義的動(dòng)態(tài)角色,并將原先零散、體系不清晰的動(dòng)態(tài)角色納入到確定層級(jí)和系統(tǒng)中。具體做了三項(xiàng)工作。① 對(duì)部分較為重要、存在問(wèn)題的動(dòng)態(tài)角色進(jìn)行了再定義,對(duì)其本身的語(yǔ)義特征和限定范圍進(jìn)行了初步劃分。② 指出動(dòng)態(tài)角色義原之間存在對(duì)應(yīng)關(guān)系,對(duì)其進(jìn)行了討論和分析,并對(duì)不同動(dòng)態(tài)角色義原之間存在的對(duì)應(yīng)關(guān)系進(jìn)行了歸納。③ 指出動(dòng)態(tài)角色義原之間的地位是不平等的,動(dòng)態(tài)角色是具有層級(jí)性的、典型性漸弱的系統(tǒng)。

將核心的主客體動(dòng)態(tài)角色納入到與其相關(guān)的、特定的事件中進(jìn)行考察,并從語(yǔ)義分類、藏語(yǔ)語(yǔ)法、認(rèn)知等幾個(gè)角度雙向檢驗(yàn)動(dòng)態(tài)角色及其關(guān)聯(lián)事件的“合法性”。

以藏語(yǔ)格助詞和藏語(yǔ)傳統(tǒng)文法在語(yǔ)義層面上對(duì)動(dòng)詞范疇的劃分方式為參照,對(duì) HowNet“動(dòng)態(tài)角色”的定義、語(yǔ)義特征和限定范圍進(jìn)行了討論,并明確了“動(dòng)態(tài)角色”與“事件類基本義原”之間的關(guān)聯(lián)關(guān)系,建立起結(jié)構(gòu)化、分層次的“動(dòng)態(tài)角色義原體系”。

3.2.2 藏語(yǔ)句法 - 語(yǔ)義一體化

根據(jù)建立的“動(dòng)態(tài)義原角色義原”體系,使動(dòng)態(tài)角色與藏語(yǔ)格助詞相對(duì)應(yīng),并將其與特定事件相關(guān)聯(lián),實(shí)現(xiàn)了HowNet 框架下的藏語(yǔ)句法-語(yǔ)義一體化,為藏語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建提供了一種新思路。

3.2.3 構(gòu)建藏漢知識(shí)詞典

HowNet 知識(shí)系統(tǒng)描述語(yǔ)言在對(duì)概念進(jìn)行解釋時(shí),缺乏一定的上下文語(yǔ)境,且 HowNet 采用人工構(gòu)建方式,耗時(shí)耗力。我們使用基于統(tǒng)計(jì)和基于跨語(yǔ)言詞向量的方法自動(dòng)構(gòu)建藏漢知識(shí)詞典,并為其提供了豐富的上下文語(yǔ)境。

HowNet 本體知識(shí)的有效性和完備性,尚未在大規(guī)模語(yǔ)料中受到檢驗(yàn)。我們利用大規(guī)模平行句對(duì),從“符號(hào)根基問(wèn)題”這一角度,對(duì) HowNet 知識(shí)詞典的有效性和完備性進(jìn)行了評(píng)價(jià)和檢驗(yàn)。由于篇幅所限,上述內(nèi)容在此不再贅述,請(qǐng)關(guān)注作者相關(guān)論文研究。

4 結(jié)束語(yǔ)

本文探討了后深度學(xué)習(xí)時(shí)代“知識(shí) + 數(shù)據(jù)”驅(qū)動(dòng)的NLU 模式,闡釋將 HowNet 義原知識(shí)體系融入數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型中具有不可比擬的優(yōu)勢(shì),它也許會(huì)成為突破從感知智能到認(rèn)知智能的NLU瓶頸的一把鑰匙。在后續(xù)工作中我們會(huì)繼續(xù)以多民族語(yǔ)言義原知識(shí)庫(kù)構(gòu)建為主要研究對(duì)象,擴(kuò)大義原標(biāo)注語(yǔ)種的范圍,增強(qiáng) HowNet 義原知識(shí)庫(kù)在跨語(yǔ)言自然語(yǔ)言處理、語(yǔ)義理解和自動(dòng)問(wèn)答、文本生成等任務(wù)的適用性。

標(biāo)簽:

相關(guān)新聞

凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

熱文推薦

焦點(diǎn)資訊