您現(xiàn)在的位置：首頁(yè) > 科技 > 正文

今日快訊：基于詞串的小語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型及語(yǔ)言分析技術(shù)

時(shí)間：2023-05-30 17:44:17 來(lái)源：科普中國(guó)網(wǎng)

摘要**：**基于數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)和深度學(xué)習(xí)模型，難以真正理解語(yǔ)言中的概念和語(yǔ)義。通過(guò)建構(gòu)藏文 Hownet 語(yǔ)義知識(shí)庫(kù)以驗(yàn)證 Hownet 知識(shí)的完備性，并以漢藏英多語(yǔ)言知識(shí)詳細(xì)梳理了 Hownet 的動(dòng)態(tài)語(yǔ)義角色知識(shí)體系。借重于知識(shí)庫(kù)的“數(shù)據(jù) + 知識(shí)”方法能夠支持從感知智能到認(rèn)知智能的躍遷，應(yīng)該成為今后一段時(shí)期自然語(yǔ)言理解研究的重點(diǎn)任務(wù)之一。

關(guān)鍵詞**：**人工智能；自然語(yǔ)言理解；HowNet；語(yǔ)義

0 引言

(資料圖片僅供參考)

人工智能（AI）是跨越計(jì)算機(jī)科學(xué)、數(shù)學(xué)、認(rèn)知科學(xué)及神經(jīng)科學(xué)等學(xué)科的一門(mén)先進(jìn)技術(shù)。自 1956年，在美國(guó)達(dá)特茅斯會(huì)議上正式提出 AI 之后，其發(fā)展主要經(jīng)歷了三個(gè)時(shí)期。20 世紀(jì) 90 年代以前，采用專家系統(tǒng)和知識(shí)工程的方法，構(gòu)建“知識(shí) + 邏輯符號(hào)”系統(tǒng)來(lái)模擬人類的智能階段，稱為知識(shí)（規(guī)則）驅(qū)動(dòng)的 AI；然而，受限于當(dāng)時(shí)人工知識(shí)（規(guī)則）對(duì)自然語(yǔ)言的描述能力，這一時(shí)期 AI 基本局限在實(shí)驗(yàn)室研究范疇。從 20 世紀(jì) 90 年代中期直到近幾年，AI 的機(jī)器學(xué)習(xí)相繼跨入到統(tǒng)計(jì)機(jī)器學(xué)習(xí)及深度機(jī)器學(xué)習(xí)時(shí)期，稱之為數(shù)據(jù)驅(qū)動(dòng)的 AI 時(shí)代。這一階段由于機(jī)器性能的大幅提升，以大規(guī)模真實(shí)語(yǔ)言數(shù)據(jù)訓(xùn)練自然語(yǔ)言處理（(NLP) 模型成為可能，并逐步并廣泛進(jìn)入社會(huì)應(yīng)用領(lǐng)域。然而，上述方法的缺陷在于，第一代知識(shí)驅(qū)動(dòng)的 AI 主要靠人工從原始數(shù)據(jù)中獲取知識(shí)，效率低、規(guī)則描述能力有限等；第二代數(shù)據(jù)驅(qū)動(dòng)的 AI 可以從訓(xùn)練數(shù)據(jù)中自主地獲取知識(shí)，但其性能受到數(shù)據(jù)規(guī)模和質(zhì)量限制，魯棒性差，易受干擾，是“黑箱操作”。為了建立一個(gè)全面反映人類智能的 AI，需要建立魯棒性強(qiáng)、可解釋的 AI 理論與方法，即第三代 AI。2018 年底，張鈸院士公開(kāi)提出第三代“知識(shí) + 數(shù)據(jù)”雙輪驅(qū)動(dòng) AI 的理論框架體系。因此，在基于大數(shù)據(jù)的深度學(xué)習(xí)進(jìn)入發(fā)展的“瓶頸”期后，從 2018 年至今，AI 開(kāi)始進(jìn)入到發(fā)展的第三個(gè)時(shí)期。這一時(shí)期不再只關(guān)注數(shù)據(jù)，知識(shí)的獲取重新得到了極大重視。實(shí)現(xiàn)真正的智能系統(tǒng)，需要將數(shù)據(jù)和知識(shí)進(jìn)行深度融合，在數(shù)據(jù)上要有歸納能力，能夠舉十得一；在知識(shí)上，要有邏輯推理能力，能夠舉一反三。

1 從感知到認(rèn)知

目前，隨著算力、算法等技術(shù)發(fā)展，AI 技術(shù)已經(jīng)擁有快速計(jì)算、記憶和儲(chǔ)存的能力?；诖髷?shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法，能夠挖掘高維數(shù)據(jù)復(fù)雜的結(jié)構(gòu)特征，并用人類熟悉的方式溝通和互動(dòng)，具備了視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)等感知能力，在語(yǔ)音、圖像、文本和視頻識(shí)別等方面已經(jīng)逐漸接近甚至超越了人類的水平。

然而，在數(shù)據(jù)驅(qū)動(dòng)的感知 AI 框架中，只要輕微變動(dòng)圖像、文本或語(yǔ)音數(shù)據(jù)就可以欺騙這些已經(jīng)訓(xùn)練好的系統(tǒng)，造成感知誤判；盡管機(jī)器能夠識(shí)別物體，但其實(shí)它并不認(rèn)識(shí)這個(gè)物體。以圖像識(shí)別為例，通常給定大規(guī)模規(guī)格化、清晰對(duì)齊、無(wú)噪聲及正面角度的圖像庫(kù)來(lái)訓(xùn)練模型，將圖像識(shí)別系統(tǒng)應(yīng)用到無(wú)人駕駛汽車場(chǎng)景下，破舊的停車標(biāo)志被無(wú)視、遠(yuǎn)處的人類被識(shí)別成狗、校車被識(shí)別成鴕鳥(niǎo)等各種錯(cuò)誤案例層出不窮。因?yàn)閿?shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)只能學(xué)習(xí)重復(fù)出現(xiàn)的局部特征，無(wú)法解決認(rèn)知的問(wèn)題，也沒(méi)有辦法做推理的思維過(guò)程，所以機(jī)器學(xué)習(xí)模型具有魯棒性差的缺陷已成為學(xué)界共識(shí)。要讓無(wú)人駕駛汽車在面對(duì)路線、信號(hào)、地理、交通、氣象等突發(fā)實(shí)時(shí)狀況，能夠達(dá)到人類的心智水平，具備很強(qiáng)的應(yīng)變、分析和決策能力，并非特定的函數(shù)設(shè)計(jì)所能實(shí)現(xiàn)，無(wú)法回避的核心是缺失認(rèn)知智能。

人類引以為傲的認(rèn)知能力，都是以語(yǔ)言為載體進(jìn)行的。自然語(yǔ)言理解（NLU），是第三代 AI 的終極目標(biāo)，旨在賦予機(jī)器閱讀和理解人類語(yǔ)言的能力。由于人類自然語(yǔ)言的復(fù)雜性，目前的機(jī)器學(xué)習(xí)系統(tǒng)僅能進(jìn)行數(shù)據(jù)處理，并不能真正理解數(shù)據(jù)的含義，通過(guò)縮小任務(wù)范圍或擴(kuò)大數(shù)據(jù)集來(lái)回避處理語(yǔ)義的問(wèn)題，機(jī)器只是“記錄”數(shù)據(jù)，但沒(méi)有“理解”數(shù)據(jù)，所以機(jī)器在 NLU 方面的表現(xiàn)遠(yuǎn)不如人類。

現(xiàn)階段面臨的最大挑戰(zhàn)是如何從更豐富的感知識(shí)別演變?yōu)樽灾魍评淼恼J(rèn)知理解，以此來(lái)打通感知和認(rèn)知之間的隔閡。因此，第三代 AI 開(kāi)啟新的突破和創(chuàng)新，利用語(yǔ)言知識(shí)資源建立對(duì)自然語(yǔ)言文本背后的語(yǔ)義預(yù)測(cè)，超越對(duì)詞語(yǔ)字符識(shí)別的范疇，幫助機(jī)器進(jìn)行語(yǔ)義理解和常識(shí)推理，實(shí)現(xiàn)機(jī)器對(duì)人的模擬，這不是機(jī)理性的，而是功能性的。

2 “數(shù)據(jù) + 知識(shí)”雙驅(qū)動(dòng)的 NLU

2.1 NLU 解難在哪里

自然語(yǔ)言總是涉及對(duì)現(xiàn)實(shí)世界事件的描述。實(shí)現(xiàn)對(duì)自然語(yǔ)言的理解，需要依賴人類常識(shí)及上下文語(yǔ)境，挖掘語(yǔ)言潛在語(yǔ)義的邏輯和因果關(guān)系。由于自然語(yǔ)言本體的一些固有特性，也會(huì)導(dǎo)致計(jì)算機(jī)語(yǔ)言理解的困難。

（1）語(yǔ)言的簡(jiǎn)潔性

由于說(shuō)話、書(shū)寫(xiě)、閱讀速度的限制，自然語(yǔ)言表達(dá)非常簡(jiǎn)練，形成固定短語(yǔ)表達(dá)或俗語(yǔ)。比如，咿呀學(xué)語(yǔ)、壽終正寢、春華秋實(shí)、落葉歸根等，這些詞語(yǔ)的真實(shí)語(yǔ)義并非語(yǔ)言表層含義。讓計(jì)算機(jī)用程序思維去直接認(rèn)知、理解、推理詞語(yǔ)中深層的動(dòng)物生老病死、植物自然衰亡等常識(shí)知識(shí)并不容易。

（2）語(yǔ)言的歧義性

有些語(yǔ)句單獨(dú)看充滿了歧義，例如“雙肩包不要退了”“老王的畫(huà)很名貴”。在不同的語(yǔ)氣、語(yǔ)境及對(duì)話的上下文邏輯和生活常識(shí)條件下，語(yǔ)句會(huì)產(chǎn)生不同的理解。

（3）語(yǔ)言的時(shí)代性

自然語(yǔ)言隨著時(shí)代的發(fā)展，不斷引入新的表述概念和語(yǔ)義。諸如“針不戳”“蕪湖起飛”“凡爾賽”“雙十一最該打折的東西，是自己的手”等新詞新語(yǔ)、舊詞語(yǔ)新意、音譯外來(lái)詞、多義詞、縮略詞和多音詞等的正確語(yǔ)義都需要結(jié)合時(shí)代性背景知識(shí)來(lái)幫助理解。

人類理解和生成語(yǔ)言，依賴詞匯、句法、語(yǔ)義等語(yǔ)言本體知識(shí)，以及自然常識(shí)、人文和自然科學(xué)知識(shí)等。對(duì)于機(jī)器來(lái)說(shuō)，基本要求是具備一定的邏輯推理能力和認(rèn)知能力。認(rèn)知活動(dòng)最本質(zhì)的特點(diǎn)是利用知識(shí)來(lái)指導(dǎo)行為，涉及三個(gè)方面的內(nèi)容，首先是信息的獲取、表示并轉(zhuǎn)化為機(jī)器知識(shí)；其次是知識(shí)的存儲(chǔ)和提??；最后是運(yùn)用知識(shí)進(jìn)行推理等處理過(guò)程。認(rèn)知過(guò)程主要是知識(shí)存儲(chǔ)并利用知識(shí)進(jìn)行語(yǔ)義推導(dǎo)。為使計(jì)算機(jī)具備一定的認(rèn)知能力，需要對(duì)各類知識(shí)進(jìn)行形式化表示，以及用能夠讓計(jì)算機(jī)可以識(shí)別的形式加以合理地描述和存貯。

因此，實(shí)現(xiàn)真正的 NLU 需要解決兩個(gè)問(wèn)題，首先獲取、表示及計(jì)算隱含的、高度多樣化的多源知識(shí)；其次，整合這些抽象知識(shí)到 AI 系統(tǒng)中，幫助機(jī)器進(jìn)行語(yǔ)義理解和常識(shí)推理?；仡櫟谝淮⒌诙?AI 發(fā)展史，貫穿 NLP 的兩大代表性方法——基于知識(shí)的方法和基于統(tǒng)計(jì)的方法。

2.1.1 基于知識(shí)的方法

專家系統(tǒng)和知識(shí)工程作為認(rèn)知智能的早期代表，學(xué)者們提出“將知識(shí)引入 AI 領(lǐng)域”，為計(jì)算機(jī)理解自然語(yǔ)言建造了各種知識(shí)庫(kù)，此類研究一般以某種語(yǔ)言為主體語(yǔ)言設(shè)計(jì)知識(shí)庫(kù)的框架結(jié)構(gòu)，并以此為基礎(chǔ)添加其他語(yǔ)言。目前，項(xiàng)目開(kāi)發(fā)成熟、較有影響力的語(yǔ)言知識(shí)庫(kù)有 WordNet、FrameNet、PropBank、HowNet 等，其信息如表 1 所示。

表 1 語(yǔ)義知識(shí)庫(kù)項(xiàng)目信息

通過(guò)知識(shí)庫(kù)系統(tǒng)確定句子中每個(gè)單詞的作用，并提取上下文的含義。知識(shí)庫(kù)提供了良好的邏輯性和可解釋性的語(yǔ)言分析方法，但卻嚴(yán)重依賴人工定義的范疇與規(guī)則。雖然人類是用其全部的經(jīng)驗(yàn)與知識(shí)來(lái)理解和生成語(yǔ)言的，但是人工知識(shí)庫(kù)仍然難以完整地表示人類的經(jīng)驗(yàn)和知識(shí)并全部編碼進(jìn)入計(jì)算機(jī)，這類知識(shí)缺少對(duì)特征抽象和學(xué)習(xí)的能力。

2.1.2 基于統(tǒng)計(jì)的方法

受限于人工知識(shí)庫(kù)存在規(guī)模較小、自動(dòng)構(gòu)建能力不足、知識(shí)獲取困難等一系列問(wèn)題，學(xué)界出現(xiàn)了從大量數(shù)據(jù)的概率分布中學(xué)習(xí)基于統(tǒng)計(jì)的模型和方法。為了讓計(jì)算機(jī)處理語(yǔ)言文本，需要將字、詞、段落等信息轉(zhuǎn)換為機(jī)器可以理解的方式進(jìn)行，以便在計(jì)算機(jī)中表示語(yǔ)言或文本，并能讓計(jì)算機(jī)程序自動(dòng)處理，這就是語(yǔ)言表示。

早期的語(yǔ)言表示是以詞袋模型、N 元模型為代表的離散表示，僅僅將詞符號(hào)化，詞與詞之間沒(méi)有距離的概念，兩個(gè)詞只要字面不同就難以刻畫(huà)它們之間的聯(lián)系，比如“電腦”和“計(jì)算機(jī)”這樣的同義詞會(huì)被看成是兩個(gè)不同詞。因此，導(dǎo)致語(yǔ)義鴻溝、維度災(zāi)難等問(wèn)題的出現(xiàn)。

與離散表示不同的是連續(xù)表示，將語(yǔ)言表示為連續(xù)空間中的一個(gè)點(diǎn)，即連續(xù)向量。這種表示的優(yōu)勢(shì)可以把對(duì)文本內(nèi)容處理簡(jiǎn)化為連續(xù)向量空間中向量運(yùn)算，通過(guò)計(jì)算向量空間上的相似度，來(lái)表示文本語(yǔ)義上的相似度，計(jì)算機(jī)很容易處理“向量”，因此取得很好效果。Word2Vec 作為詞匯連續(xù)表征的代表性方法，能夠?qū)⑼x詞相互映射，借此對(duì)大小、性別、速度等語(yǔ)義進(jìn)行建模；甚至能夠?qū)?guó)家與首都等語(yǔ)義特征關(guān)聯(lián)起來(lái)，可以有效地處理傳統(tǒng)離散表示中的“一詞多義”和“一義多詞”問(wèn)題。但是，將文本以向量形式表示時(shí)，忽略了詞語(yǔ)內(nèi)部語(yǔ)義或詞序信息的考量，也出現(xiàn)了不少問(wèn)題。比如，圖 1中實(shí)驗(yàn)，我們通過(guò)調(diào)用 Word2Vec 的中文詞向量模塊預(yù)測(cè)漢語(yǔ)相似詞，當(dāng)輸入中性詞“理解”時(shí)，系統(tǒng)給出的相似詞權(quán)重排序，符合人們認(rèn)知；當(dāng)輸入有感情色彩的詞語(yǔ)“好人”時(shí)，Word2Vec 給出的最大相似詞是“壞人”，并且預(yù)測(cè)結(jié)果多數(shù)是貶義詞。這是因?yàn)樵?Word2Vec 詞向量映射空間中，采用余弦相似度判斷詞匯之間的相似度，“好人”與“壞人”對(duì)應(yīng)的的詞向量距離最近，但是二者卻是兩種語(yǔ)義完全相反的詞匯。

圖 1 Word2Vec 預(yù)測(cè)中文相似詞結(jié)果

由于自然語(yǔ)言由詞匯、短語(yǔ)、句子、篇章和文檔等不同粒度的語(yǔ)言單位組成，詞匯是最基本的語(yǔ)言單位，背后關(guān)聯(lián)著豐富的語(yǔ)義信息。Word2Vec 基于上下文學(xué)習(xí)方法的詞向量技術(shù)傾向于把貢獻(xiàn)較多的詞語(yǔ)聚在一起，可以學(xué)習(xí)到上下文語(yǔ)境相似的詞匯，卻難以捕獲到深層詞匯語(yǔ)義的相似性，特別是語(yǔ)料中出現(xiàn)頻次較低的詞語(yǔ)義項(xiàng)的相似性。我們只知道某個(gè)詞可以用幾百維的向量表示，但為什么能表示這個(gè)詞，這個(gè)詞確切有什么含義卻無(wú)法解釋。

2.2 “知識(shí) + 數(shù)據(jù)”雙驅(qū)動(dòng)

近年來(lái)，深度學(xué)習(xí)技術(shù)充分利用神經(jīng)網(wǎng)絡(luò)的分布式表示能力和層次結(jié)構(gòu)泛化能力，從大規(guī)模數(shù)據(jù)中自動(dòng)學(xué)習(xí)，顯著提升了對(duì)無(wú)結(jié)構(gòu)文本、圖像、語(yǔ)音數(shù)據(jù)背后語(yǔ)義信息的表示與學(xué)習(xí)性能，將數(shù)據(jù)驅(qū)動(dòng)方法推向新高度。另一方面，純數(shù)據(jù)驅(qū)動(dòng)深度學(xué)習(xí)是輸入和輸出之間的特征關(guān)系，不具備因果推理性，缺少可解釋性。對(duì)大規(guī)模數(shù)據(jù)的學(xué)習(xí)與利用，離不開(kāi)深度學(xué)習(xí)技術(shù)，但要實(shí)現(xiàn)有理解能力的 AI，還需要人類認(rèn)知知識(shí)作為支撐。

3 語(yǔ)言知識(shí)圖譜

不同于傳統(tǒng)知識(shí)工程的“小知識(shí)”，以知識(shí)圖譜為代表的大數(shù)據(jù)時(shí)代各種知識(shí)系統(tǒng)，受益于海量數(shù)據(jù)、強(qiáng)大算力、最優(yōu)算法，能夠自動(dòng)構(gòu)建大規(guī)模、多領(lǐng)域、高質(zhì)量的知識(shí)庫(kù)，形成所謂的“大知識(shí)”。知識(shí)圖譜把非結(jié)構(gòu)化、離散的知識(shí)以圖結(jié)構(gòu)形式組織起來(lái)，從而描述關(guān)于世界萬(wàn)物的概念、實(shí)體、事件及其之間的關(guān)系。知識(shí)圖譜包含的背景，賦予機(jī)器精準(zhǔn)查詢、深度理解與邏輯推理等能力，被廣泛運(yùn)用于實(shí)體消歧、推薦系統(tǒng)、問(wèn)答系統(tǒng)和復(fù)雜問(wèn)題推理等任務(wù)，在認(rèn)知智能實(shí)現(xiàn)中起到非常重要的作用。

今后深度學(xué)習(xí)和知識(shí)圖譜將呈現(xiàn)不斷增強(qiáng)、共同發(fā)展的態(tài)勢(shì)，一方面，深度學(xué)習(xí)可以從數(shù)據(jù)中（有標(biāo)注數(shù)據(jù)、弱標(biāo)注數(shù)據(jù)及無(wú)標(biāo)注數(shù)據(jù)）學(xué)習(xí)和挖掘有用信息，為大規(guī)模知識(shí)圖譜的補(bǔ)全提供支持；另一方面，知識(shí)圖譜技術(shù)的成熟，獲取的知識(shí)也可以被用于深度學(xué)習(xí)的知識(shí)指導(dǎo)，為知識(shí)融入深度學(xué)習(xí)框架提供了理論基礎(chǔ)。

知識(shí)圖譜根據(jù)所含知識(shí)類型的不同，可大致分為三種。① 語(yǔ)言知識(shí)圖譜。自然語(yǔ)言具備的詞法、句法、語(yǔ)義、語(yǔ)篇及語(yǔ)用等方面的語(yǔ)言知識(shí)，如WordNet、HowNet 是典型的詞法知識(shí)圖譜。② 嘗識(shí)知識(shí)圖譜。人類對(duì)自然界事物普遍認(rèn)知的日常共識(shí)知識(shí)，如Cyc、ConceptNet 是典型的常識(shí)知識(shí)圖譜。③ 社會(huì)知識(shí)圖譜?，F(xiàn)實(shí)世界中人類社會(huì)活動(dòng)產(chǎn)生的各實(shí)體之間的事實(shí)知識(shí)和關(guān)系，如 WikiDatas、Freebase、DBpedia、YAGO 是典型的社會(huì)知識(shí)圖譜。

除這些有典型代表的知識(shí)圖譜外，還有涵蓋特定專業(yè)及業(yè)務(wù)領(lǐng)域的專業(yè)知識(shí)圖譜及商業(yè)知識(shí)圖譜。以上知識(shí)類型劃分并沒(méi)有嚴(yán)格界限，如HowNet 既包含詞法級(jí)語(yǔ)言知識(shí)，也包含大量的常識(shí)知識(shí)。本文以基于義原的語(yǔ)義知識(shí)圖譜（又稱為“語(yǔ)義知識(shí)庫(kù)”）-HowNet 為例，探究語(yǔ)義知識(shí)庫(kù)作為包含“本體知識(shí)”“語(yǔ)言知識(shí)”的基礎(chǔ)知識(shí)工程，在“弱人工智能”轉(zhuǎn)為“強(qiáng)人工智能”中發(fā)揮的關(guān)鍵作用。

3.1 HowNet 語(yǔ)義知識(shí)庫(kù)

從語(yǔ)義層面講，詞可以具體細(xì)分成義項(xiàng)，義項(xiàng)又可以細(xì)分成義原。義原是人類語(yǔ)言最小的語(yǔ)義單位。在 NLU方面，義原更貼近語(yǔ)義本質(zhì)，并且語(yǔ)言學(xué)家進(jìn)一步認(rèn)為義原體系在任何語(yǔ)言中都是適用的，并不與特定語(yǔ)言相關(guān)。為了將義原的語(yǔ)言學(xué)理論付諸實(shí)踐，董振東和董強(qiáng)父子用30年之久構(gòu)建了著名的中英義原知識(shí)庫(kù)——HowNet，突破了詞的屏障，以高度抽象化和形式化的語(yǔ)言描述客觀世界中的概念，是我國(guó)首個(gè)從純粹語(yǔ)義角度出發(fā)而構(gòu)建的與具體語(yǔ)言無(wú)關(guān)的語(yǔ)義知識(shí)庫(kù)，是深入了解詞背后語(yǔ)義信息的重要通道，其設(shè)計(jì)理念是以一套形式化的普遍知識(shí)系統(tǒng)描寫(xiě)和解釋自然語(yǔ)言?！傲x原”體系是其核心要素，主要分為兩種，一種為“基本義原”，是對(duì)“本體知識(shí)”的解析和闡述，主要解決“符號(hào)根基問(wèn)題”；一種為“動(dòng)態(tài)角色義原”，是對(duì)句子成分之間語(yǔ)義關(guān)系的描述和說(shuō)明，屬于“語(yǔ)言知識(shí)”，主要解決“角色指派問(wèn)題”。

在知識(shí)融合方面義原知識(shí)庫(kù)具有無(wú)可比擬的優(yōu)勢(shì)，其一，現(xiàn)有深度學(xué)習(xí)算法將詞語(yǔ)對(duì)應(yīng)成模型中的處理單元，而 HowNet 關(guān)注義原與詞之間的語(yǔ)義組合關(guān)系，那么該詞的義原就可直接作為語(yǔ)義標(biāo)簽引入對(duì)應(yīng)的處理單元中，這是其他詞級(jí)別知識(shí)庫(kù)無(wú)法做到的；其二，由于義原數(shù)量有限，一般均可以得到充分訓(xùn)練，將訓(xùn)練好的義原融入深度學(xué)習(xí)模型，可以緩解低資源數(shù)據(jù)情形下模型訓(xùn)練不足的問(wèn)題。這一特點(diǎn)最典型的應(yīng)用便是詞表示學(xué)習(xí)，義原的引入可以提高低頻詞的詞向量效果。

近年來(lái)，很多工作將語(yǔ)義知識(shí)庫(kù) HowNet 中的義原標(biāo)注信息融入面向 NLP 的機(jī)器學(xué)習(xí)模型中，探索語(yǔ)義表示學(xué)習(xí)、詞匯表示、義原推薦、詞典擴(kuò)展、實(shí)體關(guān)系、詞義消歧和知識(shí)圖譜等任務(wù)，驗(yàn)證了HowNet人工義原知識(shí)庫(kù)與深度學(xué)習(xí)模型融合的有效性。3.2 基于HowNet 的藏語(yǔ)語(yǔ)義知識(shí)庫(kù)研究HowNet 是一個(gè)蘊(yùn)含語(yǔ)義信息最為豐富的大規(guī)模高質(zhì)量中英文常識(shí)知識(shí)庫(kù)，擁有超過(guò)10萬(wàn)條義原標(biāo)注的知識(shí)詞典。通過(guò)一套統(tǒng)一的義原標(biāo)注體系，能夠直接精準(zhǔn)刻畫(huà)詞義的語(yǔ)義信息，其義原體系是基于人類對(duì)客觀世界的普遍認(rèn)知；其解釋從概念最本質(zhì)的特征開(kāi)始，隨后進(jìn)行次要特征的描寫(xiě)，逐步對(duì)概念進(jìn)行解析。在NLU方面，HowNet 更貼近語(yǔ)言本質(zhì)特點(diǎn)。

如“警察”的某一義項(xiàng)被 HowNet 解釋為

{human| 人：HostOf={Occupation| 職位 }，

domain={police| 警 }}

“ 警察”的本質(zhì)特征為“人”；隨后是次要特征——“ 職位（Occupation）” 之“ 宿主HostOf”“ 警” 的“領(lǐng)域（domain）”。其次，HowNet 是中英雙語(yǔ)，這不僅表現(xiàn)在概念上中英文的對(duì)應(yīng)，還表現(xiàn)在義原解釋上中英文的結(jié)合。還是以“警察”為例，其英文對(duì)應(yīng)為 police officer，義原解釋采取了中英結(jié)合的方式，能夠有效避免單一語(yǔ)言詞形所產(chǎn)生的“歧義”問(wèn)題。

HowNet和義原的優(yōu)勢(shì)近年來(lái)經(jīng)過(guò)大量的實(shí)證研究得以驗(yàn)證。但令人遺憾的是，尚未有研究人員對(duì)HowNet知識(shí)體系的本身架構(gòu)和相關(guān)理論進(jìn)行深度探討。HowNet目前僅有英語(yǔ)和漢語(yǔ)兩種語(yǔ)言作為支撐，對(duì)其是否具備語(yǔ)言適應(yīng)性和解釋充分性的知識(shí)庫(kù)，以及HowNet“本體知識(shí)”的基本義原和作為“句法 -語(yǔ)義接口”的“動(dòng)態(tài)角色”定義的完備性和適應(yīng)性研究尚未得到足夠的重視。

因此，我們?cè)贖owNet 語(yǔ)義知識(shí)庫(kù)的深層結(jié)構(gòu)和語(yǔ)言適應(yīng)性方面進(jìn)行了初步探索研究。其中，藏語(yǔ)作為一種有格標(biāo)記語(yǔ)言，其語(yǔ)義信息顯于句法表層，和漢語(yǔ)在語(yǔ)法、語(yǔ)義上差別較大，將藏語(yǔ)納入HowNet 是非常值得嘗試的工作。不同于漢語(yǔ)，藏語(yǔ)的語(yǔ)義特征同句法結(jié)構(gòu)有明顯映射關(guān)系，如何科學(xué)地將其納入 HowNet 系統(tǒng)并驗(yàn)證義原體系的普適性是研究重點(diǎn)。目前我們已完成 HowNet 框架下藏語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建工作。

3.2.1 動(dòng)態(tài)角色義原體系的再厘定

HowNet 對(duì)基本義原的研究較為深入，其體系構(gòu)建十分完整，但對(duì)代表句子成分之間語(yǔ)義關(guān)系動(dòng)態(tài)角色義原的研究并不如前者。在實(shí)際處理中，我們發(fā)現(xiàn)動(dòng)態(tài)角色在跨語(yǔ)言使用中遇到了一些問(wèn)題，如在添加藏語(yǔ)時(shí)無(wú)法用 HowNet 動(dòng)態(tài)角色對(duì)藏語(yǔ)的句法結(jié)構(gòu)和語(yǔ)義特征進(jìn)行充分地描寫(xiě)和解釋。我們的研究結(jié)合藏語(yǔ)的特征，從多個(gè)視角對(duì) HowNet 的動(dòng)態(tài)角色義原進(jìn)行分析和討論，重新厘定部分存在問(wèn)題和疑義的動(dòng)態(tài)角色，并將原先零散、體系不清晰的動(dòng)態(tài)角色納入到確定層級(jí)和系統(tǒng)中。具體做了三項(xiàng)工作。① 對(duì)部分較為重要、存在問(wèn)題的動(dòng)態(tài)角色進(jìn)行了再定義，對(duì)其本身的語(yǔ)義特征和限定范圍進(jìn)行了初步劃分。② 指出動(dòng)態(tài)角色義原之間存在對(duì)應(yīng)關(guān)系，對(duì)其進(jìn)行了討論和分析，并對(duì)不同動(dòng)態(tài)角色義原之間存在的對(duì)應(yīng)關(guān)系進(jìn)行了歸納。③ 指出動(dòng)態(tài)角色義原之間的地位是不平等的，動(dòng)態(tài)角色是具有層級(jí)性的、典型性漸弱的系統(tǒng)。

將核心的主客體動(dòng)態(tài)角色納入到與其相關(guān)的、特定的事件中進(jìn)行考察，并從語(yǔ)義分類、藏語(yǔ)語(yǔ)法、認(rèn)知等幾個(gè)角度雙向檢驗(yàn)動(dòng)態(tài)角色及其關(guān)聯(lián)事件的“合法性”。

以藏語(yǔ)格助詞和藏語(yǔ)傳統(tǒng)文法在語(yǔ)義層面上對(duì)動(dòng)詞范疇的劃分方式為參照，對(duì) HowNet“動(dòng)態(tài)角色”的定義、語(yǔ)義特征和限定范圍進(jìn)行了討論，并明確了“動(dòng)態(tài)角色”與“事件類基本義原”之間的關(guān)聯(lián)關(guān)系，建立起結(jié)構(gòu)化、分層次的“動(dòng)態(tài)角色義原體系”。

3.2.2 藏語(yǔ)句法 - 語(yǔ)義一體化

根據(jù)建立的“動(dòng)態(tài)義原角色義原”體系，使動(dòng)態(tài)角色與藏語(yǔ)格助詞相對(duì)應(yīng)，并將其與特定事件相關(guān)聯(lián)，實(shí)現(xiàn)了HowNet 框架下的藏語(yǔ)句法-語(yǔ)義一體化，為藏語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建提供了一種新思路。

3.2.3 構(gòu)建藏漢知識(shí)詞典

HowNet 知識(shí)系統(tǒng)描述語(yǔ)言在對(duì)概念進(jìn)行解釋時(shí)，缺乏一定的上下文語(yǔ)境，且 HowNet 采用人工構(gòu)建方式，耗時(shí)耗力。我們使用基于統(tǒng)計(jì)和基于跨語(yǔ)言詞向量的方法自動(dòng)構(gòu)建藏漢知識(shí)詞典，并為其提供了豐富的上下文語(yǔ)境。

HowNet 本體知識(shí)的有效性和完備性，尚未在大規(guī)模語(yǔ)料中受到檢驗(yàn)。我們利用大規(guī)模平行句對(duì)，從“符號(hào)根基問(wèn)題”這一角度，對(duì) HowNet 知識(shí)詞典的有效性和完備性進(jìn)行了評(píng)價(jià)和檢驗(yàn)。由于篇幅所限，上述內(nèi)容在此不再贅述，請(qǐng)關(guān)注作者相關(guān)論文研究。

4 結(jié)束語(yǔ)

本文探討了后深度學(xué)習(xí)時(shí)代“知識(shí) + 數(shù)據(jù)”驅(qū)動(dòng)的NLU 模式，闡釋將 HowNet 義原知識(shí)體系融入數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型中具有不可比擬的優(yōu)勢(shì)，它也許會(huì)成為突破從感知智能到認(rèn)知智能的NLU瓶頸的一把鑰匙。在后續(xù)工作中我們會(huì)繼續(xù)以多民族語(yǔ)言義原知識(shí)庫(kù)構(gòu)建為主要研究對(duì)象，擴(kuò)大義原標(biāo)注語(yǔ)種的范圍，增強(qiáng) HowNet 義原知識(shí)庫(kù)在跨語(yǔ)言自然語(yǔ)言處理、語(yǔ)義理解和自動(dòng)問(wèn)答、文本生成等任務(wù)的適用性。

標(biāo)簽：

上一篇：【5?30全國(guó)科技工作者日】韓城市文聯(lián)開(kāi)展“書(shū)畫(huà)進(jìn)校園”活動(dòng)
下一篇：最后一頁(yè)

相關(guān)新聞

凡本網(wǎng)注明“XXX（非現(xiàn)代青年網(wǎng)）提供”的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

迪麗熱巴佟大為領(lǐng)銜主演《公訴》聚焦“打擊網(wǎng)絡(luò)犯罪”

原標(biāo)題：迪麗熱巴佟大為領(lǐng)銜主演（引題）《公訴》聚焦“打擊網(wǎng)絡(luò)犯罪”（主題）今晚報(bào)訊（記者劉桂芳）首部

2023-05-30 17:40
音樂(lè)劇《綻放》再現(xiàn)“燃燈校長(zhǎng)”感人故事

原標(biāo)題：音樂(lè)劇《綻放》再現(xiàn)“燃燈校長(zhǎng)”感人故事廣西日?qǐng)?bào)記者趙娟?5月25日、26日晚，大型原創(chuàng)音樂(lè)劇《綻

2023-05-30 16:55
國(guó)家文物局“考古中國(guó)”重大項(xiàng)目通報(bào)商代最新發(fā)現(xiàn)成果_全球微頭條

原標(biāo)題：國(guó)家文物局“考古中國(guó)”重大項(xiàng)目通報(bào)商代最新發(fā)現(xiàn)成果中新網(wǎng)北京5月30日電（記者應(yīng)妮）國(guó)家文物局3

2023-05-30 16:45
AI繪畫(huà)與畫(huà)師沖擊還是促進(jìn)？-世界短訊

原標(biāo)題：AI繪畫(huà)與畫(huà)師沖擊還是促進(jìn)？天津日?qǐng)?bào)記者郭曉瑩隨著人工智能技術(shù)的不斷發(fā)展，人工智能時(shí)代到來(lái)，人

2023-05-30 16:44
十國(guó)影片入圍第25屆上海國(guó)際電影節(jié)金爵獎(jiǎng)主競(jìng)賽單元

原標(biāo)題：十國(guó)影片入圍第25屆上海國(guó)際電影節(jié)金爵獎(jiǎng)主競(jìng)賽單元新華社上海5月29日電（記者許曉青、孫麗萍）上

2023-05-30 16:32
焦點(diǎn)播報(bào):“中國(guó)歷代繪畫(huà)大系”之宋畫(huà)特別展覽在新加坡舉辦

原標(biāo)題：“中國(guó)歷代繪畫(huà)大系”之宋畫(huà)特別展覽在新加坡舉辦新華社新加坡5月28日電（記者蔡蜀亞）丹青吟詠·

2023-05-30 16:36
周思武以影像播撒溫暖的力量|世界觀點(diǎn)

原標(biāo)題：周思武以影像播撒溫暖的力量天津日?qǐng)?bào)記者胡春萌周思武，生活里他是天津美術(shù)學(xué)院攝影藝術(shù)系的研究生

2023-05-30 10:51
每日觀察!國(guó)內(nèi)戲劇名家齊聚長(zhǎng)沙傾情開(kāi)唱

原標(biāo)題：國(guó)內(nèi)戲劇名家齊聚長(zhǎng)沙傾情開(kāi)唱中新網(wǎng)長(zhǎng)沙5月29日電（記者楊華峰）29日，第二屆“非遺名家聚橘洲·

2023-05-30 10:41
訊息：江蘇淮安：送戲下鄉(xiāng) 文化惠民

原標(biāo)題：江蘇淮安：送戲下鄉(xiāng)文化惠民5月28日，江蘇省文化和旅游廳送戲下鄉(xiāng)活動(dòng)在淮安市漣水縣保灘街道肖渡

2023-05-30 10:43
熱文：河北石家莊：“南腔北調(diào)”聯(lián)袂獻(xiàn)藝

原標(biāo)題：河北石家莊：“南腔北調(diào)”聯(lián)袂獻(xiàn)藝5月29日，剛獲得第31屆中國(guó)戲劇梅花獎(jiǎng)的廣州粵劇院演員李嘉宜（

2023-05-30 10:50
【環(huán)球快播報(bào)】國(guó)道之行從雪山奔向大海｜這么可愛(ài)的國(guó)寶，你見(jiàn)過(guò)嗎？

原標(biāo)題：國(guó)道之行從雪山奔向大海｜這么可愛(ài)的國(guó)寶，你見(jiàn)過(guò)嗎？這是5月26日拍攝的皮央石窟壁畫(huà)中的大象像。

2023-05-30 10:53
十余年整理研究，內(nèi)容完整公布出版——北大秦簡(jiǎn)展示一幅秦代社會(huì)鮮活圖景

原標(biāo)題：十余年整理研究，內(nèi)容完整公布出版——（引題）北大秦簡(jiǎn)展示一幅秦代社會(huì)鮮活圖景（主題）光明日?qǐng)?bào)

2023-05-30 09:47
映秀茶香飄萬(wàn)里

“非遺煥彩新時(shí)代”原標(biāo)題：映秀茶香飄萬(wàn)里“五一”假期，位于四川省汶川縣映秀鎮(zhèn)非遺文化創(chuàng)意園的茶祥子映

2023-05-30 09:42
通訊：在內(nèi)蒙古探訪“無(wú)字天書(shū)”陰山巖畫(huà)-全球最資訊

原標(biāo)題：通訊：在內(nèi)蒙古探訪“無(wú)字天書(shū)”陰山巖畫(huà)中新網(wǎng)巴彥淖爾5月29日電?中新網(wǎng)記者李愛(ài)平過(guò)去兩天間，

2023-05-30 09:32
天天微頭條丨演唱會(huì)門(mén)票秒罄“黃牛黨”撈錢(qián)術(shù)升級(jí)

原標(biāo)題：演唱會(huì)門(mén)票秒罄“黃牛黨”撈錢(qián)術(shù)升級(jí)（主題）北京青年報(bào)記者調(diào)查發(fā)現(xiàn)非公開(kāi)銷售的渠道票是黃牛票的

2023-05-30 09:49
微資訊！第七屆圖像小說(shuō)節(jié)長(zhǎng)春站開(kāi)幕

原標(biāo)題：第七屆圖像小說(shuō)節(jié)長(zhǎng)春站開(kāi)幕中新社長(zhǎng)春5月29日電（記者郭佳）第七屆圖像小說(shuō)節(jié)長(zhǎng)春站暨第六屆“24

2023-05-30 08:54
悠遠(yuǎn)琴音富民潤(rùn)心世界微頭條

“文化產(chǎn)業(yè)賦能鄉(xiāng)村”原標(biāo)題：河南蘭考發(fā)展民族樂(lè)器產(chǎn)業(yè)，帶動(dòng)鄉(xiāng)村振興（引題）悠遠(yuǎn)琴音富民潤(rùn)心（主題）人

2023-05-30 08:40
上海國(guó)際電影節(jié)金爵獎(jiǎng)入圍名單揭曉

原標(biāo)題：上海國(guó)際電影節(jié)金爵獎(jiǎng)入圍名單揭曉廣州日?qǐng)?bào)訊（全媒體記者黃岸）昨日，第二十五屆上海國(guó)際電影節(jié)金

2023-05-30 08:47
雙面“繡”姑蘇|世界最資訊

原標(biāo)題：雙面“繡”姑蘇（主題）人文經(jīng)濟(jì)視野下的蘇州觀察（副題）從蘇州古城最高點(diǎn)北寺塔環(huán)視，河街相鄰、

2023-05-30 08:49
重點(diǎn)聚焦!科幻作家劉慈欣：中國(guó)科幻影視未來(lái)前景光明

原標(biāo)題：科幻作家劉慈欣：中國(guó)科幻影視未來(lái)前景光明中新社北京5月29日電（記者陳杭）中國(guó)科幻作家劉慈欣29

2023-05-30 08:42
全球短訊！新華全媒+丨2023中國(guó)科幻大會(huì)用40場(chǎng)活動(dòng)打造“科幻盛宴”

新華全媒+原標(biāo)題：2023中國(guó)科幻大會(huì)用40場(chǎng)活動(dòng)打造“科幻盛宴”新華社北京5月29日電（記者陽(yáng)娜、溫競(jìng)?cè)A）作

2023-05-30 07:46
世界快消息！逾300名專家學(xué)者匯聚澳門(mén)探討中國(guó)語(yǔ)言學(xué)

原標(biāo)題：逾300名專家學(xué)者匯聚澳門(mén)探討中國(guó)語(yǔ)言學(xué)人民日?qǐng)?bào)海外版澳門(mén)5月29日電（記者富子梅）為期3天的國(guó)際

2023-05-30 07:47
世界視訊！大型中文說(shuō)唱音樂(lè)劇《愚公移山》在京首演

原標(biāo)題：大型中文說(shuō)唱音樂(lè)劇《愚公移山》在京首演5月27日，大型說(shuō)唱音樂(lè)劇《愚公移山》在位于北京的中央歌

2023-05-30 05:40
“哆啦A夢(mèng)”陪觀眾過(guò)“六一”_環(huán)球今日訊

原標(biāo)題：“哆啦A夢(mèng)”陪觀眾過(guò)“六一”北京晚報(bào)訊（記者袁云兒）6月1日，至今仍風(fēng)靡全球的“藍(lán)胖子”又要在

2023-05-30 05:40
熱文：“非遺技藝人人可學(xué)”

原標(biāo)題：“非遺技藝人人可學(xué)”（主題）——記通遼市奈曼旗白音杭蓋炭烤牛肉干制作技藝非遺工坊（副題）董亮

2023-05-29 16:41

熱文推薦

1什么是“國(guó)民好車”?BAW陸付軍率全體北汽制造人用匠心詮釋
2全球銷量突破1200萬(wàn)，感恩回饋，江鈴福順官方降價(jià)，機(jī)不可失！！
3雀友品牌發(fā)布全新TVC廣告，詮釋“讓快樂(lè)傳遞”的品牌核心
4為什么這幾個(gè)運(yùn)動(dòng)功能品牌經(jīng)常被仿冒？你有經(jīng)歷過(guò)嗎？
5飛宇穩(wěn)定器新品火熱來(lái)襲，618開(kāi)門(mén)紅大放價(jià)
6一場(chǎng)特別的就業(yè)雙選會(huì)在河南交院舉行
7顏值正義內(nèi)功助力，虛擬偶像“奇正相佐”的破圈之路
8三年不孕求子路在成都西南不孕不育?？漆t(yī)院畫(huà)上圓滿句號(hào)
9中荷人壽適老化改造“管家” 為老年人居家生活系上“安全帶”
10中信銀行鄭州分行落地新鄉(xiāng)市首筆存量房“帶押過(guò)戶”業(yè)務(wù)
11喬雅登【V-smile】攜深圳陽(yáng)光共探口周能量美學(xué)新思路
12濟(jì)源職業(yè)技術(shù)學(xué)院足球隊(duì)榮獲河南省大學(xué)生五人制足球比賽冠軍
13「植愈」地球，「回血」真修護(hù) 妮維雅男士奔赴云南無(wú)量山開(kāi)啟神奇植物探訪之旅
14鄭州財(cái)稅金融職業(yè)學(xué)院雙選會(huì)：8000個(gè)高質(zhì)崗位強(qiáng)勢(shì)出擊
15實(shí)力彰顯、閃耀全場(chǎng)！跨越速運(yùn)重磅亮相第五屆SEMI-e
16大健康行業(yè)勢(shì)頭迅猛，滄海遺珠-LANGMA將要大放異彩
17河南交通職業(yè)技術(shù)學(xué)院榮獲全國(guó)職業(yè)院校技能大賽一等獎(jiǎng)
18中荷人壽溫情啟動(dòng)“康養(yǎng)季”服務(wù)給予全方位養(yǎng)老保障
19世上無(wú)難事，只要肯比較！羅意威與Fina Ejerique大比拼！
20“秋季腹瀉”在夏季肆虐?接種疫苗，幫助寶寶平安度過(guò)輪狀病毒高發(fā)期
21春光無(wú)限好！致那些的勇于拼搏的RICHARD MILLE摯友們
22大商之道助力2023中國(guó)品牌節(jié)女性論壇·企業(yè)招商增長(zhǎng)論壇圓滿舉辦，賦能企業(yè)品牌增長(zhǎng)與渠道裂變
23廣東首批優(yōu)秀食品新品目錄發(fā)布官棧鮮燉花膠、燕塘牛奶等134個(gè)新品入選，有你喜歡的么？
24知名招商專家、大商之道招商產(chǎn)業(yè)集團(tuán)聯(lián)合創(chuàng)始人王昕導(dǎo)師榮膺“2023中國(guó)招商品牌女性”
25

今日快訊：基于詞串的小語(yǔ)種預(yù)訓(xùn)練語(yǔ)言模型及語(yǔ)言分析技術(shù)

特別關(guān)注

焦點(diǎn)資訊