小说排行榜完结版,盗墓笔记全集

【大家說】劉知遠：自然語言理解難在哪兒？

2019年12月24日

劉知遠：自然語言理解難在哪兒？

原文作者：劉知遠教授

原文鏈接：https://zhuanlan.zhihu.com/p/96801863

在微博和知乎上關注自然語言處理（NLP）技術(shù)的朋友，應該都對#NLP太難了#、#自然語言理解太難了#兩個話題標簽不陌生，其下匯集了各種不僅難煞計算機、甚至讓人也發(fā)懵的費解句子或歧義引起的笑話。然而，這些例子只是讓人直覺計算機理解人類語言太難了，NLP到底難在哪里，還缺少通俗易懂的介紹。最近剛做完會議投稿，這里花些時間總結(jié)下我對這個問題的認識，期望對那些感興趣NLP的同學有些幫助。歡迎批評意見和建議，未來爭取不斷更新。

自然語言理解本質(zhì)是結(jié)構(gòu)預測

要搞清楚自然語言理解難在哪兒，先看自然語言理解任務的本質(zhì)是什么。作為人工智能關注的三大信息類型（語音、視覺、語言）之一，自然語言文本是典型的無結(jié)構(gòu)數(shù)據(jù)，由語言符號（如漢字）序列構(gòu)成。要實現(xiàn)對自然語言的表意的理解，需要建立對該無結(jié)構(gòu)文本背后的語義結(jié)構(gòu)的預測。因此，自然語言理解的眾多任務，包括并不限于中文分詞、詞性標注、命名實體識別、共指消解、句法分析、語義角色標注等，都是在對文本序列背后特定語義結(jié)構(gòu)進行預測。例如，中文分詞就是在原本沒有空格分隔的句子中增加空格或其他標識，將句子中每個詞的邊界標記出來，相當于添加了某些結(jié)構(gòu)化語義信息到這個文本序列上。

面向不同NLP任務，人們制定不同的待預測的語義結(jié)構(gòu)空間：文本分類是最簡單的情形，即預定義的類別體系，最常見的如情感分類是postive、neutral、negative三類；中文分詞是詞邊界的標記；詞性標注是句子中每個詞的詞性標簽（如名詞、動詞、形容詞、副詞、連詞、介詞等）；命名實體識別是標記哪些詞（或多詞）是實體名及其實體類型（如人名、地名、機構(gòu)名等）；共指消解是標記哪些詞在做指代以及指代的是前面出現(xiàn)的哪個概念或?qū)嶓w；句法分析則是將句子背后的句法樹結(jié)構(gòu)或依存結(jié)構(gòu)預測出來。

自然語言理解的關鍵是語義表示

不過，以上NLP任務都只是在不斷“逼近”對文本的理解，是對文本語義的局部表示。要實現(xiàn)對文本的完整理解，需要建立更完備的語義結(jié)構(gòu)表示空間，這種更完備的語義表示經(jīng)常成為上述NLP任務進行結(jié)構(gòu)預測的依據(jù)。

在統(tǒng)計學習時代，一般采用符號表示（Symbol-based Representation）方案，即每個詞都看做互相獨立的符號。例如，詞袋模型（Bag-of-Words，BOW）是最常用的文本表示方案，忽略文本中詞的出現(xiàn)順序信息，廣泛用于文本分類、信息檢索等任務。N-Gram也是基于符號表示的語言模型，與BOW模型相比，將句子中詞的出現(xiàn)順序考慮了進來，曾在機器翻譯、文本生成、信息檢索等任務中廣泛使用。

到深度學習時代，一般采用分布式表示（Distributed Representation或Embeddings）方案，每個語言單元（包括但不限于字、詞、短語、句子、文檔）都用一個低維稠密向量來表示它們的語義信息。分布式表示是深度學習和神經(jīng)網(wǎng)絡的關鍵技術(shù)。分布式表示方案是受到了人腦神經(jīng)機制的啟發(fā)，基本思想是[2]：

Each entity is represented by a pattern of activity distributed over many computing elements , and each computing element is involved in representing many different entities.

很大程度上，這種表示方案與索緒爾對語言符號的任意性和結(jié)構(gòu)主義的觀點不謀而合。從計算角度來看，NLP很多應用任務就是在判定兩個語言單元間的語義相似度，如信息檢索是在短語（查詢詞）和文檔之間，文檔摘要是在句子和文檔之間，分布式表示也為在不同語言單元之間計算語義相似度提供了統(tǒng)一的語義表示基礎。

由于忽略了對詞語內(nèi)部語義或詞序信息的考量，基于符號表示的詞袋模型或N-Gram失之粗略，也受到數(shù)據(jù)稀疏問題的影響；基于分布式表示的深度學習雖然極大提升NLP性能，卻更多只能作為NLP內(nèi)部表示，可解釋性不夠。實際上，也有很多學者提出Semantic Parsing任務，探索各類對文本語義更完整的表示和建模方案，仍未得到令人滿意的結(jié)果。

總之，自然語言理解任務的本質(zhì)是結(jié)構(gòu)預測，關鍵則是對語言單元的語義表示能力。那么，自然語言理解為什么難呢，這需要我們先看一下，自然語言都有哪些特點。

自然語言有哪些特點

自然語言是人類在認識世界和改造世界的過程中產(chǎn)生的，歸根到底是自然界的產(chǎn)物，因此被稱為自然語言。自然語言本身受到人腦語言能力的支配，伴隨著人類社會而演化，作為人類使用的最龐雜的符號系統(tǒng)，有很多特點。

創(chuàng)新性

作為人類信息交流的工具，自然語言需要具有強大的創(chuàng)新活力，隨時引入對最新概念、表述和意義的表達能力。這方面最常見的就是新詞以及舊詞新意的出現(xiàn)。例如，有個笑話就是母女二人對“潮”和“曬”產(chǎn)生的不同理解，女兒本意是讓母親幫忙在太陽下曬發(fā)潮的被子；而母親卻理解為在朋友圈“曬”女兒的被子讓大家看是不是很“潮”?？梢?，這位母親大人本人還是很“潮”的，熟練掌握了兩個詞的的最新意思。

人類語言的創(chuàng)新活力伴隨著互聯(lián)網(wǎng)發(fā)展和在線交流的日益密切而更加明顯。北京大學邵燕君等學者主編的《破壁書》應該是近年這方面的集大成之作，有興趣的讀者可以讀下。我理解，這個書名“破壁書”，也算化用《三體》“破壁人”的一個新詞。

新詞和舊詞新意等都擴展了人類語言的表意空間，也擴展了自然語言理解進行結(jié)構(gòu)預測的語義空間。而這種擴展，帶有較強的隨意性，缺少嚴格的描述信息或足夠的數(shù)據(jù)支持，從而為自然語言理解帶來挑戰(zhàn)。

遞歸性

以語言學巨擘喬姆斯基為代表的學者認為，遞歸性（recursion)是人類語言的最重要的特性[4]，這也是喬姆斯基提出轉(zhuǎn)換生成文法的內(nèi)在動機。雖然，遞歸性是否為人腦先天具備的語言能力有很多爭論，至少從漢語英語兩大語言來看，語言表現(xiàn)出的遞歸性特點不言而喻。

例如最近中美之間出現(xiàn)的這則有意思的表述，就集中反映了語言遞歸性：S1=”美國干涉中國內(nèi)政“是一個擁有完整主謂賓結(jié)構(gòu)的句子，被作為另外一個句子S2=”中國抗議 x的法案“中”法案“的定語x；而S2又被作為了S3=”美國抗議 y 是在干涉內(nèi)政“中”抗議“的賓語y。

遞歸性帶來的語言套娃現(xiàn)象-1: 抗議

正是這種遞歸性，為語言帶來精準而強大的表述信息和思想的能力，隨便翻翻那些著名的哲學著作，充滿著帶有復雜遞歸結(jié)構(gòu)的長句。不過，這種精確表達能力是以理解更加費力為代價的，而且遞歸性也為一句話帶來更多的語義理解的可能性，例如”咬死獵人的狗“，到底是咬死了獵人，還是咬死了狗，至少有兩種可能的理解。

也可以看到，一旦句子包含了多層嵌套，對人而言理解起來就變得十分困難，很少有人會用這么復雜的結(jié)構(gòu)說話。例如，政府部門層層轉(zhuǎn)發(fā)通知導致的”通知的通知的通知“的標題，讀起來就非常費力。所以，在自然語言理解實踐中，單純由于遞歸性造成的困難并不是那么大。

多義性

自然語言是一個信息傳遞系統(tǒng)，需要兼顧信號發(fā)出者（說話人、作者）和信號接收者（聽話人、讀者）的效率。如果人類大腦中每個事物都要對應一個獨一無二的字詞符號，無疑會大幅提高人們的學習、記憶和使用語言的成本。因此，語言中存在大量同音字和一詞多義的現(xiàn)象，即一個字或詞往往兼顧多個詞義，當然，也對應地需要人們根據(jù)話語或文本的語境進行消歧處理，才能正確理解其語義。這種多義性，也成為各類語言幽默的主要來源。

自然語言有不同粒度的語言單元，如字、詞、短語、句子、語篇，乃至文檔互聯(lián)形成的萬維網(wǎng)。多義性普遍存在于各粒度的語言單元上。例如，上面例子中的”潮“和”曬“兩字就有兩種意思，”小號“則是典型的一詞多義，短語層面如”metal fan“也至少有兩個意思。

句子層面的多義性也不少見，如”能穿多少穿多少“，在夏天和冬天各有截然相反的意思。類似形式的語言笑話還不少：

單身的原因有兩個，一是誰都看不上，二是誰都看不上。
女孩給男朋友打電話：如果你到了，我還沒到，你就等著吧；如果我到了，你還沒到，你就等著吧。
單身的原因：原來是喜歡一個人，現(xiàn)在是喜歡一個人。

自然語言作為人們?nèi)粘＝涣鞯闹饕绞剑嘈琶總€人都有在交流中出現(xiàn)誤會鬧出笑話甚至沖突的經(jīng)歷，很多時候就是由于歧義造成雙方理解產(chǎn)生誤差導致的。

主觀性

即使語言的多義性得到了正確消歧，語言的字面意思得到了準確理解，同樣的話語或文本，仍然會導致人們產(chǎn)生不同的理解，引發(fā)不同的思緒。這是因為，每個人都是在認識世界和與外界交互的具體過程中習得語言的，所以人們對語言的理解不可避免受到個人經(jīng)歷和認知水平的影響，帶有強烈的主觀性。

這種主觀性反映在很多方面，以作者與讀者間的理解差異為例，常說”一千個讀者就有一千個哈姆雷特“，莎士比亞在寫這個劇本時，他心目中恐怕有一個確切的哈姆雷特形象以及他希望表達的思想；但讀者在閱讀時，則不可避免會受到自身經(jīng)歷和認知的影響，而產(chǎn)生不同的理解。這有如一個正態(tài)分布，也許作者要傳遞的信息就在均值附近，而讀者的理解則會各有偏差。這也是為什么，同樣一部世界名著，有的人就會引起共鳴，有的人覺得索然無味。

中文世界也常說，言有盡而意無窮，特別是在詩歌中，往往寥寥數(shù)字，作者也許本意有限，而不同讀者會產(chǎn)生不同層次的解讀。這也是為什么。再如下面融合多種元素的詩歌：無人機系荔枝來，字面意思正如圖所畫，而讀者如果了解杜牧原詩以及廣東人容易將ZHI、SHI發(fā)音為JI、XI的特點，則更能會心一笑。

在人們?nèi)粘υ捊涣髦校@種主觀性比比皆是。例如，同樣是說”今天好冷啊”，字面意思沒有任何難解之處，但如果是女朋友剛進屋說的，那就得趕緊打開空調(diào)；如果是宿舍同學說的，恐怕就要嘲笑他為啥穿這么少了。所以，戀愛關系、外交辭令、商務談判都是需要清醒洞悉對方“言外之意”的危險地區(qū)呀。

心理語言學等領域的很多研究表明，人的心理狀態(tài)（如性格等）會反映在語言表達的蛛絲馬跡中。對此有興趣可以閱讀美國學者James Pennebaker的相關成果，他甚至構(gòu)建了一個詞典Linguistic Inquiry and Word Count（LIWC）嘗試建立人們使用詞語與心理狀態(tài)的對應關系 [5]。

社會性

人類是社會動物，社會性既是人類的特性，也深刻反映在人類語言中。語言并非固定不變，而是經(jīng)歷了漫長演化。人類的集體生產(chǎn)和生活，對信息交流和記錄產(chǎn)生的需求，不斷改造著人類語言。全世界的人類早期聚居于不同大洲和地區(qū)，互相隔絕，各自的社會形態(tài)和生活特點，深刻地影響了不同語言的產(chǎn)生和演化，產(chǎn)生了現(xiàn)在形態(tài)各異的人類語言，例如英語等是典型的拼音語言，而漢語則是音義兼顧語言的代表?，F(xiàn)代語言學也是從研究總結(jié)不同語言體系的特點而發(fā)展起來的。作為語言學的分支，演化語言學就在研究人類語言在發(fā)音、字形、詞法、句法等多個方面的演化過程，而社會語言學則重在研究社會形態(tài)與人類語言之間的互相影響的規(guī)律。

語言系統(tǒng)受到社會發(fā)展的塑造。隨著互聯(lián)網(wǎng)和移動設備的廣泛應用，人類之間的交流和聯(lián)系，比以往任何一個時代都更加緊密，這也反映在人類語言的高速演化，新詞和舊詞新意層出不窮。不同學科的高速發(fā)展，也為語言注入大量專業(yè)術(shù)語。使用不同語言的人們緊密聯(lián)系，也為語言引入大量音譯等形式的外來詞。

語言使用也深刻反映社會形態(tài)。人們在不同的社交場合會切換不同的語言風格，如在做公開報告時和在朋友聚會時，語言風格明顯不同，莊諧相異。在社交場合，人們也會將有些讓人恐懼厭惡或者不雅晦氣的概念作為禁忌或避諱詞語，進而使用委婉曲折的說法，例如大便改叫出恭或解手，死亡改叫作古歸西或見馬克思等，中外皆同。

社會語言學還有一個有趣的話題，是探究語言使用與社會地位之間的關系，曾提出語言協(xié)調(diào)理論（Language coordination），即不同社會地位的人在相互交流時，地位低的人會從語言風格上適應地位高的人，而地位高的人則不會主動調(diào)整自己的語言風格適應別人，這個理論在2012年得到了定量驗證 [6]。

最近的定量研究也表明，大規(guī)模文本中含有人類社會存在的刻板印象、政治偏見等問題，側(cè)面反映了人類社會對語言的影響 [7]。美國著名認知語言學家萊考夫甚至認為，不同黨派的政治家甚至會通過語言使用來影響政治議題的設置 [8]。

自然語言理解難在哪

正是由于其創(chuàng)造性、遞歸性、多義性、主觀性和社會性等特點，既讓人類語言具備強大的表達力和生命力，同時呈現(xiàn)出非常復雜而難以捉摸的圖景。單從讓計算機理解人類語言的角度來考慮，問題難點也許可以歸結(jié)為如下幾個方面。

結(jié)構(gòu)語義表示空間構(gòu)建

很多學者通過世界、心智和語言的三角形來表述語言的地位，這在索緒爾提出的能指和所指的概念中已初見端倪，哲學中的認識論和語言哲學也是探討這三者的關系。自然語言理解還沒有能力考慮哲學關心的這些問題，不過也能看出，語言作為人類認識世界的產(chǎn)物和工具，必然不是對客觀世界的簡單映射，而帶有人類主觀認識的色彩，也受到人腦機能的影響和約束。

讓計算機理解人類語言，需要建構(gòu)結(jié)構(gòu)化的語義表示空間，只有這個空間的語義表示能力能夠與人類心智相媲美，才有可能將人類通過語言要表達的意義進行完美表示和解讀。同時，這個語義表示空間還要接受客觀世界的校正，消除人類認知中存在的偏見和缺陷，讓人工智能更好地服務人類社會。

現(xiàn)在的語義表示方案中，符號表示過于粗略，無法考慮語言符號背后反映的豐富語義信息；而分布式表示雖然具有更強大的表示能力和自由度，但目前只能通過特定任務下的數(shù)據(jù)學習，只能建立滿足特定需求的語義表示，一方面缺少可解釋性，魯棒性差，另一方面通用性和遷移性不足。這些與人腦展現(xiàn)的語義表示能力相比，還有千里之遙。

未來，需要探索更強大的結(jié)構(gòu)化語義表示空間。例如，是否可以將分布式表示與符號表示相結(jié)合，既保留分布式表示的泛化能力，又兼顧模塊化和層次化符號表示帶來的抽象能力。也許這是下一輪自然語言理解取得革命進展的突破口之一。

我們課題組正在致力于構(gòu)建和利用各類型知識圖譜的研究，也算是在這個方向上的努力。通過構(gòu)建常識知識、語言知識、世界知識、認知知識、領域知識等各類型知識圖譜，希望建立起更強大的結(jié)構(gòu)化語義表示空間。

多模態(tài)復雜語境的理解

人類并非孤立地使用語言，語言使用需要考慮其復雜的語境。以語言的多義性為例，存在多義的語言單元，總需要其外部的復雜語境信息進行消歧：字的多義性至少需要所組成的詞來消歧；詞的歧義性至少需要所在的句子來消歧；句子的意思至少要放在語篇或?qū)υ捳Z境中，甚至需要復雜的世界知識來幫助理解。

這種語境往往是開放的，也是多模態(tài)的，如上下文句子的文本信號、對話者的語氣等語音信號、所處環(huán)境的視覺信號、甚至其他無法名狀的各類信息。實際上，很多歧義產(chǎn)生的笑話，在實際語境下并不會讓人產(chǎn)生錯誤理解。例如下圖”三餐二樓歡迎新老師生前來就餐“，雖然從句意上有”歡迎新老師生前來就餐“這種理解的可能性，但在這個場景下其實不可能是這個意思。

再如”無線電法國別研究“，雖然從句意上有”無線電法國別研究“這種理解的可能性，但作為一本專著的書名，只可能是”無線電法國別研究“這種理解。

只是對于計算機而言，如何有效理解語言所處的開放復雜語境，從而實現(xiàn)對語言語義的準確理解，仍是挑戰(zhàn)性難題。這既與尚未建立有效的結(jié)構(gòu)語義表示空間有關，也與計算機還不能像人那樣進行跨模態(tài)的高效學習和理解有關。如何有效識別語言理解所需的語境信息，并建立跨模態(tài)多通道的建模，依然任重道遠。

小結(jié)

這里總結(jié)了我對自然語言理解到底難在哪兒的看法。自然語言理解作為人工智能的核心問題，正引起越來越多研究者的興趣，在各類任務上努力探索，自然語言處理最重要的國際學術(shù)年會ACL 2020共有3000多篇投稿，受關注程度可見一斑。

自然語言理解大致有不同的層次，我總結(jié)研究路徑可以大致為：字斟句酌，實現(xiàn)句級消歧和精準理解；瞻前顧后，初步實現(xiàn)文本內(nèi)的復雜語境建模，建立篇章或?qū)υ捓斫猓?span fr-original-style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; font-weight: 600;" style="box-sizing: border-box; margin: 0px; padding: 0px; max-width: 100%; font-weight: 600; overflow-wrap: break-word !important;">博學多識，引入更多外部知識，實現(xiàn)跨模態(tài)更復雜語境的理解；善解人意，考慮語言的社會性和主觀性因素，實現(xiàn)更有”人性“的自然語言理解；冥思苦想，將語言作為思想工具，實現(xiàn)從語言理解到語言使用的跨越，實現(xiàn)創(chuàng)作和規(guī)劃的能力。

語言是人類文明的象征，是人類智能的集中體現(xiàn)，因此得到非常多學科從不同角度的思考和關注，如語言學中對句法、語義等問題建立的理論，心理語言學對人類語言習得的探討，語言哲學對語言與世界關系的探討，認知語言學對隱喻和范疇等問題的探討，神經(jīng)語言學對人腦的語言功能的研究，漢語言學界對于漢語流水句、”王冕七歲上死了父親“等語言現(xiàn)象的研究，等等。這些，都對人類語言不同側(cè)面的特點進行了卓有成效的考察。

自然語言理解的目標是讓計算機掌握人類語言能力，需要充分了解和融合這些對人類語言的已有探索成果，以逼近人類語言的本質(zhì)，才能更好地設計結(jié)構(gòu)化語義表示空間，實現(xiàn)多模態(tài)復雜語境的理解，像人那樣智能地理解和使用語言。希望有朝一日，計算機也能讀懂#NLP太難了#、#自然語言理解太難了#兩個話題標簽下的那些話。

參考文獻

[1] Julia Hirschberg and Christopher D. Manning. Advances in Natural Language Processing. Science, 2015.

[2] Hinton, Geoffrey E., James L. McClelland, and David E. Rumelhart. Distributed Representations. Pittsburgh, PA: Carnegie-Mellon University, 1984.

[3] 索緒爾[瑞士]. 普通語言學教程. 北京: 商務印書館, 1980.

[4] Marc D. Hauser, Noam Chomsky, and W. Tecumseh Fitch. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?. Science, 2002: 1569-1579.

[5] James W. Pennebaker. The Secret Life of Pronouns: What Our Words Say About Us. NY: Bloomsbury, 2011.

[6] Cristian Danescu-Niculescu-Mizil, Lillian Lee, Bo Pang, Jon Kleinberg. Echoes of power: Language effects and power differences in social interaction. WWW, 2012.

[7] Aylin Caliskan, Joanna J. Bryson, and Arvind Narayanan. Semantics Derived Automatically from Language Corpora Contain Human-like Biases. Science, 2017.

[8] 喬治.萊考夫[美]. 別想那只大象. 浙江人民出版社, 2013.

上一篇：【講座】陳平教授：理論語言學的滯緩及跨學科研究的廣闊前景下一篇：【周明朗教授學術(shù)講座07】全球化進程中亞洲語言意識形態(tài)和秩序的沖突與妥協(xié)

劉知遠：自然語言理解難在哪兒？

自然語言理解的關鍵是語義表示

自然語言有哪些特點

創(chuàng)新性

遞歸性

結(jié)構(gòu)語義表示空間構(gòu)建

小結(jié)

最熱資訊

熱門標簽

劉知遠：自然語言理解難在哪兒？

自然語言理解的關鍵是語義表示

自然語言有哪些特點

創(chuàng)新性

遞歸性

結(jié)構(gòu)語義表示空間構(gòu)建

小結(jié)

最熱資訊

熱門標簽

劉知遠：自然語言理解難在哪兒？