原文作者:劉知遠(yuǎn)教授
原文鏈接:https://zhuanlan.zhihu.com/p/96801863
在微博和知乎上關(guān)注自然語言處理(NLP)技術(shù)的朋友,應(yīng)該都對(duì)#NLP太難了#、#自然語言理解太難了#兩個(gè)話題標(biāo)簽不陌生,其下匯集了各種不僅難煞計(jì)算機(jī)、甚至讓人也發(fā)懵的費(fèi)解句子或歧義引起的笑話。然而,這些例子只是讓人直覺計(jì)算機(jī)理解人類語言太難了,NLP到底難在哪里,還缺少通俗易懂的介紹。最近剛做完會(huì)議投稿,這里花些時(shí)間總結(jié)下我對(duì)這個(gè)問題的認(rèn)識(shí),期望對(duì)那些感興趣NLP的同學(xué)有些幫助。歡迎批評(píng)意見和建議,未來爭取不斷更新。
自然語言理解本質(zhì)是結(jié)構(gòu)預(yù)測(cè)
要搞清楚自然語言理解難在哪兒,先看自然語言理解任務(wù)的本質(zhì)是什么。作為人工智能關(guān)注的三大信息類型(語音、視覺、語言)之一,自然語言文本是典型的無結(jié)構(gòu)數(shù)據(jù),由語言符號(hào)(如漢字)序列構(gòu)成。要實(shí)現(xiàn)對(duì)自然語言的表意的理解,需要建立對(duì)該無結(jié)構(gòu)文本背后的語義結(jié)構(gòu)的預(yù)測(cè)。因此,自然語言理解的眾多任務(wù),包括并不限于中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、共指消解、句法分析、語義角色標(biāo)注等,都是在對(duì)文本序列背后特定語義結(jié)構(gòu)進(jìn)行預(yù)測(cè)。例如,中文分詞就是在原本沒有空格分隔的句子中增加空格或其他標(biāo)識(shí),將句子中每個(gè)詞的邊界標(biāo)記出來,相當(dāng)于添加了某些結(jié)構(gòu)化語義信息到這個(gè)文本序列上。
面向不同NLP任務(wù),人們制定不同的待預(yù)測(cè)的語義結(jié)構(gòu)空間:文本分類是最簡單的情形,即預(yù)定義的類別體系,最常見的如情感分類是postive、neutral、negative三類;中文分詞是詞邊界的標(biāo)記;詞性標(biāo)注是句子中每個(gè)詞的詞性標(biāo)簽(如名詞、動(dòng)詞、形容詞、副詞、連詞、介詞等);命名實(shí)體識(shí)別是標(biāo)記哪些詞(或多詞)是實(shí)體名及其實(shí)體類型(如人名、地名、機(jī)構(gòu)名等);共指消解是標(biāo)記哪些詞在做指代以及指代的是前面出現(xiàn)的哪個(gè)概念或?qū)嶓w;句法分析則是將句子背后的句法樹結(jié)構(gòu)或依存結(jié)構(gòu)預(yù)測(cè)出來。
不過,以上NLP任務(wù)都只是在不斷“逼近”對(duì)文本的理解,是對(duì)文本語義的局部表示。要實(shí)現(xiàn)對(duì)文本的完整理解,需要建立更完備的語義結(jié)構(gòu)表示空間,這種更完備的語義表示經(jīng)常成為上述NLP任務(wù)進(jìn)行結(jié)構(gòu)預(yù)測(cè)的依據(jù)。
在統(tǒng)計(jì)學(xué)習(xí)時(shí)代,一般采用符號(hào)表示(Symbol-based Representation)方案,即每個(gè)詞都看做互相獨(dú)立的符號(hào)。例如,詞袋模型(Bag-of-Words,BOW)是最常用的文本表示方案,忽略文本中詞的出現(xiàn)順序信息,廣泛用于文本分類、信息檢索等任務(wù)。N-Gram也是基于符號(hào)表示的語言模型,與BOW模型相比,將句子中詞的出現(xiàn)順序考慮了進(jìn)來,曾在機(jī)器翻譯、文本生成、信息檢索等任務(wù)中廣泛使用。
到深度學(xué)習(xí)時(shí)代,一般采用分布式表示(Distributed Representation或Embeddings)方案,每個(gè)語言單元(包括但不限于字、詞、短語、句子、文檔)都用一個(gè)低維稠密向量來表示它們的語義信息。分布式表示是深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的關(guān)鍵技術(shù)。分布式表示方案是受到了人腦神經(jīng)機(jī)制的啟發(fā),基本思想是[2]:
Each entity is represented by a pattern of activity distributed over many computing elements , and each computing element is involved in representing many different entities.
很大程度上,這種表示方案與索緒爾對(duì)語言符號(hào)的任意性和結(jié)構(gòu)主義的觀點(diǎn)不謀而合。從計(jì)算角度來看,NLP很多應(yīng)用任務(wù)就是在判定兩個(gè)語言單元間的語義相似度,如信息檢索是在短語(查詢?cè)~)和文檔之間,文檔摘要是在句子和文檔之間,分布式表示也為在不同語言單元之間計(jì)算語義相似度提供了統(tǒng)一的語義表示基礎(chǔ)。
由于忽略了對(duì)詞語內(nèi)部語義或詞序信息的考量,基于符號(hào)表示的詞袋模型或N-Gram失之粗略,也受到數(shù)據(jù)稀疏問題的影響;基于分布式表示的深度學(xué)習(xí)雖然極大提升NLP性能,卻更多只能作為NLP內(nèi)部表示,可解釋性不夠。實(shí)際上,也有很多學(xué)者提出Semantic Parsing任務(wù),探索各類對(duì)文本語義更完整的表示和建模方案,仍未得到令人滿意的結(jié)果。
總之,自然語言理解任務(wù)的本質(zhì)是結(jié)構(gòu)預(yù)測(cè),關(guān)鍵則是對(duì)語言單元的語義表示能力。那么,自然語言理解為什么難呢,這需要我們先看一下,自然語言都有哪些特點(diǎn)。
自然語言是人類在認(rèn)識(shí)世界和改造世界的過程中產(chǎn)生的,歸根到底是自然界的產(chǎn)物,因此被稱為自然語言。自然語言本身受到人腦語言能力的支配,伴隨著人類社會(huì)而演化,作為人類使用的最龐雜的符號(hào)系統(tǒng),有很多特點(diǎn)。
作為人類信息交流的工具,自然語言需要具有強(qiáng)大的創(chuàng)新活力,隨時(shí)引入對(duì)最新概念、表述和意義的表達(dá)能力。這方面最常見的就是新詞以及舊詞新意的出現(xiàn)。例如,有個(gè)笑話就是母女二人對(duì)“潮”和“曬”產(chǎn)生的不同理解,女兒本意是讓母親幫忙在太陽下曬發(fā)潮的被子;而母親卻理解為在朋友圈“曬”女兒的被子讓大家看是不是很“潮”??梢?,這位母親大人本人還是很“潮”的,熟練掌握了兩個(gè)詞的的最新意思。
人類語言的創(chuàng)新活力伴隨著互聯(lián)網(wǎng)發(fā)展和在線交流的日益密切而更加明顯。北京大學(xué)邵燕君等學(xué)者主編的《破壁書》應(yīng)該是近年這方面的集大成之作,有興趣的讀者可以讀下。我理解,這個(gè)書名“破壁書”,也算化用《三體》“破壁人”的一個(gè)新詞。
新詞和舊詞新意等都擴(kuò)展了人類語言的表意空間,也擴(kuò)展了自然語言理解進(jìn)行結(jié)構(gòu)預(yù)測(cè)的語義空間。而這種擴(kuò)展,帶有較強(qiáng)的隨意性,缺少嚴(yán)格的描述信息或足夠的數(shù)據(jù)支持,從而為自然語言理解帶來挑戰(zhàn)。
以語言學(xué)巨擘喬姆斯基為代表的學(xué)者認(rèn)為,遞歸性(recursion)是人類語言的最重要的特性[4],這也是喬姆斯基提出轉(zhuǎn)換生成文法的內(nèi)在動(dòng)機(jī)。雖然,遞歸性是否為人腦先天具備的語言能力有很多爭論,至少從漢語英語兩大語言來看,語言表現(xiàn)出的遞歸性特點(diǎn)不言而喻。
例如最近中美之間出現(xiàn)的這則有意思的表述,就集中反映了語言遞歸性:S1=”美國干涉中國內(nèi)政“是一個(gè)擁有完整主謂賓結(jié)構(gòu)的句子,被作為另外一個(gè)句子S2=”中國 抗議 x的法案“中”法案“的定語x;而S2又被作為了S3=”美國 抗議 y 是在干涉內(nèi)政“中”抗議“的賓語y。
正是這種遞歸性,為語言帶來精準(zhǔn)而強(qiáng)大的表述信息和思想的能力,隨便翻翻那些著名的哲學(xué)著作,充滿著帶有復(fù)雜遞歸結(jié)構(gòu)的長句。不過,這種精確表達(dá)能力是以理解更加費(fèi)力為代價(jià)的,而且遞歸性也為一句話帶來更多的語義理解的可能性,例如”咬死獵人的狗“,到底是咬死了獵人,還是咬死了狗,至少有兩種可能的理解。
也可以看到,一旦句子包含了多層嵌套,對(duì)人而言理解起來就變得十分困難,很少有人會(huì)用這么復(fù)雜的結(jié)構(gòu)說話。例如,政府部門層層轉(zhuǎn)發(fā)通知導(dǎo)致的”通知的通知的通知“的標(biāo)題,讀起來就非常費(fèi)力。所以,在自然語言理解實(shí)踐中,單純由于遞歸性造成的困難并不是那么大。
多義性
自然語言是一個(gè)信息傳遞系統(tǒng),需要兼顧信號(hào)發(fā)出者(說話人、作者)和信號(hào)接收者(聽話人、讀者)的效率。如果人類大腦中每個(gè)事物都要對(duì)應(yīng)一個(gè)獨(dú)一無二的字詞符號(hào),無疑會(huì)大幅提高人們的學(xué)習(xí)、記憶和使用語言的成本。因此,語言中存在大量同音字和一詞多義的現(xiàn)象,即一個(gè)字或詞往往兼顧多個(gè)詞義,當(dāng)然,也對(duì)應(yīng)地需要人們根據(jù)話語或文本的語境進(jìn)行消歧處理,才能正確理解其語義。這種多義性,也成為各類語言幽默的主要來源。
自然語言有不同粒度的語言單元,如字、詞、短語、句子、語篇,乃至文檔互聯(lián)形成的萬維網(wǎng)。多義性普遍存在于各粒度的語言單元上。例如,上面例子中的”潮“和”曬“兩字就有兩種意思,”小號(hào)“則是典型的一詞多義,短語層面如”metal fan“也至少有兩個(gè)意思。
句子層面的多義性也不少見,如”能穿多少穿多少“,在夏天和冬天各有截然相反的意思。類似形式的語言笑話還不少:
單身的原因有兩個(gè),一是誰都看不上,二是誰都看不上。
女孩給男朋友打電話:如果你到了,我還沒到,你就等著吧;如果我到了,你還沒到,你就等著吧。
單身的原因:原來是喜歡一個(gè)人,現(xiàn)在是喜歡一個(gè)人。
自然語言作為人們?nèi)粘=涣鞯闹饕绞?,相信每個(gè)人都有在交流中出現(xiàn)誤會(huì)鬧出笑話甚至沖突的經(jīng)歷,很多時(shí)候就是由于歧義造成雙方理解產(chǎn)生誤差導(dǎo)致的。
主觀性
即使語言的多義性得到了正確消歧,語言的字面意思得到了準(zhǔn)確理解,同樣的話語或文本,仍然會(huì)導(dǎo)致人們產(chǎn)生不同的理解,引發(fā)不同的思緒。這是因?yàn)?,每個(gè)人都是在認(rèn)識(shí)世界和與外界交互的具體過程中習(xí)得語言的,所以人們對(duì)語言的理解不可避免受到個(gè)人經(jīng)歷和認(rèn)知水平的影響,帶有強(qiáng)烈的主觀性。
這種主觀性反映在很多方面,以作者與讀者間的理解差異為例,常說”一千個(gè)讀者就有一千個(gè)哈姆雷特“,莎士比亞在寫這個(gè)劇本時(shí),他心目中恐怕有一個(gè)確切的哈姆雷特形象以及他希望表達(dá)的思想;但讀者在閱讀時(shí),則不可避免會(huì)受到自身經(jīng)歷和認(rèn)知的影響,而產(chǎn)生不同的理解。這有如一個(gè)正態(tài)分布,也許作者要傳遞的信息就在均值附近,而讀者的理解則會(huì)各有偏差。這也是為什么,同樣一部世界名著,有的人就會(huì)引起共鳴,有的人覺得索然無味。
中文世界也常說,言有盡而意無窮,特別是在詩歌中,往往寥寥數(shù)字,作者也許本意有限,而不同讀者會(huì)產(chǎn)生不同層次的解讀。這也是為什么。再如下面融合多種元素的詩歌:無人機(jī)系荔枝來,字面意思正如圖所畫,而讀者如果了解杜牧原詩以及廣東人容易將ZHI、SHI發(fā)音為JI、XI的特點(diǎn),則更能會(huì)心一笑。
在人們?nèi)粘?duì)話交流中,這種主觀性比比皆是。例如,同樣是說”今天好冷啊”,字面意思沒有任何難解之處,但如果是女朋友剛進(jìn)屋說的,那就得趕緊打開空調(diào);如果是宿舍同學(xué)說的,恐怕就要嘲笑他為啥穿這么少了。所以,戀愛關(guān)系、外交辭令、商務(wù)談判都是需要清醒洞悉對(duì)方“言外之意”的危險(xiǎn)地區(qū)呀。
心理語言學(xué)等領(lǐng)域的很多研究表明,人的心理狀態(tài)(如性格等)會(huì)反映在語言表達(dá)的蛛絲馬跡中。對(duì)此有興趣可以閱讀美國學(xué)者James Pennebaker的相關(guān)成果,他甚至構(gòu)建了一個(gè)詞典Linguistic Inquiry and Word Count(LIWC)嘗試建立人們使用詞語與心理狀態(tài)的對(duì)應(yīng)關(guān)系 [5]。
社會(huì)性
人類是社會(huì)動(dòng)物,社會(huì)性既是人類的特性,也深刻反映在人類語言中。語言并非固定不變,而是經(jīng)歷了漫長演化。人類的集體生產(chǎn)和生活,對(duì)信息交流和記錄產(chǎn)生的需求,不斷改造著人類語言。全世界的人類早期聚居于不同大洲和地區(qū),互相隔絕,各自的社會(huì)形態(tài)和生活特點(diǎn),深刻地影響了不同語言的產(chǎn)生和演化,產(chǎn)生了現(xiàn)在形態(tài)各異的人類語言,例如英語等是典型的拼音語言,而漢語則是音義兼顧語言的代表?,F(xiàn)代語言學(xué)也是從研究總結(jié)不同語言體系的特點(diǎn)而發(fā)展起來的。作為語言學(xué)的分支,演化語言學(xué)就在研究人類語言在發(fā)音、字形、詞法、句法等多個(gè)方面的演化過程,而社會(huì)語言學(xué)則重在研究社會(huì)形態(tài)與人類語言之間的互相影響的規(guī)律。
語言系統(tǒng)受到社會(huì)發(fā)展的塑造。隨著互聯(lián)網(wǎng)和移動(dòng)設(shè)備的廣泛應(yīng)用,人類之間的交流和聯(lián)系,比以往任何一個(gè)時(shí)代都更加緊密,這也反映在人類語言的高速演化,新詞和舊詞新意層出不窮。不同學(xué)科的高速發(fā)展,也為語言注入大量專業(yè)術(shù)語。使用不同語言的人們緊密聯(lián)系,也為語言引入大量音譯等形式的外來詞。
語言使用也深刻反映社會(huì)形態(tài)。人們?cè)诓煌纳缃粓龊蠒?huì)切換不同的語言風(fēng)格,如在做公開報(bào)告時(shí)和在朋友聚會(huì)時(shí),語言風(fēng)格明顯不同,莊諧相異。在社交場合,人們也會(huì)將有些讓人恐懼厭惡或者不雅晦氣的概念作為禁忌或避諱詞語,進(jìn)而使用委婉曲折的說法,例如大便改叫出恭或解手,死亡改叫作古歸西或見馬克思等,中外皆同。
社會(huì)語言學(xué)還有一個(gè)有趣的話題,是探究語言使用與社會(huì)地位之間的關(guān)系,曾提出語言協(xié)調(diào)理論(Language coordination),即不同社會(huì)地位的人在相互交流時(shí),地位低的人會(huì)從語言風(fēng)格上適應(yīng)地位高的人,而地位高的人則不會(huì)主動(dòng)調(diào)整自己的語言風(fēng)格適應(yīng)別人,這個(gè)理論在2012年得到了定量驗(yàn)證 [6]。
最近的定量研究也表明,大規(guī)模文本中含有人類社會(huì)存在的刻板印象、政治偏見等問題,側(cè)面反映了人類社會(huì)對(duì)語言的影響 [7]。美國著名認(rèn)知語言學(xué)家萊考夫甚至認(rèn)為,不同黨派的政治家甚至?xí)ㄟ^語言使用來影響政治議題的設(shè)置 [8]。
自然語言理解難在哪
正是由于其創(chuàng)造性、遞歸性、多義性、主觀性和社會(huì)性等特點(diǎn),既讓人類語言具備強(qiáng)大的表達(dá)力和生命力,同時(shí)呈現(xiàn)出非常復(fù)雜而難以捉摸的圖景。單從讓計(jì)算機(jī)理解人類語言的角度來考慮,問題難點(diǎn)也許可以歸結(jié)為如下幾個(gè)方面。
很多學(xué)者通過世界、心智和語言的三角形來表述語言的地位,這在索緒爾提出的能指和所指的概念中已初見端倪,哲學(xué)中的認(rèn)識(shí)論和語言哲學(xué)也是探討這三者的關(guān)系。自然語言理解還沒有能力考慮哲學(xué)關(guān)心的這些問題,不過也能看出,語言作為人類認(rèn)識(shí)世界的產(chǎn)物和工具,必然不是對(duì)客觀世界的簡單映射,而帶有人類主觀認(rèn)識(shí)的色彩,也受到人腦機(jī)能的影響和約束。
讓計(jì)算機(jī)理解人類語言,需要建構(gòu)結(jié)構(gòu)化的語義表示空間,只有這個(gè)空間的語義表示能力能夠與人類心智相媲美,才有可能將人類通過語言要表達(dá)的意義進(jìn)行完美表示和解讀。同時(shí),這個(gè)語義表示空間還要接受客觀世界的校正,消除人類認(rèn)知中存在的偏見和缺陷,讓人工智能更好地服務(wù)人類社會(huì)。
現(xiàn)在的語義表示方案中,符號(hào)表示過于粗略,無法考慮語言符號(hào)背后反映的豐富語義信息;而分布式表示雖然具有更強(qiáng)大的表示能力和自由度,但目前只能通過特定任務(wù)下的數(shù)據(jù)學(xué)習(xí),只能建立滿足特定需求的語義表示,一方面缺少可解釋性,魯棒性差,另一方面通用性和遷移性不足。這些與人腦展現(xiàn)的語義表示能力相比,還有千里之遙。
未來,需要探索更強(qiáng)大的結(jié)構(gòu)化語義表示空間。例如,是否可以將分布式表示與符號(hào)表示相結(jié)合,既保留分布式表示的泛化能力,又兼顧模塊化和層次化符號(hào)表示帶來的抽象能力。也許這是下一輪自然語言理解取得革命進(jìn)展的突破口之一。
我們課題組正在致力于構(gòu)建和利用各類型知識(shí)圖譜的研究,也算是在這個(gè)方向上的努力。通過構(gòu)建常識(shí)知識(shí)、語言知識(shí)、世界知識(shí)、認(rèn)知知識(shí)、領(lǐng)域知識(shí)等各類型知識(shí)圖譜,希望建立起更強(qiáng)大的結(jié)構(gòu)化語義表示空間。
多模態(tài)復(fù)雜語境的理解
人類并非孤立地使用語言,語言使用需要考慮其復(fù)雜的語境。以語言的多義性為例,存在多義的語言單元,總需要其外部的復(fù)雜語境信息進(jìn)行消歧:字的多義性至少需要所組成的詞來消歧;詞的歧義性至少需要所在的句子來消歧;句子的意思至少要放在語篇或?qū)υ捳Z境中,甚至需要復(fù)雜的世界知識(shí)來幫助理解。
這種語境往往是開放的,也是多模態(tài)的,如上下文句子的文本信號(hào)、對(duì)話者的語氣等語音信號(hào)、所處環(huán)境的視覺信號(hào)、甚至其他無法名狀的各類信息。實(shí)際上,很多歧義產(chǎn)生的笑話,在實(shí)際語境下并不會(huì)讓人產(chǎn)生錯(cuò)誤理解。例如下圖”三餐二樓歡迎新老師生前來就餐“,雖然從句意上有”歡迎 新老師 生前 來 就餐“這種理解的可能性,但在這個(gè)場景下其實(shí)不可能是這個(gè)意思。
再如”無線電法國別研究“,雖然從句意上有”無線電 法國 別研究“這種理解的可能性,但作為一本專著的書名,只可能是”無線電法 國別 研究“這種理解。
只是對(duì)于計(jì)算機(jī)而言,如何有效理解語言所處的開放復(fù)雜語境,從而實(shí)現(xiàn)對(duì)語言語義的準(zhǔn)確理解,仍是挑戰(zhàn)性難題。這既與尚未建立有效的結(jié)構(gòu)語義表示空間有關(guān),也與計(jì)算機(jī)還不能像人那樣進(jìn)行跨模態(tài)的高效學(xué)習(xí)和理解有關(guān)。如何有效識(shí)別語言理解所需的語境信息,并建立跨模態(tài)多通道的建模,依然任重道遠(yuǎn)。
這里總結(jié)了我對(duì)自然語言理解到底難在哪兒的看法。自然語言理解作為人工智能的核心問題,正引起越來越多研究者的興趣,在各類任務(wù)上努力探索,自然語言處理最重要的國際學(xué)術(shù)年會(huì)ACL 2020共有3000多篇投稿,受關(guān)注程度可見一斑。
自然語言理解大致有不同的層次,我總結(jié)研究路徑可以大致為:字斟句酌,實(shí)現(xiàn)句級(jí)消歧和精準(zhǔn)理解;瞻前顧后,初步實(shí)現(xiàn)文本內(nèi)的復(fù)雜語境建模,建立篇章或?qū)υ捓斫猓?span fr-original-style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; font-weight: 600;" style="box-sizing: border-box; margin: 0px; padding: 0px; max-width: 100%; font-weight: 600; overflow-wrap: break-word !important;">博學(xué)多識(shí),引入更多外部知識(shí),實(shí)現(xiàn)跨模態(tài)更復(fù)雜語境的理解;善解人意,考慮語言的社會(huì)性和主觀性因素,實(shí)現(xiàn)更有”人性“的自然語言理解;冥思苦想,將語言作為思想工具,實(shí)現(xiàn)從語言理解到語言使用的跨越,實(shí)現(xiàn)創(chuàng)作和規(guī)劃的能力。
語言是人類文明的象征,是人類智能的集中體現(xiàn),因此得到非常多學(xué)科從不同角度的思考和關(guān)注,如語言學(xué)中對(duì)句法、語義等問題建立的理論,心理語言學(xué)對(duì)人類語言習(xí)得的探討,語言哲學(xué)對(duì)語言與世界關(guān)系的探討,認(rèn)知語言學(xué)對(duì)隱喻和范疇等問題的探討,神經(jīng)語言學(xué)對(duì)人腦的語言功能的研究,漢語言學(xué)界對(duì)于漢語流水句、”王冕七歲上死了父親“等語言現(xiàn)象的研究,等等。這些,都對(duì)人類語言不同側(cè)面的特點(diǎn)進(jìn)行了卓有成效的考察。
自然語言理解的目標(biāo)是讓計(jì)算機(jī)掌握人類語言能力,需要充分了解和融合這些對(duì)人類語言的已有探索成果,以逼近人類語言的本質(zhì),才能更好地設(shè)計(jì)結(jié)構(gòu)化語義表示空間,實(shí)現(xiàn)多模態(tài)復(fù)雜語境的理解,像人那樣智能地理解和使用語言。希望有朝一日,計(jì)算機(jī)也能讀懂#NLP太難了#、#自然語言理解太難了#兩個(gè)話題標(biāo)簽下的那些話。
參考文獻(xiàn)
[1] Julia Hirschberg and Christopher D. Manning. Advances in Natural Language Processing. Science, 2015.
[2] Hinton, Geoffrey E., James L. McClelland, and David E. Rumelhart. Distributed Representations. Pittsburgh, PA: Carnegie-Mellon University, 1984.
[3] 索緒爾[瑞士]. 普通語言學(xué)教程. 北京: 商務(wù)印書館, 1980.
[4] Marc D. Hauser, Noam Chomsky, and W. Tecumseh Fitch. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?. Science, 2002: 1569-1579.
[5] James W. Pennebaker. The Secret Life of Pronouns: What Our Words Say About Us. NY: Bloomsbury, 2011.
[6] Cristian Danescu-Niculescu-Mizil, Lillian Lee, Bo Pang, Jon Kleinberg. Echoes of power: Language effects and power differences in social interaction. WWW, 2012.
[7] Aylin Caliskan, Joanna J. Bryson, and Arvind Narayanan. Semantics Derived Automatically from Language Corpora Contain Human-like Biases. Science, 2017.
[8] 喬治.萊考夫[美]. 別想那只大象. 浙江人民出版社, 2013.
咨詢熱線
18611170056官方微信
返回頂部