绝色狂妃仙魅小说,完美世界前传下载,yy玄幻小说排行榜完本

NLP（自然語言處理）研究者必備的語言學知識和書籍

2021年04月25日

NLP（自然語言處理）研究者必備的語言學知識和書籍

前言

首先，做nlp不一定要很懂語言學，也不一定要跟語言學扯上關系。nlp可以僅是data mining，features engineering, 也的確有很多work目前在用文本或者對話做為數(shù)據(jù)集，然后用統(tǒng)計學方法實現(xiàn)目的，比如deep learning 。在某些任務上統(tǒng)計學模型功不可沒，比如machine translation, speech recognition, question answering, etc.

大多數(shù)人對nlp和語言學聯(lián)系的了解，在于認為rule-based的nlp就是基于語言學。的確rule-based是語言學里廣泛使用的，尤其是語法(syntax, syntactic structure)。現(xiàn)在machine learning的發(fā)展已經(jīng)可以將rules轉換為hidden states,人不用去操心提出大量rules來做exhaustive search。

但computational linguistics所包含的，遠遠大于rules。人類語言是漫長歷史進化的高級產(chǎn)物，遠不是成千上萬個rules能描述清楚的。能被nlp利用的語言學，除了枚舉rules外還有很多很多。

接下來的回答是給真正對computational linguistics和nlp本身感興趣的，對某些語言現(xiàn)象感興趣，并打算在這條路上開始鉆研的同學的一些建議。（想忽略細節(jié)的同學請直接拉到答案最后找reference）

人大腦工作不是靠probablistic language modeling，咱們誰的腦袋里都不會聽到一個詞然后跑一遍hidden markov，畢竟也進化了這么多年了不是。

與nlp相關，跟概率論并進的，除了傳統(tǒng)的語言學，還有l(wèi)ogic呢，Lofti Zadeh老爺爺研究了一輩子的fuzzy logic，也是在探究semantics&world knowledge (再次感謝老爺爺?shù)呢暙I，r.i.p)。

另外，語言學自身是個很大又很寬泛，又互相交叉的學科。有很多研究是跟literatures and arts有關，有的是跟cognitive science有關，還有neuroscience, mathematics, education, psychology, etc。我涉獵有限，在此只能回答跟computational linguistics有關("to the best of my knowledge")。

No.1

Definition（語言學對語言任務的定義）

在研究任何問題前，都必須要想清楚你的問題是什么，怎么定義。許許多多nlp research都是基于語言學上的定義，像我下文會提到的semantics, grammar?？墒侨绻麤]有從沿用語言學的定義到nlp，這個0到1的過程，最早做researchers的人該如何想明白他們的research question？

做對話系統(tǒng)的同學應該很熟悉dialogue acts. 現(xiàn)在的對話系統(tǒng)發(fā)展迅猛，很多新應用都基于reinforcement learning, 并且取得顯著成就。尤其是某些task-oriented dialogue generator, 早就不是十多年前的rule-based system了。但任何一個系統(tǒng)在設計之初都要采用dialouge acts定義（當然還有其他定義），來明確該系統(tǒng)的目的。不然該系統(tǒng)如何區(qū)分wh-question, yes-no question, greetings, 還有其他？（如果覺得見到“wh-”開頭，問號結尾，就是一個wh-question rule, 那我不知道該說什么好了）

明確自己的research task并且貫徹到底是好事，如果要做language modeling，基于machine learning/deep learning, 那真的不用費時間在語言學上。但覺得語言學是rule based已經(jīng)過時了被淘汰了，這個鍋語言學真的背的有點冤呀。

阿里機器翻譯能力示意圖

No.2

Grammar（語法學）

Grammar是我會首先推薦的方向。Grammar分為morphology&syntax. 在這里我主要指syntax.細節(jié)可以看Chomsky, Michael Colins, Jason Eisner等人的工作。現(xiàn)在大家用的最多的應該是stanford的syntactic parsing吧。這方面的工作已經(jīng)很成熟，要處理語言基本是拿來就能用了。但是語法樹到底是什么，怎么構建，syntatic parsing優(yōu)勢，如何處理ambiguity, 想要做computational linguistics的話，這些很有必要知道。最基本的例子是，當用parser來處理你的句子，你起碼要能看懂這個parser output是否make sense。

轉換生成語法理論創(chuàng)始人喬姆斯基

No.3

Semantics（語義學）

這個部分是我做最多的，感覺也是被誤解最多的。尤其推薦 “Meaning in language: An introduction to Semantics and Pragmatics.” 我并沒有看完。Semantics是個很復雜的研究，可以涉及到語法，句法，world knowledge, 但最終還是回歸semantics自身。目前nlp里很火的有distributional semantic representation (word embedding, phrase embedding, sentence embedding, etc), semantic parsing (logical form, etc), 等等等等。同一句話可以表達的意思太多了，同一個意思帶來的表達形式也太多了。一個簡單句子里包含的意思會涉及到當下對話雙方的情景，以前或者以后會發(fā)生的事，等等。舉個個人很喜歡的例子：

第一層意思是直觀semantics, 能夠被目前的semantic representation捕捉到。第二層是presupposition, 代表著在說話當下當事人雙方默認已經(jīng)發(fā)生的事情，是semantics研究中的難點；第三層包含了sentiment, 做情感分析的同學應該很了解，能否被目前的classifier捕捉到我不清楚。第四層是現(xiàn)在也很火的coreference resolution, 雖然原文里沒有明確指代每個人稱代詞，但聽眾和當事人很直接能把每個人物代入，甚至包括Trump省略的"I will release (my taxes)". 目前的co-reference resolution,e.g. stanford corenlp, 可以解決前三個代詞，但省略的部分似乎還做不到。

對Semantic要求最高也是最難的，在nlp中應該是在natural language understanding相關應用了。Semantics里包含了太多太多的現(xiàn)象，如果能稍微研究并且model其中一小部分，對downstream application來說都會是一個很大的boost。前段時間有個shared task，叫 "hedge detection",目的是找出文本信息中的hedges and cues。大部分人會關注這個shared task下哪個模型做的最好，個人認為難點是在定義。有“but”,"however"出現(xiàn)語意就一定轉折了么？如果被轉折，是所在句子，還是段落還是一個小phrase呢？有dependency存在么？另一個相似shared task是negation detection. 想要理解這些問題本身和其難點所在，computational linguistics的前期知識儲備是并不可少的。

No.4

Pragmatics（語用學）

這里很重要的理論，是computational pragmatics范疇里的：Grice's maxims, 和Rational Speech Act(RSA). 這兩個理論其實緊密相關。前者理論關于談話雙方為了有效溝通會有意識的遵守的一些principle, (同時可見“cooperative principle”), 后者關于為了達到這種有效溝通，對話當中存在的一種recursive process, 并且是bayesian inference. 如果你的工作跟 inference, reasoning相關，請一定要閱讀。做對話系統(tǒng)的應該已經(jīng)很熟悉了。

No.5

Fuzzy logic（模糊邏輯）

目前還是有researcher繼承Zadeh老爺爺?shù)囊吕?，并且用fuzzy logic做出了很多natural language generation, information extraction方面的成就的。個人經(jīng)驗而言，我博士第一年(2014)一直在關注deep learning/machine learning方面，當時覺得它們是萬能的。直到第二年夏天在忙一個project, 閱讀了Zadeh老爺爺?shù)拇罅抗ぷ?，才感覺自己一直在以很片面的眼光看research。當時真的做了滿滿一本筆記。

后記

最后，如果興趣在建modeling，deep learning architecture, 語言學方面的part-of-speech也好，parsing也好，都只是你的工具；

同樣，如果興趣在computational linguistics,語言現(xiàn)象，deep learning/machine learning都是你的工具。

取決與你的任務是什么，取決于你有沒有完全dedicated的信心。畢竟巴菲特和Geff Hinton是少數(shù)，大多數(shù)人都無法預測20年后火的適合什么。

感謝閱讀。希望能給在猶豫是否開始computational linguistics和nlp研究同學們一些幫助。

(任何不準確的地方還請大家指正)

最熱資訊

熱門標簽