劉云教授談中文信息處理
2021年03月22日
中文信息處理的研究方法
在自然語言處理的發(fā)展過程中,出現(xiàn)過很多不同的研究方法,這些研究方法在中文信息處理的各類任務中同樣被廣泛地運用著。語言信息處理的研究方法大體可以分為基于規(guī)則的方法和基于統(tǒng)計的方法兩大類。這兩類方法,從本質(zhì)上看,是眾多科學研究中普遍存在的理性主義方法和經(jīng)驗主義方法在自然語言處理中,理性主義方法或者說基于規(guī)則的方法,通常以語言學理 論(特別是形式語法理論)為基礎,建立基于規(guī)則和知識庫的邏輯推理系統(tǒng),此 時是將自然語言理解為符號結(jié)構(gòu)的(宗成慶,2013)。具體說來,基于規(guī)則的方法 是通過語言必須遵守的一系列原則來描述語言,以此來判斷一個語言現(xiàn)象是遵循 語言原則的還是違反語言原則的?;谝?guī)則的方法通?;趩棠匪够ˋvram Noam Chomsky)的語言理論,首先需要在對各種語言現(xiàn)象進行研究的基礎上,歸 納出一系列語言規(guī)則,然后再形成一套復雜的規(guī)則集,用以對自然語言進行分析 處理(鄭捷,2017)。而經(jīng)驗主義方法或者說基于統(tǒng)計的方法則以數(shù)理統(tǒng)計和信息論為基礎,注重從大規(guī)模真實文本中發(fā)現(xiàn)自然語言規(guī)律,實現(xiàn)基于大規(guī)模語料庫的統(tǒng)計機器學習方法。基于統(tǒng)計的方法來源于多種數(shù)學基礎,比如信息論、最優(yōu)化方法、概率圖模型、神經(jīng)網(wǎng)絡等。它從概率的角度來審視語言現(xiàn)象,以此判斷某種語言現(xiàn)象是否常見?;诮y(tǒng)計的方法偏重于對語料庫中人們實際使用的普遍語言現(xiàn)象進行統(tǒng)計,以此得到語言現(xiàn)象的統(tǒng)計規(guī)律。縱觀語言信息處理的發(fā)展歷程,在很長一段時間內(nèi),許多語言處理系統(tǒng)都是基于規(guī)則的,也正因為這一點,語言學的研究都是必不可少的基礎?;谝?guī)則的方法從 20 世紀 60 年代到 80 年代中期,幾乎主宰了自然語言處理的研究。隨著計算機技術的成熟與進步、信息處理研究的深入,以及應用目標的發(fā)展,人們逐漸轉(zhuǎn)向基于統(tǒng)計的方法。統(tǒng)計方法很快便在語音識別、自動分詞、詞性標注等方面都取得了不俗的成績。機器學習方法也由此迅速占領了主流舞臺,人們紛紛開始基于大規(guī)模人工標注的語料樣本建立數(shù)學模型,通過調(diào)試模型的參數(shù)使其達到最優(yōu),并最終應用于相應的任務中(宗成慶,2016)。隨著大數(shù)據(jù)時代的到來,基于統(tǒng)計的方法更是在自然語言處理領域獨領風騷,將基于規(guī)則的方法遠遠地拋在了后面。不過,雖然當前基于統(tǒng)計的方法在整個自然語言處理領域中占據(jù)著優(yōu)勢地位,但是我們也并不能完全舍棄基于規(guī)則的方法。兩種方法往往具有各自適用的領域,它們在整個自然語言處理發(fā)展過程中也都發(fā)揮了并將繼續(xù)發(fā)揮重要作用,從這一點看,它們并沒有嚴格的優(yōu)劣之分;而且不論是哪一種方法,首先都要求人自身對自然語言有深入的了解。比如當前不少對自然語言深層知識的統(tǒng)計,一般是建立在經(jīng)過標注的熟語料庫的基礎之上的,而從生語料庫到熟語料庫,其加工與標注仍然依賴于人對于自然語言的知識,也就是規(guī)則(詹衛(wèi)東,2000a)。這兩類方法也并非完全對立,基于規(guī)則的方法和基于統(tǒng)計的方法也經(jīng)?;ハ嘟Y(jié)合,彼此取長補短,共同改進語言信息處理技術,提升語言信息處理系統(tǒng)的性能。中文信息處理作為典型的綜合性、交叉性學科,涉及不同學科的知識,從事中文信息處理研究的學者也擁有不同的學科背景。來自不同領域的學者在對中文信息處理問題展開研究時,也就形成了不同的研究取向。一般來說,自然語言處理有以下五種研究取向,作為自然語言處理分支學科的中文信息處理,同樣適用這五種研究取向。(1)工程主義取向。這一取向主要著眼于計算機應用系統(tǒng)的建立,即意圖建立一種可運轉(zhuǎn)的計算機系統(tǒng)。持這種觀點的學者會把計算語言學的研究重點放在這種能理解和生成自然語言的計算機系統(tǒng)的結(jié)構(gòu)及各種相應算法的設計上。具體說來,這種類型的自然語言處理研究一般包括三個步驟:第一,數(shù)學建模;第二,算法設計;第三,程序?qū)崿F(xiàn)。這種工程主義取向的計算語言學研究是有很強的應用動機的。因為語言是人類交際和記錄信息的工具,如果使計算機獲得生成和理解自然語言的能力,那么計算機就能執(zhí)行只有人類才能完成的工作,諸如翻譯、文本處理、信息抽取和檢索等。所以,能處理自然語言的計算機系統(tǒng)將使計算機更為有用。通過計算語言學的研究,人們可以開發(fā)更多的計算機應用領域。(2)工具主義取向。這種取向主要著眼于利用計算機做語言分析,也就是用計算機來進行語言的計量研究。在這種取向下,利用計算機進行的計量語言學研究往往也容易被包括進來。值得一提的是,在工具主義取向下,隨著用計算機來采集、整理、加工和管理語言材料工作的深入開展,語料庫語言學這門計算語言學的分支學科逐步形成。語料庫語言學一般研究機器可讀的自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標注、句法及語義分析,以及具有上述功能的語料庫在語言定量分析、作品風格和作者考證研究、詞典編纂、自然語言理解和機器翻譯等領域中的運用。所以從方法論上看,語料庫語言學跟工程主義的自然語言處理有很大的不同。語料庫語言學假定,如果我們能對數(shù)量很大的語言數(shù)據(jù)做出定量化的統(tǒng)計分析,那么我們就能對語言成分的分布和語言成分之間的關系等進行概率性的預測,從而彌補計算機缺乏知識和推理能力的缺點。于是,以語料庫為基礎的統(tǒng)計模型不僅可以用來解決自然語言的語法標注問題,而且還可以運用到句法、語義等更高層次的分析上來,從而進一步促進應用系統(tǒng)性能的提升。(3)認知主義取向。這種取向主要著眼于人類使用語言時的心理過程,認為可以把計算機作為人類思維的模型,也可以用計算機來模擬人類的認知過程。持這種研究取向的學者喜歡用認知心理學的眼光來看待語言使用。在他們看來,讓計算機理解語言的關鍵是,要能對一般的自然語言的句子做出語義解釋,即設計一種一般的內(nèi)部表示。內(nèi)部表示是自然語言處理的關鍵,它影響著系統(tǒng)對語言知識和世界知識的描述和利用,因此也影響著整個處理系統(tǒng)。不同的學者由于對人類處理語言的心理過程的認識不同,因此也會采用不同的理論和方法來建造自然語言處理系統(tǒng)。(4)實證主義取向。這種取向主要著眼于檢驗語法理論的可靠性,與抱有實用目的的工程主義取向明顯不同,在這一取向下,大多數(shù)研究并不跟某種特定的應用目標相掛鉤,而是另有某種科學研究的目標,例如,用計算機來對語言學家提出的各種語言學理論進行檢驗,或者把自然語言處理看作理論語言學和計算機技術的橋梁,通過相關工作來溝通語言學理論和計算機技術,來形成語言學技術,從而完成語言學理論在計算機上的應用。在這一過程中,計算機技術和語言學理論無疑是相互影響、相互促進的。這使得計算語言學和理論語言學能夠緊密合作,并且產(chǎn)生更為豐碩的成果。(5)邏輯主義取向。這種取向一般著眼于語言學知識的自動發(fā)現(xiàn)。一般來說,要建造一個處理自然語言的計算機系統(tǒng),必須有大量的語言學知識作為基礎,但語言學知識的發(fā)現(xiàn)工作往往是以手工方式進行的。而在邏輯主義取向下,學者關注的是利用計算機來自動(或輔助)發(fā)現(xiàn)語言學知識。利用計算機自動發(fā)現(xiàn)語言學知識,可以極大地提高研究的效率,擴大研究的規(guī)模,把語言學家從找例句、制卡片、畫表格等煩瑣的事務中解放出來。這一過程體現(xiàn)著明顯的邏輯主義追求,即通過研究語言學知識的發(fā)現(xiàn)來探索歸納法的邏輯機制和計算結(jié)構(gòu)(袁毓林,2001)。總的來說,不論以上哪種取向,都屬于自然語言處理的范圍,只是側(cè)重點會有所不同。