久久国产乱子伦精品免费观看_亚洲欧美日韩综合在线丁香_欧 美 成 人 网站在线观看_最新欧美电影免费在线_国产精品操干在线观看_最近中文字幕在线视频1_69天堂人成无码_国产影视一区二区三区_中文亚洲精油按摩色偷偷av_99自拍偷拍视频

您當(dāng)前的位置:首頁 > 新聞中心 > 行業(yè)新聞
劉云教授談中文信息處理 2021年03月22日

劉云教授談中文信息處理

中文信息處理的研究方法

在自然語言處理的發(fā)展過程中,出現(xiàn)過很多不同的研究方法,這些研究方法在中文信息處理的各類任務(wù)中同樣被廣泛地運(yùn)用著。語言信息處理的研究方法大體可以分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法兩大類。
這兩類方法,從本質(zhì)上看,是眾多科學(xué)研究中普遍存在的理性主義方法和經(jīng)驗(yàn)主義方法在自然語言處理中,理性主義方法或者說基于規(guī)則的方法,通常以語言學(xué)理 論(特別是形式語法理論)為基礎(chǔ),建立基于規(guī)則和知識(shí)庫的邏輯推理系統(tǒng),此 時(shí)是將自然語言理解為符號結(jié)構(gòu)的(宗成慶,2013)。具體說來,基于規(guī)則的方法 是通過語言必須遵守的一系列原則來描述語言,以此來判斷一個(gè)語言現(xiàn)象是遵循 語言原則的還是違反語言原則的?;谝?guī)則的方法通?;趩棠匪够ˋvram Noam Chomsky)的語言理論,首先需要在對各種語言現(xiàn)象進(jìn)行研究的基礎(chǔ)上,歸 納出一系列語言規(guī)則,然后再形成一套復(fù)雜的規(guī)則集,用以對自然語言進(jìn)行分析 處理(鄭捷,2017)。
而經(jīng)驗(yàn)主義方法或者說基于統(tǒng)計(jì)的方法則以數(shù)理統(tǒng)計(jì)和信息論為基礎(chǔ),注重從大規(guī)模真實(shí)文本中發(fā)現(xiàn)自然語言規(guī)律,實(shí)現(xiàn)基于大規(guī)模語料庫的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法?;诮y(tǒng)計(jì)的方法來源于多種數(shù)學(xué)基礎(chǔ),比如信息論、最優(yōu)化方法、概率圖模型、神經(jīng)網(wǎng)絡(luò)等。它從概率的角度來審視語言現(xiàn)象,以此判斷某種語言現(xiàn)象是否常見?;诮y(tǒng)計(jì)的方法偏重于對語料庫中人們實(shí)際使用的普遍語言現(xiàn)象進(jìn)行統(tǒng)計(jì),以此得到語言現(xiàn)象的統(tǒng)計(jì)規(guī)律。
縱觀語言信息處理的發(fā)展歷程,在很長一段時(shí)間內(nèi),許多語言處理系統(tǒng)都是基于規(guī)則的,也正因?yàn)檫@一點(diǎn),語言學(xué)的研究都是必不可少的基礎(chǔ)?;谝?guī)則的方法從 20 世紀(jì) 60 年代到 80 年代中期,幾乎主宰了自然語言處理的研究。隨著計(jì)算機(jī)技術(shù)的成熟與進(jìn)步、信息處理研究的深入,以及應(yīng)用目標(biāo)的發(fā)展,人們逐漸轉(zhuǎn)向基于統(tǒng)計(jì)的方法。統(tǒng)計(jì)方法很快便在語音識(shí)別、自動(dòng)分詞、詞性標(biāo)注等方面都取得了不俗的成績。機(jī)器學(xué)習(xí)方法也由此迅速占領(lǐng)了主流舞臺(tái),人們紛紛開始基于大規(guī)模人工標(biāo)注的語料樣本建立數(shù)學(xué)模型,通過調(diào)試模型的參數(shù)使其達(dá)到最優(yōu),并最終應(yīng)用于相應(yīng)的任務(wù)中(宗成慶,2016)。隨著大數(shù)據(jù)時(shí)代的到來,基于統(tǒng)計(jì)的方法更是在自然語言處理領(lǐng)域獨(dú)領(lǐng)風(fēng)騷,將基于規(guī)則的方法遠(yuǎn)遠(yuǎn)地拋在了后面。
不過,雖然當(dāng)前基于統(tǒng)計(jì)的方法在整個(gè)自然語言處理領(lǐng)域中占據(jù)著優(yōu)勢地位,但是我們也并不能完全舍棄基于規(guī)則的方法。兩種方法往往具有各自適用的領(lǐng)域,它們在整個(gè)自然語言處理發(fā)展過程中也都發(fā)揮了并將繼續(xù)發(fā)揮重要作用,從這一點(diǎn)看,它們并沒有嚴(yán)格的優(yōu)劣之分;而且不論是哪一種方法,首先都要求人自身對自然語言有深入的了解。比如當(dāng)前不少對自然語言深層知識(shí)的統(tǒng)計(jì),一般是建立在經(jīng)過標(biāo)注的熟語料庫的基礎(chǔ)之上的,而從生語料庫到熟語料庫,其加工與標(biāo)注仍然依賴于人對于自然語言的知識(shí),也就是規(guī)則(詹衛(wèi)東,2000a)。這兩類方法也并非完全對立,基于規(guī)則的方法和基于統(tǒng)計(jì)的方法也經(jīng)?;ハ嘟Y(jié)合,彼此取長補(bǔ)短,共同改進(jìn)語言信息處理技術(shù),提升語言信息處理系統(tǒng)的性能。

圖片

中文信息處理的研究方向

中文信息處理作為典型的綜合性、交叉性學(xué)科,涉及不同學(xué)科的知識(shí),從事中文信息處理研究的學(xué)者也擁有不同的學(xué)科背景。來自不同領(lǐng)域的學(xué)者在對中文信息處理問題展開研究時(shí),也就形成了不同的研究取向。
一般來說,自然語言處理有以下五種研究取向,作為自然語言處理分支學(xué)科的中文信息處理,同樣適用這五種研究取向。
(1)工程主義取向。這一取向主要著眼于計(jì)算機(jī)應(yīng)用系統(tǒng)的建立,即意圖建立一種可運(yùn)轉(zhuǎn)的計(jì)算機(jī)系統(tǒng)。持這種觀點(diǎn)的學(xué)者會(huì)把計(jì)算語言學(xué)的研究重點(diǎn)放在這種能理解和生成自然語言的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)及各種相應(yīng)算法的設(shè)計(jì)上。具體說來,這種類型的自然語言處理研究一般包括三個(gè)步驟:第一,數(shù)學(xué)建模;第二,算法設(shè)計(jì);第三,程序?qū)崿F(xiàn)。這種工程主義取向的計(jì)算語言學(xué)研究是有很強(qiáng)的應(yīng)用動(dòng)機(jī)的。因?yàn)檎Z言是人類交際和記錄信息的工具,如果使計(jì)算機(jī)獲得生成和理解自然語言的能力,那么計(jì)算機(jī)就能執(zhí)行只有人類才能完成的工作,諸如翻譯、文本處理、信息抽取和檢索等。所以,能處理自然語言的計(jì)算機(jī)系統(tǒng)將使計(jì)算機(jī)更為有用。通過計(jì)算語言學(xué)的研究,人們可以開發(fā)更多的計(jì)算機(jī)應(yīng)用領(lǐng)域。
(2)工具主義取向。這種取向主要著眼于利用計(jì)算機(jī)做語言分析,也就是用計(jì)算機(jī)來進(jìn)行語言的計(jì)量研究。在這種取向下,利用計(jì)算機(jī)進(jìn)行的計(jì)量語言學(xué)研究往往也容易被包括進(jìn)來。值得一提的是,在工具主義取向下,隨著用計(jì)算機(jī)來采集、整理、加工和管理語言材料工作的深入開展,語料庫語言學(xué)這門計(jì)算語言學(xué)的分支學(xué)科逐步形成。語料庫語言學(xué)一般研究機(jī)器可讀的自然語言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語法標(biāo)注、句法及語義分析,以及具有上述功能的語料庫在語言定量分析、作品風(fēng)格和作者考證研究、詞典編纂、自然語言理解和機(jī)器翻譯等領(lǐng)域中的運(yùn)用。所以從方法論上看,語料庫語言學(xué)跟工程主義的自然語言處理有很大的不同。語料庫語言學(xué)假定,如果我們能對數(shù)量很大的語言數(shù)據(jù)做出定量化的統(tǒng)計(jì)分析,那么我們就能對語言成分的分布和語言成分之間的關(guān)系等進(jìn)行概率性的預(yù)測,從而彌補(bǔ)計(jì)算機(jī)缺乏知識(shí)和推理能力的缺點(diǎn)。于是,以語料庫為基礎(chǔ)的統(tǒng)計(jì)模型不僅可以用來解決自然語言的語法標(biāo)注問題,而且還可以運(yùn)用到句法、語義等更高層次的分析上來,從而進(jìn)一步促進(jìn)應(yīng)用系統(tǒng)性能的提升。
(3)認(rèn)知主義取向。這種取向主要著眼于人類使用語言時(shí)的心理過程,認(rèn)為可以把計(jì)算機(jī)作為人類思維的模型,也可以用計(jì)算機(jī)來模擬人類的認(rèn)知過程。持這種研究取向的學(xué)者喜歡用認(rèn)知心理學(xué)的眼光來看待語言使用。在他們看來,讓計(jì)算機(jī)理解語言的關(guān)鍵是,要能對一般的自然語言的句子做出語義解釋,即設(shè)計(jì)一種一般的內(nèi)部表示。內(nèi)部表示是自然語言處理的關(guān)鍵,它影響著系統(tǒng)對語言知識(shí)和世界知識(shí)的描述和利用,因此也影響著整個(gè)處理系統(tǒng)。不同的學(xué)者由于對人類處理語言的心理過程的認(rèn)識(shí)不同,因此也會(huì)采用不同的理論和方法來建造自然語言處理系統(tǒng)。
(4)實(shí)證主義取向。這種取向主要著眼于檢驗(yàn)語法理論的可靠性,與抱有實(shí)用目的的工程主義取向明顯不同,在這一取向下,大多數(shù)研究并不跟某種特定的應(yīng)用目標(biāo)相掛鉤,而是另有某種科學(xué)研究的目標(biāo),例如,用計(jì)算機(jī)來對語言學(xué)家提出的各種語言學(xué)理論進(jìn)行檢驗(yàn),或者把自然語言處理看作理論語言學(xué)和計(jì)算機(jī)技術(shù)的橋梁,通過相關(guān)工作來溝通語言學(xué)理論和計(jì)算機(jī)技術(shù),來形成語言學(xué)技術(shù),從而完成語言學(xué)理論在計(jì)算機(jī)上的應(yīng)用。在這一過程中,計(jì)算機(jī)技術(shù)和語言學(xué)理論無疑是相互影響、相互促進(jìn)的。這使得計(jì)算語言學(xué)和理論語言學(xué)能夠緊密合作,并且產(chǎn)生更為豐碩的成果。
(5)邏輯主義取向。這種取向一般著眼于語言學(xué)知識(shí)的自動(dòng)發(fā)現(xiàn)。一般來說,要建造一個(gè)處理自然語言的計(jì)算機(jī)系統(tǒng),必須有大量的語言學(xué)知識(shí)作為基礎(chǔ),但語言學(xué)知識(shí)的發(fā)現(xiàn)工作往往是以手工方式進(jìn)行的。而在邏輯主義取向下,學(xué)者關(guān)注的是利用計(jì)算機(jī)來自動(dòng)(或輔助)發(fā)現(xiàn)語言學(xué)知識(shí)。利用計(jì)算機(jī)自動(dòng)發(fā)現(xiàn)語言學(xué)知識(shí),可以極大地提高研究的效率,擴(kuò)大研究的規(guī)模,把語言學(xué)家從找例句、制卡片、畫表格等煩瑣的事務(wù)中解放出來。這一過程體現(xiàn)著明顯的邏輯主義追求,即通過研究語言學(xué)知識(shí)的發(fā)現(xiàn)來探索歸納法的邏輯機(jī)制和計(jì)算結(jié)構(gòu)(袁毓林,2001)。
總的來說,不論以上哪種取向,都屬于自然語言處理的范圍,只是側(cè)重點(diǎn)會(huì)有所不同。


分享到:

最熱資訊

熱門標(biāo)簽