計(jì)算語言學(xué)與實(shí)驗(yàn)語音學(xué)(漢文部分)——計(jì)算語言學(xué)

發(fā)布時(shí)間:2021-11-19 17:58:23 | 來源: | 作者: | 責(zé)任編輯:

二、計(jì)算語言學(xué)與實(shí)驗(yàn)語音學(xué)

2011年實(shí)驗(yàn)語音學(xué)和計(jì)算語言學(xué)的成果在藏語文研究領(lǐng)域占據(jù)很大比例,據(jù)不完全統(tǒng)計(jì)有近百篇論文在學(xué)術(shù)期刊上發(fā)表。鑒于藏語實(shí)驗(yàn)語音學(xué)與計(jì)算語言學(xué)在研究方法和研究對(duì)象上各有偏重,在實(shí)踐過程中又互有交叉,本文將這兩個(gè)學(xué)科的研究成果放在一起進(jìn)行梳理。

(一)計(jì)算語言學(xué)

信息化是當(dāng)前民族語文發(fā)展的大勢所趨。而藏文國際編碼的設(shè)計(jì)研發(fā)是關(guān)系到藏語文信息化成敗與否的關(guān)鍵。吳兵、江荻《藏文國際碼軟件的發(fā)展與技術(shù)應(yīng)用》(《西南民族大學(xué)學(xué)報(bào)》人文社科版第8期)一文以微觀方式梳理出藏文編碼產(chǎn)生、修訂和發(fā)展的復(fù)雜過程,分析了藏文編碼的技術(shù)布局、編碼細(xì)節(jié)及技術(shù)應(yīng)用情況。

計(jì)算語言學(xué)為藏語文的信息化提供技術(shù)思路和技術(shù)支持保障。算法與數(shù)據(jù)庫的設(shè)計(jì)是計(jì)算語言學(xué)重點(diǎn)關(guān)注的對(duì)象。藏語語料庫建設(shè)對(duì)計(jì)算語言學(xué)的發(fā)展具有重要意義。語料數(shù)據(jù)庫的建設(shè)涉及對(duì)語料的描述、標(biāo)記,數(shù)據(jù)庫的總體結(jié)構(gòu)、設(shè)計(jì)與實(shí)現(xiàn)等多個(gè)方面。語言模型的構(gòu)造以及標(biāo)記規(guī)范對(duì)藏語文信息化處理起著舉足輕重的作用。相關(guān)的研究成果有:諾明花、吳健、劉匯丹、丁治明等的《漢藏短語抽取》和《漢藏短語對(duì)抽取中短語譯文獲取方法研究》(《中文信息學(xué)報(bào)》第2、3期),武英、張明亮、李積遜的《基于動(dòng)態(tài)聚類算法的藏文音節(jié)點(diǎn)檢測》(《福建電腦》第2期),才讓卓瑪、才智杰的《藏文字頻統(tǒng)計(jì)系統(tǒng)中字構(gòu)件分解算法》(《計(jì)算機(jī)工程與科學(xué)》第3期),才讓加的《藏語語料庫詞類描述方法研究》(《計(jì)算機(jī)工程與應(yīng)用》第4期),扎西加、高定國的《藏語語料庫TEI標(biāo)記規(guī)范探討》(《中文信息學(xué)報(bào)》第4期),安見才讓的《藏語句子相似度算法的研究》(《中文信息學(xué)報(bào)》第4期),多拉、才讓三智《信息處理用藏語語法模型知識(shí)庫研究》(《西北民大學(xué)報(bào)》自然科學(xué)版第3期),羊本才讓、多拉《藏語動(dòng)詞語法信息庫構(gòu)建研究》(《西北民大學(xué)報(bào)》自然科學(xué)版第3期),吳兵的《一種智能高效的手機(jī)鍵盤藏文輸入研究》(《西南民族大學(xué)學(xué)報(bào)》自然科學(xué)版第3期),《基于序列比對(duì)方法的藏語人名實(shí)體消重研究》(《甘肅科技縱橫》第1期),武強(qiáng)、崔靜靜、邊巴旺堆、次仁朗杰的《智能藏語盲文學(xué)習(xí)機(jī)的設(shè)計(jì)與實(shí)現(xiàn)》(《電子設(shè)計(jì)工程》第15期),崔靜靜、肖偉、次仁朗杰等《基于語言表達(dá)障礙者的藏文語音輔助系統(tǒng)的設(shè)計(jì)》(《電子設(shè)計(jì)工程》第2期),達(dá)娃彭措的《藏文音節(jié)后加字組合形式統(tǒng)計(jì)》(《語言文學(xué)刊:外語教育教學(xué)》第9期[上])等。

鑒于這方面的研究成果比較多,在此只選取代表性的予以介紹。諾明花、吳健、劉匯丹、丁治明等的《漢藏短語抽取》和《漢藏短語對(duì)抽取中短語譯文獲取方法研究》二文采用藏文詞串頻率統(tǒng)計(jì)方法(TSM)和藏文詞序列相交算法(TIA)兩種方法來獲取藏語譯文。其中TSM抽取1-1連續(xù)和非連續(xù)短語準(zhǔn)確率達(dá)到90%左右,但遺漏1-n情況。TIA能夠抽取1-n連續(xù)和非連續(xù)藏文語塊,準(zhǔn)確率達(dá)到81%。安見才讓、王玲玲的《一種漢藏雙語句子對(duì)齊算法》一文,基于漢藏雙語的實(shí)際情況,提出了一種利用句子長度、相似度和錨點(diǎn)信息的漢藏雙語句子對(duì)齊方法,該方法用相似度找到句子的錨點(diǎn),用錨點(diǎn)將雙語文本分割成幾個(gè)分塊,在對(duì)應(yīng)雙語分塊中用基于長度的對(duì)齊實(shí)現(xiàn)句子的對(duì)齊。通過測試數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)結(jié)果顯示,這種方法有著良好的準(zhǔn)確率,有效地解決了漢藏雙語真實(shí)文本的句子對(duì)齊問題。這些技術(shù)的運(yùn)用和實(shí)施有助于語料庫的建設(shè)和語言材料的信息化處理。安見才讓在《藏語句子相似度算法的研究》一文中,提出了一種藏語句子相似度的計(jì)算方法,即采用散列單詞倒排索引和基于句長相似度粗選的算法,快速從語料庫中篩選出候選句子的集合,散列單詞倒排索引能夠有效提高算法的查找速度;再采用基于詞形和連續(xù)單詞序列相似度的多策略精選算法,可以有效衡量兩個(gè)藏語句子的相似程度。扎西加、高定國的《藏語語料庫TEI標(biāo)記規(guī)范探討》則針對(duì)語言信息處理過程中,大規(guī)模真實(shí)文本處理這一研究熱點(diǎn)。藏語語料庫的標(biāo)記在漢藏英機(jī)器翻譯、信息檢索、文本數(shù)據(jù)挖掘、詞典編纂的研究工作中占很重要的地位。為了便于數(shù)據(jù)交換和共享,該文基于TEI編碼的藏語語料,對(duì)藏語語料庫中文本的屬性信息和結(jié)構(gòu)信息標(biāo)記做了系統(tǒng)而全面的探討。羊本才讓、多拉在《藏語動(dòng)詞語法信息庫構(gòu)建研究》一文中,運(yùn)用計(jì)算語言學(xué)的相關(guān)研究,提出構(gòu)建藏語動(dòng)詞語法信息庫的方法、收詞原則及其詞條的來源,以及藏語動(dòng)詞在《藏語動(dòng)詞語法信息庫》中的分類緣由、字段的設(shè)置與相應(yīng)的標(biāo)記集,羅列出了《藏語動(dòng)詞語法信息庫》的樣例,為藏文信息處理中的語言知識(shí)庫的建設(shè)提供參考信息。多拉、才讓三智在《信息處理用藏語語法模型知識(shí)庫研究》一文中指出,語言模型是對(duì)自然語言的一種描述,構(gòu)造語言模型是研究計(jì)算語言學(xué)、自然語言理解的核心內(nèi)容之一,好的語言模型將有助于自然語言處理的準(zhǔn)確性。由于藏文是屬于有形態(tài)的語言,既有曲折的特點(diǎn),也有黏著的特征,并有豐富的格標(biāo)記。深入研究其格語法體系,使之規(guī)范化,這對(duì)于進(jìn)一步開展機(jī)器識(shí)別的句法研究以及文本理解、漢藏智能翻譯、自動(dòng)分詞、文本自動(dòng)校對(duì)、句法樹庫建設(shè)、信息檢索等方面將會(huì)起到基礎(chǔ)支撐作用。

利用計(jì)算機(jī)技術(shù)對(duì)藏語語言現(xiàn)象進(jìn)行研究是藏語研究的新特點(diǎn)。相關(guān)的研究成果有才讓三智、多拉的《藏、英、漢三種語言的人稱代詞用法比較研究》(《西北民大學(xué)報(bào)》自然科學(xué)版第1期)和《信息處理中藏語虛詞“na”和“l(fā)a”的標(biāo)注研究》(《電腦知識(shí)與技術(shù)》第10期),張同玲、祁坤鈺的《淺談藏語單句的類型》(《科技信息》第17期),南措吉、達(dá)哇彭措的《藏語方言格助詞演變對(duì)比研究——以拉薩話和同仁話為例》(《科技信息》第19期),以及索南尖措高定國《信息處理用藏文動(dòng)詞的分類》(《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第2期)等。

才讓三智、多拉在《信息處理中藏語虛詞“na”和“l(fā)a”的標(biāo)注研究》和《藏、英、漢三種語言的人稱代詞用法比較研究》的文章中,運(yùn)用計(jì)算機(jī)相關(guān)技術(shù)對(duì)藏語詞類進(jìn)行分析。在前一篇文章中,通過分析藏文信息中的兼類虛詞“na”和“l(fā)a”,提出了如何在不同的語境中,處理和解決這類詞性的標(biāo)注問題;而在后一篇文章中,通過對(duì)藏、英、漢三種語言人稱代詞用法的研究,歸納和總結(jié)出了不同語言人稱代詞的特征,指出了它們之間的差異,總結(jié)了藏、英、漢三種語言人稱代詞的用法,為以后三種語言文字的人工翻譯和機(jī)器翻譯提供了文本分析依據(jù)。張同玲、祁坤鈺在《淺談藏語單句的類型》一文中,通過藏語語法知識(shí)和藏漢兩種語言對(duì)句子概念的對(duì)比,將藏語單句進(jìn)行了劃分,該研究有利于藏文校對(duì)及信息檢索、雙語對(duì)譯、自動(dòng)分詞、搜索引擎等信息技術(shù)的不斷發(fā)展。南措吉、達(dá)哇彭措在《藏語方言格助詞演變對(duì)比研究——以拉薩話和同仁話為例》一文中,把拉薩話和同仁話及書面語的格助詞作比較,說明格助詞la,gi,nas,gis和na等在藏語不同方言中的變化、用法及區(qū)別。索南尖措、高定國在《信息處理用藏文動(dòng)詞的分類》一文中,將藏語的動(dòng)詞在傳統(tǒng)分法基礎(chǔ)上細(xì)分為使動(dòng)動(dòng)詞、自主動(dòng)詞、不自主動(dòng)詞、自動(dòng)動(dòng)詞、判斷動(dòng)詞、存在動(dòng)詞、情態(tài)助動(dòng)詞等7類,并對(duì)藏語中具有黏著性和屈折性變化的動(dòng)詞進(jìn)行舉例說明和分析,為藏文信息處理過程中切分動(dòng)詞提供依據(jù)。

版權(quán)所有 中國藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號(hào)-1

京公網(wǎng)安備 11010502035580號(hào)