計算語言學與實驗語音學

發(fā)布時間:2021-11-19 17:59:31 | 來源: | 作者: | 責任編輯:

(一)計算語言學

計算語言學近年來在我國呈蒸蒸日上的態(tài)勢,突出表現在公開發(fā)表的科研成果數量多、質量逐步提升上。伴隨著國家對民族語言文字信息化處理的重視,全國各地尤其是民族類院校藏語文信息化處理獲得國家立項的科研項目和重點實驗室基礎建設同比增長比較多,國家和各個科研院所也加大在這方面的投入。我國藏文信息處理起步較晚,標準化建設尚待進一步完善,藏文信息技術研發(fā)單位各自為營,缺乏交流和合作。更重要的是我國藏文編碼還沒有完全遵循藏文國際編碼集,大家經常是根據各自的需要設計擴充編碼集,可以說我國藏文信息處理的技術與國際先進水平還存在差距。為了推動國內藏語文信息化建設,應該加大對國際標準小字符集技術的深入研究,根據國內信息化需要研制藏文大字符集國家標準,盡快統(tǒng)一國內藏文編碼,編碼多樣化導致藏文網絡傳播與交流出現了雜亂無章的局面,嚴重制約了藏文信息化研究的進程。因此對于不同藏文編碼之間的轉換研究就顯得十分必要,2012年度有多篇論文涉及藏文編碼轉換的研究成果公開發(fā)表,主要有:邢超等的《藏文文本編碼方案的識別算法》(《信息網絡安全》第12期)。

藏語文標準研究包括兩個研究領域:一是藏語文字使用的規(guī)范標準,二是藏語文信息處理所用的規(guī)范標準。藏語計算語言學研究內容包括藏語文的拉丁轉寫規(guī)范、分詞規(guī)范、詞類規(guī)范、語料庫規(guī)范、語言知識的表述規(guī)范等。

藏文字符識別研究是藏文文本信息化的一項基礎研究,對于藏文輸入、文獻信息化、語料庫建設等方面產生了重要影響。字符識別研究包括印刷體字符識別和手寫體字符識別,印刷體字符識別又涉及雕刻版字符識別。江荻、周學文、龍從軍等人的《藏文識別原理與應用》(商務印書館)是一部介紹文字識別原理和技術、藏文字形結構和統(tǒng)計特征、藏文識別技術和應用的書籍,也是目前中國第一部有關藏文識別的專著,對關心藏文識別或文字識別技術的讀者有重要的參考價值。該書共有七章,第一章緒論介紹了藏文識別研究的背景、技術以及研究現狀。第二章介紹了藏文的字形和結構特征。第三章介紹了藏文編碼簡史和字體。第四章介紹了OCR理論和方法。第五章介紹了不同語言環(huán)境下OCR的實現。第六章介紹了藏文識別預處理。第七章介紹了藏文印刷體的識別。第八章介紹了藏文識別后的處理。該部著作總結了藏文文字識別的基本理論方法與軟件開發(fā)的情況,是藏文文字識別研究的集成作品,對推動我國少數民族文字研究和信息化研究有積極的作用。關于藏語文識別的文章還有:李永忠等的《藏文印刷體字符識別技術研究》(《南京大學學報》自然科學版第1期)、小普桑等的《藏文筆跡的分析與鑒定》(《西藏科技》第4期)、趙冬香等的《BP神經網絡在脫機手寫吾美藏文識別系統(tǒng)中的應用》(《貴州科學》第2期)、趙棟材的《基于BP網絡的木刻藏文經書文字識別研究》(《微處理機》第5期)、才讓洛加等的《識別現代藏文基字的算法設計與實現》(《西藏科技》第5期)等,這些論文關注藏文文字識別中的某類具體問題,探討識別的策略,推動了藏語文字識別研究的不斷深化。

語料庫建設對語言信息處理意義重大,因此反映語料庫加工方法技術以及基于語料庫的語言研究文章也比較多,包括才藏太的《藏文語料庫深加工方法研究》(《計算機工程與應用》第26期)等都是針對整個語料庫的結構組織、標注方法等的研究;力毛措的《藏語語料庫管理系統(tǒng)中讀寫數據粒度問題的研究》(《青海師范大學學報》自然科學版第2期)等則對語料庫加工過程中的具體細節(jié)問題進行了討論。

與標注語料庫建設密切關聯(lián)的是分詞與詞性標注技術研究。2012年度藏語分詞技術取得了豐碩的成果,不但體現在發(fā)表文章的數量上,也體現在分詞方法革新和分詞軟件開發(fā)方面。

對藏語分詞方法進行研究的論文主要有:陳朝陽等的《基于Dijkstra算法的藏語分詞研究》(《數字通信》第6期);反映基于規(guī)則分詞系統(tǒng)開發(fā)的文章有劉匯丹等的《SegT:一個實用的藏文分詞系統(tǒng)》(《中文信息學報》第1期)、才華等的《Unicode藏文分詞系統(tǒng)的設計》(《西藏科技》第7期)、趙棟材的《基于虛詞切分的藏文分詞系統(tǒng)的設計與實現》(《西藏大學學報》自然科學版第2期)?;谝?guī)則的藏語分詞研究面臨諸多問題,分詞的精度有待進一步提高,為此一些研究者嘗試把統(tǒng)計方法引入到藏語分詞研究中。首先把統(tǒng)計技術引入藏語分詞的是史曉東、盧亞軍等,他們在《央金藏文分詞系統(tǒng)》(《中文信息學報》第4期)一文中介紹了把漢語分詞系統(tǒng)Segtag的技術移植到藏語分詞中,主要采用隱馬爾科夫模型,將分詞和標注一體化處理,獲得了不錯的效果。羊毛卓瑪和歐珠等的《一種改進的藏文分詞交集型歧義消解方法》(《西藏科技》第1期)、巴桑杰布等的《藏文分詞系統(tǒng)中緊縮格識別和藏字復原的算法研究》(《西藏科技》第2期)、羊毛卓瑪等的《藏文自動分詞中未登錄詞處理方法研究》(《計算機工程》第17期)等。

語料庫的詞性標注研究的成果不是太多,其原因主要在于分詞的精確度不高限制了詞性標注研究的推進。語料庫詞性標注研究所采用的技術方法以統(tǒng)計模型為主,主要成果有:扎西多杰等的《基于HMM藏文詞性標注的研究與實現》(《計算機光盤軟件與應用》第12期)。詞性標注細節(jié)研究,包括標注詞典,具體某些現象的標注研究,如扎西加等的《藏文文本分詞賦碼一體化研究》(《西藏大學學報》自然科學版第1期)。但是總體上來看,藏語詞性標注研究還存在很多問題,標注的精確度還不高。

資源建設還包括知識庫建構和雙語語料加工。知識庫建設方面也取得了一定的成果,才讓三智等的《面向信息處理的藏語虛詞知識庫構建研究》(《西北民族大學學報》自然科學版第2期)等都試圖通過建立語法知識庫來解決藏語計算處理中所需要的資源。但是語法信息知識庫的構建是一項艱苦而持久的工作,當前藏語知識庫建設的水平還較低、規(guī)模不大,還需要繼續(xù)加大研究的力度。

雙語語料庫建設難度要比建立單語種語料庫難度大,尤其是詞級單位對齊的語料庫在語言信息處理中起關鍵作用,涉及這方面研究的文章也比較多,主要有才讓卓瑪等的《基于語料庫的藏語高頻詞抽取研究》(《計算機工程》第15期)、曹暉等的《藏文報紙詞語統(tǒng)計研究》(《西北民族大學學報》自然科學版第3期)。馬拉毛草等《基于語料庫的藏語形容詞統(tǒng)計研究》(《西北民族大學學報》哲社版第6期)、祁坤鈺的《基于語料庫的藏語名詞分類與統(tǒng)計研究》(《西北民族大學學報》自然科學版第3期),這些文章的特點在于關注藏語新詞新語、網絡詞匯,在研究方法上以基于語料庫的統(tǒng)計方法為主。

文本信息處理是近幾年藏語計算處理的核心研究領域,龍從軍在《當前藏語信息處理的幾個關鍵問題》(《科研與信息化》第4期)概述了當前藏語文本信息處理的幾個基本問題以及對策。文本處理包括文本知識自動發(fā)現,自動分類、知識抽取、校對、檢索等內容。

邊界的識別問題,對于句法研究意義重大。相關的成果有徐濤等的《統(tǒng)計與規(guī)則相結合的藏文句子自動斷句方法》(《云南大學學報》自然科學版第6期)、才藏太的《基于最大熵分類器的藏文句子邊界自動識別方法研究》(《計算機工程與科學》第6期)、馬偉珍等的《藏語句子邊界識別方法》(《西藏大學學報》自然科學版第2期),上述成果的特點在于把統(tǒng)計手段融入句子識別研究中,規(guī)則和統(tǒng)計方法的融合,提高了藏語句子識別的精確度。

關于文本自動校對的研究主要有劉文香的《現代藏文文本校對設計方案研究》(《西藏大學學報》自然科學版第2期)、關白、才科扎西的《現代藏文音節(jié)字自動校對研究》(《計算機工程與應用》第29期)等。藏語計算語言學還包括特定應用軟件的開發(fā),如卓嘎等的《基于Flash的藏文字母打字游戲的設計與實現》(《西藏大學學報》自然科學版第2期)、高紅梅等的《藏文網頁爬蟲設計與實現》(《信息與電腦》理論版第9期)。

應用藏語文軟件的開發(fā)也是基于計算語言學發(fā)展起來的。相關的研究成果有:戴玉剛、劉戰(zhàn)東的《藏文Flv播放器的設計與實現》一文利用Flex技術,開發(fā)了一款藏文Flv播放器,該播放器實現了藏文字體在播放器界面上正常顯示和視頻文件的正常播放。實驗結果表明,利用Flex技術開發(fā)的藏文Flv播放器能夠給用戶帶來更豐富、體驗性更強的用戶界面。

孟祥和、何向真、曹暉的《基于民族文字的在線虛擬鍵盤實現技術》以在線藏文虛擬鍵盤為例,描述了在線民族文字虛擬鍵盤的實現技術,并在字符編碼、鍵盤布局、瀏覽器兼容等方面進行了詳細闡述。在線民族文字虛擬鍵盤為用戶提供一個與國家標準鍵盤布局相對應的民族文字虛擬鍵盤,其具有直觀、形象、易操作的特點。民族文字的在線虛擬鍵盤技術的實現,改善了B/S模式下民族文字輸入不便的問題。

(二)實驗語音學

與計算語言學相比,2012年度實驗語音學的研究成果不是很多,代表性的有:李冠宇、孟猛的《藏語拉薩話大詞表連續(xù)語音識別聲學模型研究》(《計算機工程》第5期),于洪志、高璐等的《藏語機讀音標SAMPA_ST的設計》(《中文信息學報》第4期),范俊軍的《基于調查字表詞表注音的漢藏語言音系處理系統(tǒng)》(《語言文字應用》第2期)等。

李冠宇、孟猛在《藏語拉薩話大詞表連續(xù)語音識別聲學模型研究》一文中,根據藏語的特點,提出藏語拉薩話大詞表連續(xù)語音識別聲學模型,利用高層次的藏語語言知識減少模式匹配的模糊性。以音素和聲韻母為聲學建模單元,在HTK平臺上建立上下文相關的連續(xù)隱馬爾可夫聲學模型,以實現藏語拉薩話特定人大詞表連續(xù)語音識別。實驗結果表明,在最優(yōu)情況下,該模型詞錯誤率只有7.8%。于洪志、高璐等的《藏語機讀音標SAMPA_ST的設計》一文選取具有代表意義的藏語衛(wèi)藏方言的拉薩話、安多方言的夏河話以及康方言的德格話進行語言調查;整理歸納藏語三大方言音系,包括單輔音、復輔音、單元音、復合元音和輔音韻尾,以及三大方言聲調;依照SAMPA的規(guī)則建立適合于藏語三大方言的機讀音標,并設計了SAMPA_ST的自動標注系統(tǒng),實現文音轉換功能,為語音的韻律特征分析和語音工程的研究提供依據。范俊軍在《基于調查字表詞表注音的漢藏語言音系處理系統(tǒng)》一文中認為:計算機對語言調查表記音文本語料的音標校對、音系整理、編制同音字匯表和音節(jié)詞素表,關鍵是從音標字符串中準確地切分音節(jié)、聲母、韻母、聲調。正向掃描最小數字字符匹配,可用于切分出音節(jié)字符串和聲調數字串;正向掃描最小元音字符匹配,可用于切分聲母和韻母。在此基礎上,從字表和詞表中隨機提取例字例詞,可快速生成音系表、同音字匯、音節(jié)詞素表,從而大大提高語言田野調查的語料整理效率。

以上是對2012年度藏語文研究的初步總結,鑒于刊載藏語文研究的期刊種類比較繁雜,如有遺漏還請方家海涵。

版權所有 中國藏學研究中心。 保留所有權利。 京ICP備06045333號-1

京公網安備 11010502035580號