www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

<acronym id="ktvok"></acronym>

<delect id="ktvok"><tfoot id="ktvok"></tfoot></delect>

<delect id="ktvok"></delect><dl id="ktvok"></dl>

感悟愛情 蒲公英文摘 > 感悟愛情 >

漢語方言語音數(shù)據(jù)庫(kù)建設(shè)構(gòu)想:完整的數(shù)據(jù)庫(kù)設(shè)計(jì)案例

發(fā)布時(shí)間:2020-03-07 來源: 感悟愛情點(diǎn)擊：

　　[摘要]介紹我國(guó)近年來相關(guān)研究的情況，論述建設(shè)漢語方言語音數(shù)據(jù)庫(kù)的重要意義和技術(shù)上的可行性，并從漢語方言語音數(shù)據(jù)庫(kù)功能、數(shù)據(jù)庫(kù)系統(tǒng)構(gòu)成、語音語料庫(kù)設(shè)計(jì)等幾個(gè)方面進(jìn)行分析和探討，構(gòu)建一款可用于認(rèn)知和研究等的多功能的漢語方言語音數(shù)據(jù)庫(kù)，同時(shí)提出需要注意的幾個(gè)問題。
　　[關(guān)鍵詞]漢語方言　方言數(shù)據(jù)庫(kù)　語音數(shù)據(jù)庫(kù)
　　[分類號(hào)]H21　G254
　　
　　1　引言
　　
　　近幾年，由于受到普通話和流動(dòng)人口的影響，使得用純正方言的人數(shù)越來越少，應(yīng)該說這些方言正處于衰變狀態(tài)。所以，筆者認(rèn)為，盡快建立具有多功能的漢語方言語音數(shù)據(jù)庫(kù)具有極其重要的意義：①可以通過其存儲(chǔ)和學(xué)習(xí)功能來保護(hù)和傳播人類非物質(zhì)文化遺產(chǎn)；②通過其檢索和辨識(shí)等功能，幫助某些職能部門準(zhǔn)確辯別出話語者的鄉(xiāng)里籍貫等地域信息，如對(duì)公安、安全部門開展刑事偵查等具有重要的應(yīng)用價(jià)值；③通過其原生態(tài)的語音語料庫(kù)事實(shí)數(shù)據(jù)有助于深入研究語音現(xiàn)象和文化淵源等。同時(shí)，它又可以推動(dòng)語言現(xiàn)代化處理技術(shù)的深入研究和運(yùn)用。可見，擬建的漢語方言語音數(shù)據(jù)庫(kù)具有廣闊的應(yīng)用前景。
　　多媒體計(jì)算機(jī)語音處理功能的實(shí)現(xiàn)，多媒體軟件開發(fā)技術(shù)的運(yùn)用，漢語文－語轉(zhuǎn)換、自動(dòng)分詞、語音合成、語音檢索等處理技術(shù)的深入研究等都為多功能漢語方言語音數(shù)據(jù)庫(kù)的建設(shè)提供了有力的技術(shù)保障，如漢語的文語轉(zhuǎn)換系統(tǒng)可以將計(jì)算機(jī)內(nèi)的任何文本轉(zhuǎn)換成連續(xù)的語音流，再如漢語方言自動(dòng)辨識(shí)技術(shù)雖然尚處于起步階段，但它可以通過特征選取、音素匹配等方法對(duì)漢語方言進(jìn)行辨識(shí)。
　　目前，學(xué)界相關(guān)研究也曾取得了一些成績(jī)，如李永宏和于洪志對(duì)“安多藏語語音合成語料庫(kù)”進(jìn)行了初步研究，詞庫(kù)以雙音和多音節(jié)詞為主體，句料庫(kù)卻以7種句型合成為主；沈向榮曾提出開發(fā)“壯語方言詞語在線語料庫(kù)檢索軟件”的設(shè)想；海柳文曾提出“漢語方言民族語言語音材料處理軟件”的開發(fā)框架；肖雙榮和吳道勤曾提出要在建立湖南方言語音特征數(shù)據(jù)庫(kù)基礎(chǔ)上進(jìn)行湖南方言語音特征統(tǒng)計(jì)和分析；中國(guó)社會(huì)科學(xué)院開發(fā)的“北方方言基本詞匯數(shù)據(jù)庫(kù)”，收錄北方話100余調(diào)查點(diǎn)和2000余條基本詞匯；由丁邦新等開發(fā)的“漢藏同源詞研究系統(tǒng)”，收錄了漢藏語系122種語言和12種漢語方言的1500余條詞匯；再如麥耘主持的“漢語方言詞匯數(shù)據(jù)庫(kù)”，劉丹青主持的“方言語法語料庫(kù)”，侯精一主持的“現(xiàn)代漢語方言音庫(kù)”，劉俐李主持的“漢語方言語音詞匯庫(kù)”等。盡管這些相關(guān)數(shù)據(jù)庫(kù)存在明顯不足，如方言偏少，收詞量偏少，語音數(shù)據(jù)缺乏，缺少語音原始情景信息，系統(tǒng)功能單一等，但它們都為漢語方言語音數(shù)據(jù)庫(kù)建設(shè)打下了良好的基礎(chǔ)。
　　
　　2　方言語音數(shù)據(jù)庫(kù)建構(gòu)
　　
　　2.1　數(shù)據(jù)庫(kù)功能
　　檢索功能。數(shù)據(jù)庫(kù)應(yīng)具有多途徑檢索功能，檢索標(biāo)識(shí)可以是文本也可以是語音；可使用多條件進(jìn)行組合檢索，能實(shí)現(xiàn)普通話與方言以及方言與方言之間的雙向?yàn)g覽，如由普通話詞匯或語音能檢索到相應(yīng)的方言詞匯或語音，由方言查找普通話或其它方言等；能以漢語方言語音為檢索入口，通過對(duì)語音特征進(jìn)行匹配，如調(diào)類、調(diào)值、調(diào)型、變調(diào)等，查出方言的市、縣、鄉(xiāng)三級(jí)地名信息；能根據(jù)各種方言實(shí)際情況和用戶瀏覽習(xí)慣，來確定瀏覽方式和輸出信息。
　　學(xué)習(xí)功能。該數(shù)據(jù)庫(kù)的建成將成為人們了解和學(xué)習(xí)各種方言不可或缺的工具�？梢酝ㄟ^直接點(diǎn)擊數(shù)據(jù)庫(kù)中的詞語或句子并選擇方言類型，便能聽到該方言的發(fā)音和相關(guān)例證等信息�？梢酝ㄟ^輸入詞、句、段等文本，輸出相對(duì)應(yīng)的語音和相關(guān)例證等信息，這些語音文件有的是語料庫(kù)中的原生態(tài)發(fā)音，有的是通過自動(dòng)切分技術(shù)，采用音節(jié)及詞匯的語音合成技術(shù)模擬而成的仿自然語句。
　　分析功能。系統(tǒng)可以實(shí)現(xiàn)各種知識(shí)庫(kù)間的有機(jī)聯(lián)系，對(duì)各種方言的語法、語義和語用等資源描述信息進(jìn)行比較分析等，如能以方言語音語料庫(kù)、方言詞語詞匯庫(kù)、方言語音語法知識(shí)庫(kù)等為基本依據(jù)進(jìn)行各種特征相似度比較、匹配和分析等，從而確定檢索結(jié)果與要輸出的內(nèi)容。
　　下載功能。它用來實(shí)現(xiàn)用戶對(duì)檢索、分析和比較結(jié)果的下載和打��；提供給用戶對(duì)語言數(shù)據(jù)的統(tǒng)計(jì)(表格)等的輸出；可以輸出用戶使用情況的統(tǒng)計(jì)數(shù)據(jù)與分析等�？梢赃x擇語音文件的某種格式進(jìn)行下載，也可以輸出帶方言注音的漢語學(xué)習(xí)文本。
　　維護(hù)功能。它主要包括三方面的維護(hù)功能：一是數(shù)據(jù)編輯功能，系統(tǒng)對(duì)載人的語音數(shù)據(jù)可以進(jìn)行復(fù)制、剪切、替換、插入等；二是系統(tǒng)維護(hù)功能，系統(tǒng)管理員可進(jìn)行數(shù)據(jù)管理、用戶管理、日志管理以及系統(tǒng)升級(jí)等；三是拓展功能，根據(jù)發(fā)展需要對(duì)數(shù)據(jù)庫(kù)再設(shè)計(jì)或添加新模塊，以加強(qiáng)或拓展數(shù)據(jù)庫(kù)功能。
　　用戶驗(yàn)證。系統(tǒng)對(duì)使用者身份進(jìn)行確認(rèn)從而分配不同的權(quán)限，主要分為系統(tǒng)管理員、數(shù)據(jù)管理員和普通用戶。
　　輔助功能。為用戶提供每種方言的語音系統(tǒng)介紹，為用戶提供輸入輸出音標(biāo)系統(tǒng)說明以及提供漢語方言調(diào)查表和相關(guān)語音對(duì)照表等。
　　
　　2.2　數(shù)據(jù)庫(kù)系統(tǒng)構(gòu)成
　　
　　2.2.1　系統(tǒng)基本模式建議采用C/S模式即服務(wù)器／客戶端模式。服務(wù)器端主要用于存放與管理數(shù)據(jù)，可使用具有強(qiáng)大伸縮性和可靠性的網(wǎng)絡(luò)后臺(tái)數(shù)據(jù)庫(kù)軟件，如SQL SERVER等。客戶端軟件可采用相關(guān)開發(fā)工具自主開發(fā)，如借助ASP并結(jié)合相關(guān)語音錄入、合成、辨識(shí)和輸出等開發(fā)軟件共同制作而成，主要用來輸入、輸出及互傳信息等。
　　2.2.2　數(shù)據(jù)庫(kù)基本結(jié)構(gòu)
　　語音數(shù)據(jù)庫(kù)。語音數(shù)據(jù)庫(kù)用于存放漢語方言字、詞、句等各語音數(shù)據(jù)及其屬性、特征、標(biāo)注、鏈接等相關(guān)信息。其中方言語音特征信息是方言相關(guān)度計(jì)算的前提，需要把純粹音系特征和字音特征相結(jié)合來確定方言語音特征，這樣即能體現(xiàn)出不同方言在音系特征方面的異同，也能體現(xiàn)出字音特征方面的異同。語音數(shù)據(jù)既包括每個(gè)字、詞、句可能的正常發(fā)音，又包括其變調(diào)后的發(fā)音，特別是變調(diào)后那些“半陰”、“半陽”等模糊聲調(diào)音，由于變調(diào)都遵循規(guī)則，因此盡量錄制存儲(chǔ)音節(jié)單元的變調(diào)，這樣不會(huì)使語音庫(kù)無限擴(kuò)大。語音數(shù)據(jù)庫(kù)也可細(xì)分為詞音庫(kù)、句音庫(kù)、段音庫(kù)等，也可分為方言音庫(kù)和普通話音庫(kù)等。
　　文本數(shù)據(jù)庫(kù)。文本數(shù)據(jù)庫(kù)用于存放漢語方言字、詞、句、地名等各文本數(shù)據(jù)及其屬性、標(biāo)注、鏈接等相關(guān)信息。文本數(shù)據(jù)庫(kù)具體可包括詞匯庫(kù)、地名庫(kù)、語料庫(kù)等。
　　知識(shí)庫(kù)。該庫(kù)用于存放各種詞典、語法和語義等關(guān)系數(shù)據(jù)及各種規(guī)則等，它是集各種知識(shí)文檔和關(guān)系文檔于一體的大型集成系統(tǒng)。它可存放檢索標(biāo)識(shí)、特征和關(guān)系信息等，這既是實(shí)現(xiàn)具體檢索方法的基礎(chǔ)，又是對(duì)檢索標(biāo)識(shí)屬性的描述。這些關(guān)系離不開各種規(guī)則，即事實(shí)性規(guī)則、關(guān)聯(lián)規(guī)則、推理規(guī)則、認(rèn)知規(guī)則和模糊規(guī)則等。知識(shí)庫(kù)具體可分若干子庫(kù)，如方言詞匯對(duì)應(yīng)規(guī)則知識(shí)庫(kù)、方言語音對(duì)應(yīng)規(guī)則知識(shí)庫(kù)、方言屬性對(duì)應(yīng)規(guī)則知識(shí)庫(kù)、語根知識(shí)庫(kù)等。
　　索引庫(kù)。它用于存放各種索引，包括分類索引、主題索引、語音特征索引、語音代碼索引等。
　　輔助庫(kù)。它用于存放在檢索或維護(hù)過程中調(diào) 用或形成的各種臨時(shí)數(shù)據(jù)或輔助數(shù)據(jù)等，如可根據(jù)需要建立一個(gè)臨時(shí)用戶代碼庫(kù)等，方便高級(jí)用戶在檢索時(shí)使用。也存放各級(jí)用戶相關(guān)的背景資料信息，即所謂的用戶庫(kù)；或存放系統(tǒng)維護(hù)的相關(guān)控制信息等，即所謂的控制庫(kù)；或存放用戶自定義的數(shù)據(jù)資料和輸出結(jié)果，即所謂的自定義庫(kù)等。
　　2.2.3　數(shù)據(jù)基本結(jié)構(gòu)數(shù)據(jù)項(xiàng)涉及多種數(shù)據(jù)屬性，包括方言域、方言類型、語音詞、音節(jié)、調(diào)類、音頻、釋義等。每個(gè)數(shù)據(jù)包括許多匹配與辨識(shí)所用的關(guān)聯(lián)與指示，如標(biāo)識(shí)域、描述域、分類域、關(guān)系域等，以及其它相關(guān)屬性等。如某一類數(shù)據(jù)基本結(jié)構(gòu)為：
　　
　　Key：檢索鍵值
　　T：類型
　　C：族性類別代碼
　　N：出現(xiàn)頻次
　　P：地址指針(其中Pc為域指針，Pi為信息指針，Pn為其它指針)
　　2.2.4　檢索機(jī)制漢語方言語音檢索主要是通過語音、語法、詞匯等關(guān)鍵特征的匹配來完成的，可以通過方言語音典型特征及相關(guān)控制等因素來判斷，也可通過對(duì)其綜合特征進(jìn)行分析等來準(zhǔn)確判斷，或利用方言親疏關(guān)系聚類分析等來判斷。不管哪種方法都是要利用語音處理軟件把語音特征及相關(guān)數(shù)據(jù)轉(zhuǎn)換成與知識(shí)庫(kù)規(guī)則相一致的可比數(shù)據(jù)，再通過辨識(shí)系統(tǒng)進(jìn)行對(duì)比分析，最后輸出檢索結(jié)果。
　　特征信息量越大，排他性越強(qiáng)，越利于檢索匹配。所以，語音辨識(shí)，首先進(jìn)行方言語音聲調(diào)和音長(zhǎng)典型特征的匹配，聲調(diào)特征涉及面廣，具有強(qiáng)烈的排他性，各種方言的聲調(diào)系統(tǒng)間極少有在調(diào)類數(shù)、調(diào)型、調(diào)值、聲調(diào)來源、變調(diào)規(guī)律各方面都完全重合的；其次，可根據(jù)需要進(jìn)一步進(jìn)行方言其它特征的匹配，如聲波頻變、疊加、滑變等。
　　
　　3　語音語料庫(kù)設(shè)計(jì)
　　
　　3.1　語料庫(kù)
　　雖然語音語料庫(kù)搜集哪些語料、搜集多少，并無統(tǒng)一標(biāo)準(zhǔn)，但要建立具有一定數(shù)量規(guī)模和特征的詞匯庫(kù)、句子庫(kù)、語段庫(kù)等，就要搜集方言地域人們所經(jīng)常使用的語言文字材料，如文化與生活、歷史與宗教、教育與科技等，越土、越俗的越要選用。
　　對(duì)于詞匯，美國(guó)普林斯頓大學(xué)1972年出版的Handbook of，Chinese Dialect Vocabulary(漢語方言詞匯調(diào)查手冊(cè))將詞目分為33個(gè)義類，共5000余條目；我國(guó)2003年修訂的《漢語方言詞語調(diào)查條目表》版將詞匯分為29大類，詞目4000余條。方言的核心詞主要包括名詞、動(dòng)詞、形容詞等，而方言中對(duì)同一事物的不同表述(或說法)的詞語，要盡量搜集全面，對(duì)于那些有本地方言特征或摻雜本地音調(diào)的外來詞，也要適當(dāng)搜集，增加例詞、例句、釋義等，力求能夠全面反映某地方言的語音特點(diǎn)。
　　對(duì)于句子，結(jié)合方言自身生活習(xí)俗、語言習(xí)慣等實(shí)際情況采集語料(包括長(zhǎng)篇的話語材料)，按其語法特點(diǎn)，提煉含有各種句型的句子樣本，它們包括敘述句、判斷句、疑問句、否定句、祈使句等。這些樣本是在一定的情景下以日常生活為題材的自然話語。
　　
　　3.2　音源選擇
　　在語音數(shù)據(jù)庫(kù)建設(shè)中，對(duì)某種方言的典型地域及發(fā)音人的選擇至關(guān)重要。中國(guó)語言狀況極為復(fù)雜，每個(gè)地方都有自己的“語言”，這既是方言魅力所在，又給音源選擇帶來極大難度，所以，要對(duì)某種方言狀況進(jìn)行較全面的調(diào)查了解，才能科學(xué)地選擇具有代表性的地域、方言及發(fā)音人。
　　為確保采集方言語料的質(zhì)量和代表性，所選擇的方言發(fā)音人必須土生土長(zhǎng)、口齒清晰、操音熟練、用語傳統(tǒng)、語速適中，是當(dāng)?shù)毓J(rèn)發(fā)音準(zhǔn)確的。應(yīng)選擇那些文化程度不高、生活范圍狹小、善于交際聊天、但很少受普通話影響的年齡在五、六十歲的發(fā)音人，這個(gè)年齡段的人講話相對(duì)較“土”一些。
　　至少要選擇三組平行音源，進(jìn)行平行錄音和重復(fù)錄音，以便采集準(zhǔn)確語音發(fā)音樣本。
　　
　　3.3　語音錄制
　　應(yīng)選配專用錄音房、專業(yè)錄音麥克風(fēng)、電平監(jiān)視器等設(shè)備，采用先進(jìn)的錄音合成軟件，音頻控制要在16000Hz采樣率和16位精度以上，設(shè)置為清晰的單聲道音頻信號(hào)，存儲(chǔ)為相應(yīng)的文件格式。
　　麥克風(fēng)是錄音中重要的設(shè)備，既要保證在專業(yè)環(huán)境下的高靈敏性，也要保證其能在非專業(yè)錄音環(huán)境中正常使用。對(duì)于具體環(huán)境下的情感語音錄音可隨機(jī)應(yīng)變，盡量選用不會(huì)影響發(fā)音人情緒的錄音設(shè)備，如錄音筆等。如果朗讀情感式錄音文本，建議配戴袖珍麥克或頭戴式麥克。
　　整個(gè)錄音過程應(yīng)在專業(yè)技術(shù)人員指導(dǎo)下進(jìn)行，有些錄音可在正式錄音前安排模擬錄音實(shí)驗(yàn)，但有些實(shí)時(shí)錄音必須一次成功。所有方言發(fā)音文件應(yīng)配備對(duì)應(yīng)的普通話讀音文件，便于理解與學(xué)習(xí)。
　　
　　4　需要注意的幾個(gè)方面
　　
　　4.1　數(shù)據(jù)庫(kù)功能
　　數(shù)據(jù)庫(kù)的設(shè)計(jì)既要保證數(shù)據(jù)的可靠性和完整性，又要保證系統(tǒng)的兼容性和共享性；既要成為通用的數(shù)據(jù)庫(kù)檢索系統(tǒng)，又要成為語言學(xué)習(xí)與研究的共享軟件。對(duì)方言文本發(fā)音的標(biāo)音不僅要易標(biāo)，關(guān)鍵是要易讀、易懂，能夠保證它的準(zhǔn)確性和連貫性。
　　
　　4.2　方言數(shù)據(jù)采集
　　數(shù)據(jù)是數(shù)據(jù)庫(kù)各種功能得以實(shí)現(xiàn)的最基本保證，而方言所涉及種類多、范圍廣，所以，要在數(shù)據(jù)采集上加大投入，建立數(shù)據(jù)搜集的各級(jí)組織，以便把那些很土的方言采集齊全。應(yīng)減少朗讀普通話提示文本錄制語音數(shù)據(jù)，盡量采集原生態(tài)語法現(xiàn)象與發(fā)音習(xí)慣，以保證某種方言的客觀性和特殊性。
　　
　　4.3　檢索預(yù)處理
　　一般檢索系統(tǒng)往往采用禁用詞表、運(yùn)算規(guī)則等進(jìn)行初步檢索規(guī)范，但在方言數(shù)據(jù)庫(kù)檢索過程中無法使用這些規(guī)則，因?yàn)槊總€(gè)詞都有其發(fā)音，都有檢索意義，特別是在進(jìn)行語音檢索時(shí)，某些超失范語句必須進(jìn)行預(yù)處理，否則容易匹配失誤，導(dǎo)致檢索錯(cuò)誤，而人工預(yù)處理需要有一定的檢索知識(shí)和語言知識(shí)，所以設(shè)計(jì)智能預(yù)處理系統(tǒng)非常必要。
　　
　　4.4　軟件開發(fā)
　　盡管已經(jīng)開發(fā)出一些語音處理與識(shí)別軟件，但尚需進(jìn)一步研究和開發(fā)具有“自然語言認(rèn)知和情感理解能力”的語音特征自動(dòng)識(shí)別與提取軟件、語義自動(dòng)分析軟件、語一文自動(dòng)轉(zhuǎn)換軟件以及漢語方言智能預(yù)處理軟件、自動(dòng)辨識(shí)軟件、自動(dòng)合成軟件等。
　　
　　4.5　數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)化
　　我國(guó)數(shù)據(jù)庫(kù)系統(tǒng)的研制與開發(fā)需要統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和建庫(kù)規(guī)范。所以，有必要對(duì)語音數(shù)據(jù)庫(kù)的有關(guān)數(shù)據(jù)和功能制定一個(gè)統(tǒng)一的標(biāo)準(zhǔn)，而方言語音數(shù)據(jù)庫(kù)的建設(shè)也亟需采取統(tǒng)一的規(guī)劃措施。
　　
　　5　結(jié)語
　　
　　中國(guó)地域遼闊，語言狀況相當(dāng)復(fù)雜，每個(gè)地方都有自己的方言，方言研究涉及很多問題，是一個(gè)很大的課題，為此，有必要對(duì)方言語音數(shù)據(jù)庫(kù)進(jìn)行規(guī)模研究，以促進(jìn)我國(guó)漢語語言文化的留存與傳承，并推動(dòng)學(xué)界對(duì)我國(guó)漢語方言語言深入而持久的研究。

相關(guān)熱詞搜索：漢語構(gòu)想方言漢語方言語音數(shù)據(jù)庫(kù)建設(shè)構(gòu)想中國(guó)手語數(shù)據(jù)庫(kù)建設(shè)的構(gòu)想布依語語音數(shù)據(jù)庫(kù)建設(shè)初探

熱點(diǎn)文章閱讀

夜色資源www.Ye321.Com [夜色 2020-03-24
深圳往事|《深圳往事》1—13李 2020-03-30
中國(guó)男同志China免費(fèi)boys “ 2020-03-03
八路軍女兵冀中泣血蒙難記【1 2020-03-01
我是誰――“富二代”的幸與不 2020-03-15
王海光：政爭(zhēng)與權(quán)爭(zhēng)——“高饒 2020-06-16
愛情論壇 2017-02-07
陶潛之略傳文言文翻譯_文言文 2019-02-04
[為兒子就業(yè)母親“獻(xiàn)身”上司 2020-03-06
河北定州6-11襲擊村民事件始末 2020-05-25

版權(quán)所有 蒲公英文摘 www.newchangjing.com

<form id="bdpbw"></form>

<dl id="bdpbw"></dl>