www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

<pre id="w0j6k"></pre>

<tt id="w0j6k"></tt>

<tr id="w0j6k"></tr>

歷史回眸 蒲公英文摘 > 歷史回眸 >

英漢對照語言對自動獲取_html獲取語言

發(fā)布時(shí)間:2020-03-10 來源: 歷史回眸點(diǎn)擊：

　　[摘要]首先，在基于語料庫統(tǒng)計(jì)和人工內(nèi)省的語言知識基礎(chǔ)上制定抓取底表，使用抓取工具Wget從網(wǎng)絡(luò)上抓取含有英漢對照語言對的網(wǎng)頁。其次，通過程序從抓取兩頁中提取英漢對照語言對，對獲取的英漢對照語言對進(jìn)行后續(xù)整理，如去重、格式轉(zhuǎn)換等。最后，把英漢對照語言對存入到數(shù)據(jù)庫中。
　　[關(guān)鍵詞]英漢對照語言對　Wget　底表　MySQL數(shù)據(jù)庫
　　[分類號]TP391
　　
　　1　引言
　　
　　英漢對照語言對的獲取無論是對跨語言檢索研究的開展，還是對輔助機(jī)器翻譯和機(jī)器翻譯系統(tǒng)的開發(fā)，都具有十分重要的意義：有助于跨語言檢索自動衍生英漢雙語詞表和潛語義自動標(biāo)注；可以為輔助機(jī)器翻譯和機(jī)器翻譯系統(tǒng)的開發(fā)提供基本的語法、語義和語用素材；同時(shí)也有助于英漢雙語相關(guān)知識庫的構(gòu)建。由于受資金、技術(shù)以及人力等現(xiàn)實(shí)條件的限制，目前能被使用的英漢對照語言對不是規(guī)模太小就是對齊質(zhì)量不能令人滿意。以豐富的用戶體驗(yàn)和互聯(lián)網(wǎng)作為平臺特征的Web2.0的迅速發(fā)展使得互聯(lián)網(wǎng)上充斥著各種各樣的信息資源，其中分布廣泛和數(shù)量龐大的英漢對照語言對資源就是其中的一種。
　　隨著文本挖掘和網(wǎng)頁抓取技術(shù)的迅速發(fā)展，基于網(wǎng)絡(luò)的英漢對照語言對自動獲取越來越受到研究者的關(guān)注。葉莎妮等利用URL命名相似性獲取雙語候選網(wǎng)頁自動發(fā)現(xiàn)命名規(guī)律，從而獲取更多可靠的雙語候選網(wǎng)頁，同時(shí)側(cè)重雙語句對之間的互翻譯性，有效地提高了雙語平行句對抽取的召回率和準(zhǔn)確率。該研究僅僅獲取了句子對，對于詞匯對、短語和段落對則沒有涉及，同時(shí)也沒有對句子對進(jìn)行去重。吳琳等利用歐洲專利局的URL命名特點(diǎn)獲取專利英文著錄信息的詳細(xì)網(wǎng)頁實(shí)現(xiàn)網(wǎng)頁的批量下載，采用正則匹配表達(dá)式提取出網(wǎng)頁上的專利英文著錄信息，與中文著錄數(shù)據(jù)合并后存入數(shù)據(jù)庫中。該文主要是獲取專利領(lǐng)域的英漢對照語言對，對于其他領(lǐng)域和通用的英漢對照語言對則沒有涉及。程嵐嵐提出了一種使用正則表達(dá)式的術(shù)語對抽取方法，在獲取網(wǎng)頁源文件的基礎(chǔ)上，依據(jù)已定義的正則表達(dá)式從中抽取出正確的術(shù)語對。該方法的可移植性相對比較差，沒有獲取較復(fù)雜的短語對和句子對。張永臣等�；趶木W(wǎng)絡(luò)中獲取的非平行英漢語料，提出了利用詞間關(guān)系矩陣法從特定領(lǐng)域非平行語料中抽取雙語詞典的方法。由于種子詞對英漢對照詞匯對的抽取影響較大，獲取的英漢對照詞匯對質(zhì)量并不高。
　　
　　
　　
　　
　　在前人研究的基礎(chǔ)上，本文基于網(wǎng)絡(luò)抓取工具，從擁有海量信息的網(wǎng)絡(luò)上抓取了大量的網(wǎng)頁，然后基于抽取程序，結(jié)合人工的語言學(xué)內(nèi)省，初步構(gòu)建了一個(gè)大規(guī)模的英漢對照詞匯對、短語對、句子對和段落對數(shù)據(jù)庫，其中句子對和段落對數(shù)據(jù)庫可以初步構(gòu)成一個(gè)英漢對照語言對語料庫。
　　
　　2　英漢對照語言對獲取的基本流程
　　
　　根據(jù)獲取英漢對照語言對實(shí)驗(yàn)數(shù)據(jù)總結(jié)的經(jīng)驗(yàn)，一個(gè)完整的獲取英漢對照語言對的流程大致包括：
　　?確定抓取的網(wǎng)站。根據(jù)具體的研究需要和網(wǎng)絡(luò)資源隨機(jī)調(diào)查，初步確定所抓取網(wǎng)站。
　　?制定抓取詞匯底表�；诖笠�(guī)模語料庫的統(tǒng)計(jì)數(shù)據(jù)結(jié)合通過人工內(nèi)省的方法增加相應(yīng)的詞匯知識，確定具體的抓取詞匯底表。
　　?利用網(wǎng)絡(luò)抓取工具自動獲取含有英漢對照語言對資源的網(wǎng)頁。在自動抓取的過程中，根據(jù)具體的抓取需要適當(dāng)添加一些人工干預(yù)。
　　?英漢對照語言對的提取、去重和入庫。從大規(guī)模網(wǎng)頁中提取英漢對照語言對，在去重的基礎(chǔ)上把英漢對照語言對自動存儲到數(shù)據(jù)庫中。
　　上面的基本流程如圖1所示。
　　
　　3　獲取英漢對照語言對網(wǎng)站的確定
　　
　　在確定抓取英漢對照語言對網(wǎng)站的過程中，主要考慮兩個(gè)方面的問題：
　　
　　3.1　抓取網(wǎng)站確定的標(biāo)準(zhǔn)
　　在確定抓取網(wǎng)站的標(biāo)準(zhǔn)上面，本文主要考慮三個(gè)方面，即網(wǎng)站數(shù)據(jù)的豐富性、優(yōu)質(zhì)性和共享性。
　　3.1.1　網(wǎng)站數(shù)據(jù)的豐富性網(wǎng)站數(shù)據(jù)是否豐富是確定抓取網(wǎng)站的一個(gè)基本指標(biāo)。所謂網(wǎng)站數(shù)據(jù)的豐富性是指該網(wǎng)站上存在一定量的英漢對照語言對，并且語言對中一定要有短語對、句子對或段落對。筆者在確定網(wǎng)站資源豐富與否的過程中，結(jié)合大量的抓取實(shí)驗(yàn)，針對不同的語言對制定了一個(gè)初步的量化標(biāo)準(zhǔn)，具體如表1所示。
　　本文抓取過程中選定的網(wǎng)站基本上是根據(jù)表1中的量化指標(biāo)確定的，但有時(shí)會根據(jù)語言對的具體數(shù)量作出一定調(diào)整，但不會與表1中的量化指標(biāo)出人太大。
　　3.1.2　網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性　網(wǎng)站數(shù)據(jù)是否優(yōu)質(zhì)是確定抓取網(wǎng)站的一個(gè)關(guān)鍵問題。所謂網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性是指網(wǎng)站上的英漢對照語言對是否符合標(biāo)準(zhǔn)漢英／英漢語言學(xué)的表達(dá)。根據(jù)翻譯學(xué)對語言翻譯質(zhì)量信、達(dá)、雅的衡量標(biāo)準(zhǔn)，網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性大致可以分成“一般、較好、很好”三個(gè)層次。在具體確定網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性層次上，根據(jù)隨機(jī)從網(wǎng)站上獲取數(shù)據(jù)的質(zhì)量，結(jié)合漢語和英語語言學(xué)家的內(nèi)省最終確定該網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)層次。
　　3.1.3　網(wǎng)站數(shù)據(jù)的共享性　網(wǎng)站數(shù)據(jù)的共享與否是確定抓取一個(gè)網(wǎng)站的基本保障。所謂網(wǎng)站的共享性就是該網(wǎng)站上的英漢對照語言對是否對外開放并與用戶共享。根據(jù)抓取實(shí)驗(yàn)，絕大多數(shù)網(wǎng)絡(luò)上的英漢對照語言對數(shù)據(jù)都是共享的，并采取與用戶互動的模式促進(jìn)這種共享性。在法律允許的前提下，基于純學(xué)術(shù)的研究目的，根據(jù)網(wǎng)站的共享程度，本文利用不同的技術(shù)對這些共享的數(shù)據(jù)進(jìn)行了各個(gè)層面不同程度的抓取。
　　
　　3.2　抓取網(wǎng)站的確定和基本屬性分析
　　在抓取網(wǎng)站標(biāo)準(zhǔn)的衡量下，本文初步確定了以下的抓取網(wǎng)站：滬江論壇、普特聽力論壇、百度詞典、谷詞、句酷在線翻譯、譯典通、金山在線詞典、海詞、可可聽力網(wǎng)和酷悠網(wǎng)。下面對這些網(wǎng)站的基本信息和英漢對照語言對的資源分布情況進(jìn)行一個(gè)簡單的分析。
　　3.2.1　抓取網(wǎng)站的基本信息抓取網(wǎng)站的基本信息如網(wǎng)址、網(wǎng)站類型等，如表2所示。
　　從表中可以看出，英漢對照語言對資源主要來源于外語學(xué)習(xí)網(wǎng)站，如各種論壇和門戶，少量來自搜索引擎和門戶自帶的輔助工具。
　　3.2.2　抓取網(wǎng)站英漢對照語言對的資源分布情況依據(jù)確定抓取網(wǎng)站的標(biāo)準(zhǔn)，結(jié)合隨機(jī)抽取出的抓取網(wǎng)頁，本部分就抓取網(wǎng)站的語青對資源分布的情況進(jìn)行一個(gè)簡單的分析。數(shù)據(jù)豐富性有“不豐富、豐富、很豐富”三個(gè)級別，分別用“+、++、+++”表示；數(shù)據(jù)優(yōu)質(zhì)性分“一般、優(yōu)質(zhì)、很優(yōu)質(zhì)”三個(gè)級別，分別用“●、●●、●●●”表示；數(shù)據(jù)共享性分“共享性差。共享性一般、共享性好”三個(gè)級別，分別用“★、★★、★★★”表示。具體的分布情況如表3所示。
　　根據(jù)表3可知，近半數(shù)以上網(wǎng)站上的資源都是很豐富的；網(wǎng)站上數(shù)據(jù)的優(yōu)質(zhì)性一般；網(wǎng)絡(luò)的共享性總體上非常好；絕大多數(shù)網(wǎng)站上都可以獲取到詞匯、短語和句子三個(gè)級別的語言對。
　　
　　4　抓取底表的制定
　　
　　抓取底表也就是抓取網(wǎng)頁過程中的種子數(shù)據(jù)，在網(wǎng)頁抓取的過程非常關(guān)鍵，在一定程度上將會決定網(wǎng)頁抓取的速度、多少和質(zhì)量。本文從純學(xué)術(shù)研究的角度出發(fā)，結(jié)合語言研究中數(shù)據(jù)統(tǒng)計(jì)量的需要，基于語料庫和人工內(nèi)省的方法在多次抓取實(shí)驗(yàn)的基礎(chǔ)上制定了抓取底表。
　　
　　4.1　抓取底表制定的流程
　　抓取底表制定的流程主要有基于語料庫統(tǒng)計(jì)詞表、結(jié)合人工內(nèi)省完善統(tǒng)計(jì)詞表和在抓取實(shí)驗(yàn)的基礎(chǔ)上改進(jìn)詞表三個(gè)主要部分組成。
　　4.1.1　基于語料庫統(tǒng)計(jì)詞表　考慮到詞表規(guī)模一定要能夠盡可能多地涵蓋各個(gè)領(lǐng)域，本文在統(tǒng)計(jì)詞頻的過程中使用了BNC(British National Corpus)語料庫，因?yàn)樵撜Z料庫是一個(gè)平衡語料庫，并且規(guī)模達(dá)到了一億詞次，基本上能滿足詞頻統(tǒng)計(jì)的需要。語料庫樣例如下：“ATO>The NNl>need PRP>fflr NN2>vohm―teers PRP>from NN2>churches，AVO>particularlyPRP>in NPO>Indun CJC>and NPO>Scotland PRP>in ATO>the NNl>day-time，VBZ>is ATO>an AVO>cveEAJO>constant PN>one，”。統(tǒng)汁的過程為：①從BNC語料庫中用程序去掉每個(gè)詞的詞性標(biāo)記和其他標(biāo)記并轉(zhuǎn)存到其他文本中；②根據(jù)英語的規(guī)則變換和不規(guī)則變換的特點(diǎn)，編寫英語詞匯形態(tài)變換程序以便于后續(xù)的詞頻統(tǒng)計(jì)；③用哈希表實(shí)現(xiàn)英語詞頻統(tǒng)計(jì)，具體使用c++完成程序設(shè)計(jì)。
　　4.1.2　基于人工內(nèi)省和抓取實(shí)驗(yàn)制定抓取底表　在基于BNC語料庫統(tǒng)計(jì)詞匯表的基礎(chǔ)上，結(jié)合人工內(nèi)省的詞匯表和抓取實(shí)驗(yàn)的具體表現(xiàn)，最終制定抓取底表。具體過程為：①用程序比對統(tǒng)計(jì)方法獲取的詞匯表和人工內(nèi)省確定的詞匯表，進(jìn)而合并兩個(gè)詞匯表；②通過人工核對合并后的詞匯表并增加其他的詞匯，盡可能地?cái)U(kuò)大詞匯表的規(guī)模；③在一定詞匯量基礎(chǔ)上通過逐步增加詞匯的方法來進(jìn)行抓取實(shí)驗(yàn)，觀察當(dāng)詞匯達(dá)到何種數(shù)量的時(shí)候抓取實(shí)驗(yàn)是最理想的，即網(wǎng)頁抓取速度快、數(shù)量多和質(zhì)量高。本文通過上面的三個(gè)階段，制定了一個(gè)含有47 218個(gè)英語詞匯的抓取底表，具體樣例如表4所示。
　　
　　5　基于網(wǎng)絡(luò)抓取工具抓取網(wǎng)頁
　　
　　5.1　具體的抓取工具
　　出于網(wǎng)頁抓取要穩(wěn)定性、跨平臺性的考慮，本文主要使用的抓取工具是Wget’。Wget是一個(gè)在網(wǎng)絡(luò)上進(jìn)行下載的簡單而強(qiáng)大的自由軟件，其本身也是GNU計(jì)劃的一部分。它的名字是World Wide Web和Get的結(jié)合，同時(shí)也隱含了軟件的主要功能。目前它支持通過HTTP、HTTPS以及FTP三個(gè)最常見的TCP/IP協(xié)議下載。該抓取工具有下述優(yōu)點(diǎn)：支持遞歸下載；恰當(dāng)?shù)霓D(zhuǎn)換頁面中的鏈接；生成可在本地瀏覽的頁面鏡像；支持代理服務(wù)器。本文主要是使用該工具來獲取網(wǎng)站服務(wù)器數(shù)據(jù)庫中的英漢對照語言對資源，與其常規(guī)的從FTP和HTTP上直接下載文件有所區(qū)別。
　　
　　5.2　抓取過程以及結(jié)果
　　?把抓取底表中的詞匯與要抓取網(wǎng)站的網(wǎng)址綁定一起來形成抓取列表，構(gòu)成一個(gè)個(gè)的抓取文件。具體的抓取文件生成程序和抓取文件樣例分別如圖2和圖3所示。
　　?根據(jù)具體抓取數(shù)據(jù)的特性，設(shè)置抓取軟件Wget的各種參數(shù)，從而滿足特定的抓取需要。采集參數(shù)配置如圖4所示。
　　?運(yùn)行抓取工具Wset，并根據(jù)各個(gè)網(wǎng)站的共享程度作適當(dāng)?shù)恼{(diào)整，同時(shí)設(shè)置好存儲位置以存放抓取結(jié)果。具體的抓取頁面如圖5所示。
　　在相對精確和適當(dāng)?shù)淖ト〉妆砘A(chǔ)上，結(jié)合高效的抓取工具Wget，本文較成功地完成了對網(wǎng)站含有英漢對照語言對網(wǎng)頁的抓取。總體抓取了含詞語對、短語對、句子對和段落對共1 567 891個(gè)網(wǎng)頁。
　　
　　6　網(wǎng)頁中英漢對照語言對的提取、去重和入庫
　　
　　6.1　英漢對照語言對的提取
　　一方面，根據(jù)不同網(wǎng)頁的標(biāo)記語言特征和語言對在該網(wǎng)頁中的分布特點(diǎn)，總結(jié)提取語言對的規(guī)則；另一方面，在總結(jié)的語言對提取規(guī)則的基礎(chǔ)上，基于c++中的字符串類CString，通過設(shè)計(jì)程序把語言對字符串提取出來并臨時(shí)存儲到文本文件中。
　　
　　6.2　英漢對照語言對的去重
　　由于抓取網(wǎng)頁中存在著大量的重復(fù)頁面并且有些網(wǎng)頁的字符編碼不一致，所以對于提取出來的語言對字符串必須進(jìn)行去重處理和編碼轉(zhuǎn)換。去重的具體算法如下：從英漢對照語言對中取一個(gè)語言對ps，與所有語言對PS(s0，s1，…，sp-1)中的語言對逐個(gè)進(jìn)行相似度計(jì)算，如果存在某一個(gè)句子psj與psj相似度超過設(shè)定的閾值，則psi不能作為一個(gè)新的語言對加入到Ps中，否則將psi添加到Ps中。算法的流程如下：①m=0；②計(jì)算psi和psm的相似度，如果判定相似則退出循環(huán)并輸出，否則轉(zhuǎn)到③；③m=m+1，如果m小于P則轉(zhuǎn)到②，否則轉(zhuǎn)到④；④將psi加入Ps中，p=P+1并退出。
　　根據(jù)英漢對照語言對重復(fù)的具體情況，英漢對照詞匯對、短語對、句子對和段落對去重的閾值分別設(shè)置為1.00、0.90、0.85、0.80。為了解決編碼不一致性的問題，去重后的語言對統(tǒng)一以UTF-8編碼的方式存儲。經(jīng)過去重和編碼轉(zhuǎn)換，本文共獲取了856 480對英漢對照詞匯對、76 7892對英漢對照短語對、687 654對英漢對照句子對、56 786對英漢對照段落對。
　　
　　6.3　英漢對照語言對的入庫
　　考慮到語言對的數(shù)據(jù)規(guī)模比較大以及后續(xù)加工的需要，本文選擇了MySQL數(shù)據(jù)庫來存儲語言對。之所以要選擇MySQL數(shù)據(jù)庫，是因?yàn)槠溆邢旅鎺讉€(gè)特點(diǎn)：可以運(yùn)行在不同的操作系統(tǒng)系上，可移植性強(qiáng)；有安全權(quán)限和加密口令，安全性能好；支持上千萬條記錄的存儲，數(shù)據(jù)存儲量大。語言對在MySQL數(shù)據(jù)庫中的存儲樣例如圖6和圖7所示。
　　
　　7　結(jié)　語
　　
　　本文針對特定的網(wǎng)站，在規(guī)模適當(dāng)?shù)淖ト〉妆砘A(chǔ)上，使用抓取工具獲取了一定規(guī)模的網(wǎng)頁。在抓取網(wǎng)頁的基礎(chǔ)上，本文從網(wǎng)頁中獲取了一定規(guī)模的英漢對照詞匯對、短語對、句子對和段落對等語言對，初步構(gòu)建了涵蓋語義、語法和語用三個(gè)平面的英漢對照語言對資源。下一步將擴(kuò)大網(wǎng)頁抓取的范圍，增加英漢對照語言對的規(guī)模，同時(shí)開發(fā)輔助校對工具對抓取的英漢對照語言對資源進(jìn)行人工校對，進(jìn)而提高語言對資源的質(zhì)量。

相關(guān)熱詞搜索：獲取語言英漢對照英漢對照語言對自動獲取英漢對比法律語言學(xué) 自動化專業(yè)英語中英文對照

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.newchangjing.com