英漢對照語言對自動獲取_html獲取語言
發(fā)布時間:2020-03-10 來源: 歷史回眸 點擊:
[摘要]首先,在基于語料庫統(tǒng)計和人工內(nèi)省的語言知識基礎上制定抓取底表,使用抓取工具Wget從網(wǎng)絡上抓取含有英漢對照語言對的網(wǎng)頁。其次,通過程序從抓取兩頁中提取英漢對照語言對,對獲取的英漢對照語言對進行后續(xù)整理,如去重、格式轉(zhuǎn)換等。最后,把英漢對照語言對存入到數(shù)據(jù)庫中。
[關鍵詞]英漢對照語言對 Wget 底表 MySQL數(shù)據(jù)庫
[分類號]TP391
1 引言
英漢對照語言對的獲取無論是對跨語言檢索研究的開展,還是對輔助機器翻譯和機器翻譯系統(tǒng)的開發(fā),都具有十分重要的意義:有助于跨語言檢索自動衍生英漢雙語詞表和潛語義自動標注;可以為輔助機器翻譯和機器翻譯系統(tǒng)的開發(fā)提供基本的語法、語義和語用素材;同時也有助于英漢雙語相關知識庫的構(gòu)建。由于受資金、技術(shù)以及人力等現(xiàn)實條件的限制,目前能被使用的英漢對照語言對不是規(guī)模太小就是對齊質(zhì)量不能令人滿意。以豐富的用戶體驗和互聯(lián)網(wǎng)作為平臺特征的Web2.0的迅速發(fā)展使得互聯(lián)網(wǎng)上充斥著各種各樣的信息資源,其中分布廣泛和數(shù)量龐大的英漢對照語言對資源就是其中的一種。
隨著文本挖掘和網(wǎng)頁抓取技術(shù)的迅速發(fā)展,基于網(wǎng)絡的英漢對照語言對自動獲取越來越受到研究者的關注。葉莎妮等利用URL命名相似性獲取雙語候選網(wǎng)頁自動發(fā)現(xiàn)命名規(guī)律,從而獲取更多可靠的雙語候選網(wǎng)頁,同時側(cè)重雙語句對之間的互翻譯性,有效地提高了雙語平行句對抽取的召回率和準確率。該研究僅僅獲取了句子對,對于詞匯對、短語和段落對則沒有涉及,同時也沒有對句子對進行去重。吳琳等利用歐洲專利局的URL命名特點獲取專利英文著錄信息的詳細網(wǎng)頁實現(xiàn)網(wǎng)頁的批量下載,采用正則匹配表達式提取出網(wǎng)頁上的專利英文著錄信息,與中文著錄數(shù)據(jù)合并后存入數(shù)據(jù)庫中。該文主要是獲取專利領域的英漢對照語言對,對于其他領域和通用的英漢對照語言對則沒有涉及。程嵐嵐提出了一種使用正則表達式的術(shù)語對抽取方法,在獲取網(wǎng)頁源文件的基礎上,依據(jù)已定義的正則表達式從中抽取出正確的術(shù)語對。該方法的可移植性相對比較差,沒有獲取較復雜的短語對和句子對。張永臣等;趶木W(wǎng)絡中獲取的非平行英漢語料,提出了利用詞間關系矩陣法從特定領域非平行語料中抽取雙語詞典的方法。由于種子詞對英漢對照詞匯對的抽取影響較大,獲取的英漢對照詞匯對質(zhì)量并不高。
在前人研究的基礎上,本文基于網(wǎng)絡抓取工具,從擁有海量信息的網(wǎng)絡上抓取了大量的網(wǎng)頁,然后基于抽取程序,結(jié)合人工的語言學內(nèi)省,初步構(gòu)建了一個大規(guī)模的英漢對照詞匯對、短語對、句子對和段落對數(shù)據(jù)庫,其中句子對和段落對數(shù)據(jù)庫可以初步構(gòu)成一個英漢對照語言對語料庫。
2 英漢對照語言對獲取的基本流程
根據(jù)獲取英漢對照語言對實驗數(shù)據(jù)總結(jié)的經(jīng)驗,一個完整的獲取英漢對照語言對的流程大致包括:
?確定抓取的網(wǎng)站。根據(jù)具體的研究需要和網(wǎng)絡資源隨機調(diào)查,初步確定所抓取網(wǎng)站。
?制定抓取詞匯底表;诖笠(guī)模語料庫的統(tǒng)計數(shù)據(jù)結(jié)合通過人工內(nèi)省的方法增加相應的詞匯知識,確定具體的抓取詞匯底表。
?利用網(wǎng)絡抓取工具自動獲取含有英漢對照語言對資源的網(wǎng)頁。在自動抓取的過程中,根據(jù)具體的抓取需要適當添加一些人工干預。
?英漢對照語言對的提取、去重和入庫。從大規(guī)模網(wǎng)頁中提取英漢對照語言對,在去重的基礎上把英漢對照語言對自動存儲到數(shù)據(jù)庫中。
上面的基本流程如圖1所示。
3 獲取英漢對照語言對網(wǎng)站的確定
在確定抓取英漢對照語言對網(wǎng)站的過程中,主要考慮兩個方面的問題:
3.1 抓取網(wǎng)站確定的標準
在確定抓取網(wǎng)站的標準上面,本文主要考慮三個方面,即網(wǎng)站數(shù)據(jù)的豐富性、優(yōu)質(zhì)性和共享性。
3.1.1 網(wǎng)站數(shù)據(jù)的豐富性網(wǎng)站數(shù)據(jù)是否豐富是確定抓取網(wǎng)站的一個基本指標。所謂網(wǎng)站數(shù)據(jù)的豐富性是指該網(wǎng)站上存在一定量的英漢對照語言對,并且語言對中一定要有短語對、句子對或段落對。筆者在確定網(wǎng)站資源豐富與否的過程中,結(jié)合大量的抓取實驗,針對不同的語言對制定了一個初步的量化標準,具體如表1所示。
本文抓取過程中選定的網(wǎng)站基本上是根據(jù)表1中的量化指標確定的,但有時會根據(jù)語言對的具體數(shù)量作出一定調(diào)整,但不會與表1中的量化指標出人太大。
3.1.2 網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性 網(wǎng)站數(shù)據(jù)是否優(yōu)質(zhì)是確定抓取網(wǎng)站的一個關鍵問題。所謂網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性是指網(wǎng)站上的英漢對照語言對是否符合標準漢英/英漢語言學的表達。根據(jù)翻譯學對語言翻譯質(zhì)量信、達、雅的衡量標準,網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性大致可以分成“一般、較好、很好”三個層次。在具體確定網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)性層次上,根據(jù)隨機從網(wǎng)站上獲取數(shù)據(jù)的質(zhì)量,結(jié)合漢語和英語語言學家的內(nèi)省最終確定該網(wǎng)站數(shù)據(jù)的優(yōu)質(zhì)層次。
3.1.3 網(wǎng)站數(shù)據(jù)的共享性 網(wǎng)站數(shù)據(jù)的共享與否是確定抓取一個網(wǎng)站的基本保障。所謂網(wǎng)站的共享性就是該網(wǎng)站上的英漢對照語言對是否對外開放并與用戶共享。根據(jù)抓取實驗,絕大多數(shù)網(wǎng)絡上的英漢對照語言對數(shù)據(jù)都是共享的,并采取與用戶互動的模式促進這種共享性。在法律允許的前提下,基于純學術(shù)的研究目的,根據(jù)網(wǎng)站的共享程度,本文利用不同的技術(shù)對這些共享的數(shù)據(jù)進行了各個層面不同程度的抓取。
3.2 抓取網(wǎng)站的確定和基本屬性分析
在抓取網(wǎng)站標準的衡量下,本文初步確定了以下的抓取網(wǎng)站:滬江論壇、普特聽力論壇、百度詞典、谷詞、句酷在線翻譯、譯典通、金山在線詞典、海詞、可可聽力網(wǎng)和酷悠網(wǎng)。下面對這些網(wǎng)站的基本信息和英漢對照語言對的資源分布情況進行一個簡單的分析。
3.2.1 抓取網(wǎng)站的基本信息抓取網(wǎng)站的基本信息如網(wǎng)址、網(wǎng)站類型等,如表2所示。
從表中可以看出,英漢對照語言對資源主要來源于外語學習網(wǎng)站,如各種論壇和門戶,少量來自搜索引擎和門戶自帶的輔助工具。
3.2.2 抓取網(wǎng)站英漢對照語言對的資源分布情況依據(jù)確定抓取網(wǎng)站的標準,結(jié)合隨機抽取出的抓取網(wǎng)頁,本部分就抓取網(wǎng)站的語青對資源分布的情況進行一個簡單的分析。數(shù)據(jù)豐富性有“不豐富、豐富、很豐富”三個級別,分別用“+、++、+++”表示;數(shù)據(jù)優(yōu)質(zhì)性分“一般、優(yōu)質(zhì)、很優(yōu)質(zhì)”三個級別,分別用“●、●●、●●●”表示;數(shù)據(jù)共享性分“共享性差。共享性一般、共享性好”三個級別,分別用“★、★★、★★★”表示。具體的分布情況如表3所示。
根據(jù)表3可知,近半數(shù)以上網(wǎng)站上的資源都是很豐富的;網(wǎng)站上數(shù)據(jù)的優(yōu)質(zhì)性一般;網(wǎng)絡的共享性總體上非常好;絕大多數(shù)網(wǎng)站上都可以獲取到詞匯、短語和句子三個級別的語言對。
4 抓取底表的制定
抓取底表也就是抓取網(wǎng)頁過程中的種子數(shù)據(jù),在網(wǎng)頁抓取的過程非常關鍵,在一定程度上將會決定網(wǎng)頁抓取的速度、多少和質(zhì)量。本文從純學術(shù)研究的角度出發(fā),結(jié)合語言研究中數(shù)據(jù)統(tǒng)計量的需要,基于語料 庫和人工內(nèi)省的方法在多次抓取實驗的基礎上制定了抓取底表。
4.1 抓取底表制定的流程
抓取底表制定的流程主要有基于語料庫統(tǒng)計詞表、結(jié)合人工內(nèi)省完善統(tǒng)計詞表和在抓取實驗的基礎上改進詞表三個主要部分組成。
4.1.1 基于語料庫統(tǒng)計詞表 考慮到詞表規(guī)模一定要能夠盡可能多地涵蓋各個領域,本文在統(tǒng)計詞頻的過程中使用了BNC(British National Corpus)語料庫,因為該語料庫是一個平衡語料庫,并且規(guī)模達到了一億詞次,基本上能滿足詞頻統(tǒng)計的需要。語料庫樣例如下:“ATO>The NNl>need PRP>fflr NN2>vohm―teers PRP>from NN2>churches,AVO>particularlyPRP>in NPO>Indun CJC>and NPO>Scotland PRP>in ATO>the NNl>day-time,VBZ>is ATO>an AVO>cveEAJO>constant PN>one,”。統(tǒng)汁的過程為:①從BNC語料庫中用程序去掉每個詞的詞性標記和其他標記并轉(zhuǎn)存到其他文本中;②根據(jù)英語的規(guī)則變換和不規(guī)則變換的特點,編寫英語詞匯形態(tài)變換程序以便于后續(xù)的詞頻統(tǒng)計;③用哈希表實現(xiàn)英語詞頻統(tǒng)計,具體使用c++完成程序設計。
4.1.2 基于人工內(nèi)省和抓取實驗制定抓取底表 在基于BNC語料庫統(tǒng)計詞匯表的基礎上,結(jié)合人工內(nèi)省的詞匯表和抓取實驗的具體表現(xiàn),最終制定抓取底表。具體過程為:①用程序比對統(tǒng)計方法獲取的詞匯表和人工內(nèi)省確定的詞匯表,進而合并兩個詞匯表;②通過人工核對合并后的詞匯表并增加其他的詞匯,盡可能地擴大詞匯表的規(guī)模;③在一定詞匯量基礎上通過逐步增加詞匯的方法來進行抓取實驗,觀察當詞匯達到何種數(shù)量的時候抓取實驗是最理想的,即網(wǎng)頁抓取速度快、數(shù)量多和質(zhì)量高。本文通過上面的三個階段,制定了一個含有47 218個英語詞匯的抓取底表,具體樣例如表4所示。
5 基于網(wǎng)絡抓取工具抓取網(wǎng)頁
5.1 具體的抓取工具
出于網(wǎng)頁抓取要穩(wěn)定性、跨平臺性的考慮,本文主要使用的抓取工具是Wget’。Wget是一個在網(wǎng)絡上進行下載的簡單而強大的自由軟件,其本身也是GNU計劃的一部分。它的名字是World Wide Web和Get的結(jié)合,同時也隱含了軟件的主要功能。目前它支持通過HTTP、HTTPS以及FTP三個最常見的TCP/IP協(xié)議下載。該抓取工具有下述優(yōu)點:支持遞歸下載;恰當?shù)霓D(zhuǎn)換頁面中的鏈接;生成可在本地瀏覽的頁面鏡像;支持代理服務器。本文主要是使用該工具來獲取網(wǎng)站服務器數(shù)據(jù)庫中的英漢對照語言對資源,與其常規(guī)的從FTP和HTTP上直接下載文件有所區(qū)別。
5.2 抓取過程以及結(jié)果
?把抓取底表中的詞匯與要抓取網(wǎng)站的網(wǎng)址綁定一起來形成抓取列表,構(gòu)成一個個的抓取文件。具體的抓取文件生成程序和抓取文件樣例分別如圖2和圖3所示。
?根據(jù)具體抓取數(shù)據(jù)的特性,設置抓取軟件Wget的各種參數(shù),從而滿足特定的抓取需要。采集參數(shù)配置如圖4所示。
?運行抓取工具Wset,并根據(jù)各個網(wǎng)站的共享程度作適當?shù)恼{(diào)整,同時設置好存儲位置以存放抓取結(jié)果。具體的抓取頁面如圖5所示。
在相對精確和適當?shù)淖ト〉妆砘A上,結(jié)合高效的抓取工具Wget,本文較成功地完成了對網(wǎng)站含有英漢對照語言對網(wǎng)頁的抓取。總體抓取了含詞語對、短語對、句子對和段落對共1 567 891個網(wǎng)頁。
6 網(wǎng)頁中英漢對照語言對的提取、去重和入庫
6.1 英漢對照語言對的提取
一方面,根據(jù)不同網(wǎng)頁的標記語言特征和語言對在該網(wǎng)頁中的分布特點,總結(jié)提取語言對的規(guī)則;另一方面,在總結(jié)的語言對提取規(guī)則的基礎上,基于c++中的字符串類CString,通過設計程序把語言對字符串提取出來并臨時存儲到文本文件中。
6.2 英漢對照語言對的去重
由于抓取網(wǎng)頁中存在著大量的重復頁面并且有些網(wǎng)頁的字符編碼不一致,所以對于提取出來的語言對字符串必須進行去重處理和編碼轉(zhuǎn)換。去重的具體算法如下:從英漢對照語言對中取一個語言對ps,與所有語言對PS(s0,s1,…,sp-1)中的語言對逐個進行相似度計算,如果存在某一個句子psj與psj相似度超過設定的閾值,則psi不能作為一個新的語言對加入到Ps中,否則將psi添加到Ps中。算法的流程如下:①m=0;②計算psi和psm的相似度,如果判定相似則退出循環(huán)并輸出,否則轉(zhuǎn)到③;③m=m+1,如果m小于P則轉(zhuǎn)到②,否則轉(zhuǎn)到④;④將psi加入Ps中,p=P+1并退出。
根據(jù)英漢對照語言對重復的具體情況,英漢對照詞匯對、短語對、句子對和段落對去重的閾值分別設置為1.00、0.90、0.85、0.80。為了解決編碼不一致性的問題,去重后的語言對統(tǒng)一以UTF-8編碼的方式存儲。經(jīng)過去重和編碼轉(zhuǎn)換,本文共獲取了856 480對英漢對照詞匯對、76 7892對英漢對照短語對、687 654對英漢對照句子對、56 786對英漢對照段落對。
6.3 英漢對照語言對的入庫
考慮到語言對的數(shù)據(jù)規(guī)模比較大以及后續(xù)加工的需要,本文選擇了MySQL數(shù)據(jù)庫來存儲語言對。之所以要選擇MySQL數(shù)據(jù)庫,是因為其有下面幾個特點:可以運行在不同的操作系統(tǒng)系上,可移植性強;有安全權(quán)限和加密口令,安全性能好;支持上千萬條記錄的存儲,數(shù)據(jù)存儲量大。語言對在MySQL數(shù)據(jù)庫中的存儲樣例如圖6和圖7所示。
7 結(jié) 語
本文針對特定的網(wǎng)站,在規(guī)模適當?shù)淖ト〉妆砘A上,使用抓取工具獲取了一定規(guī)模的網(wǎng)頁。在抓取網(wǎng)頁的基礎上,本文從網(wǎng)頁中獲取了一定規(guī)模的英漢對照詞匯對、短語對、句子對和段落對等語言對,初步構(gòu)建了涵蓋語義、語法和語用三個平面的英漢對照語言對資源。下一步將擴大網(wǎng)頁抓取的范圍,增加英漢對照語言對的規(guī)模,同時開發(fā)輔助校對工具對抓取的英漢對照語言對資源進行人工校對,進而提高語言對資源的質(zhì)量。
相關熱詞搜索:獲取 語言 英漢對照 英漢對照語言對自動獲取 英漢對比法律語言學 自動化專業(yè)英語中英文對照
熱點文章閱讀