關(guān)鍵詞語料庫_基于分類標注語料庫的關(guān)鍵詞標引知識自動獲取
發(fā)布時間:2020-03-07 來源: 人生感悟 點擊:
〔摘要〕基于大規(guī)模層級分類語料庫,抽取網(wǎng)頁上專家已經(jīng)標引的關(guān)鍵詞形成關(guān)鍵詞表;針對關(guān)鍵詞的領(lǐng)域不均勻性和鄰界域兩個特征,提出并模擬計算了關(guān)鍵詞表征文本主題特征程度的主題度。以關(guān)鍵詞及其主題度為領(lǐng)域知識,結(jié)合統(tǒng)計方法,完成了一個知識與統(tǒng)計相結(jié)合的關(guān)鍵詞自動標引系統(tǒng)。
〔關(guān)鍵詞〕關(guān)鍵詞標引 分類語料庫 主題度
〔分類號〕G254.361 TP391.1
Knowledge Repository Acquire for Keywords Auto-Indexing System Based on Labeled and Classed Corpus
Liu Hua
College of Chinese Language and Culture of Jinan University, Guangzhou510610
〔Abstract〕From a classed large-scale corpus, extracts keywords labeled on web pages by indexing specialist and formed a keywords list; Referring to the two characteristics of keywords: fields non-even and exists range edge, brought up and calculated the words" subject degree by statistical model.Subject degree expresses text content" s subject concept. Based on subject degree, constructed a key words auto-indexing system.
〔Keywords〕keywords indexing classed corpus subject degree
1關(guān)鍵詞標引知識
關(guān)鍵詞自動標引根據(jù)文檔的主題內(nèi)容,借助計算機處理技術(shù),自動從文檔中直接抽取關(guān)鍵詞作為標引詞。關(guān)鍵詞自動標引可分為兩種:基于知識的和基于統(tǒng)計的;谥R的關(guān)鍵詞標引通常見于圖書館文獻標引領(lǐng)域,主要基于已有的標引資源,如《漢語主題詞語表》、《中國分類詞語表》及其復(fù)分表以及各?菩灾黝}標引手冊等,利用文獻標引規(guī)則,由專家手工標引;诮y(tǒng)計的主題詞標引主要借助于數(shù)據(jù)挖掘和機器學習的統(tǒng)計算法實現(xiàn),如馬爾可夫統(tǒng)計模型和互信息、最大熵模型等。
關(guān)鍵詞自動標引的任務(wù)包括:①文檔表示為怎樣的詞語集合作為關(guān)鍵詞候選項 ;②依據(jù)什么標準選出候選項作為關(guān)鍵詞。
因此,關(guān)鍵詞自動標引需要的領(lǐng)域知識主要包括:關(guān)鍵詞候選項、表示詞語主題象征性能力的某種強度或權(quán)重。
本文基于大規(guī)模層級分類標注語料庫,抽取網(wǎng)頁上專家已經(jīng)標引的關(guān)鍵詞形成超大詞語表;針對關(guān)鍵詞的領(lǐng)域不均勻性和鄰界域兩個特征,提出并模擬計算了關(guān)鍵詞表征文本主題特征程度的主題度。
2基于語料庫的關(guān)鍵詞標注知識獲取
2.1專家標引的網(wǎng)頁關(guān)鍵詞獲取
在構(gòu)建文本分類和主題詞標引系統(tǒng)時,我們建立了一個超大規(guī)模的語料庫。語料來自幾個門戶網(wǎng)站,時間跨度為3年(2003-2005),共約60萬個網(wǎng)頁,6億字。對60萬個網(wǎng)頁提取出詳細的語料信息,如標題、欄目、關(guān)鍵詞、時間、同主題鏈接標題和正文。
同時,我們通過對4個門戶網(wǎng)站、3個搜索引擎和13個主流報紙網(wǎng)站的欄目分類體系和傳統(tǒng)分類體系的對比研究,使用同名欄目去重、相似欄目合并、異名同類欄目映射、子類欄目提煉上升等手段,最終在總結(jié)各大網(wǎng)站欄目共性的基礎(chǔ)上,重點考慮“主題劃分”、“生活優(yōu)先”的原則,歸納出一個網(wǎng)頁分類用類目體系。該體系分15個大類,層級類別最深為4級,如“科技_數(shù)碼_視頻_數(shù)字電視”,類目總共244個。
將語料庫的網(wǎng)頁欄目和已建立的網(wǎng)頁分類體系進行映射,最終,形成以XML格式存儲的詳細標注語料屬性的層級分類語料庫。
語料庫信息匯總見表1(僅列舉大類):
在網(wǎng)頁信息提取時,我們發(fā)現(xiàn)很多網(wǎng)頁已經(jīng)人工標引了關(guān)鍵詞。關(guān)鍵詞往往標引在標題下面,是那些具有文本主題表示功能的詞語。關(guān)鍵詞是對一個網(wǎng)頁的主題進行描述的關(guān)鍵性詞語,一般一個網(wǎng)頁約兩三個關(guān)鍵詞。例如一篇題為《中國民航總局解禁“紅眼航班” 消費者喜聞樂見》的網(wǎng)頁,其關(guān)鍵詞為“民航、紅眼航班”。這些關(guān)鍵詞都是網(wǎng)站主題標引專家長期積累下來的集體智慧,是我們基于知識的標引系統(tǒng)非常珍貴的專家資源,不僅為我們的關(guān)鍵詞標引詞表提供了來源,也為我們進行的文本分類和主題詞標引提供了很好的訓(xùn)練和測試語料。
我們在上文建立的超大規(guī)模分類語料庫中抽取出其中已標注的關(guān)鍵詞,總共獲得229 237個詞條(去重后),按網(wǎng)頁的主題屬性存儲進詞表,形成15個大類的領(lǐng)域關(guān)鍵詞詞表和244個小類的領(lǐng)域關(guān)鍵詞詞表。
表2是科技、經(jīng)濟、藝術(shù)、汽車、體育、旅游、教育抽取的7類關(guān)鍵詞舉例。
2.2關(guān)鍵詞主題度計算
在情報學上,關(guān)鍵詞是指在論文標題、摘要或正文中,用以標識和表達文檔主題概念的詞語。關(guān)鍵詞的主要特征是主題性:關(guān)鍵詞揭示的是文檔最核心的內(nèi)容,關(guān)鍵詞能高度概括和代表整個文檔的基本內(nèi)容,是文檔的靈魂。
戴璞認為“關(guān)鍵詞表達主題概念時能準確地表達事物的本質(zhì)屬性”;王明燕認為“關(guān)鍵詞是用以表示文章主題、內(nèi)容、信息、款目的單詞或術(shù)語,是反映文章內(nèi)容的名詞性術(shù)語,對文章內(nèi)容具有實質(zhì)性意義的詞或詞組,是表達文獻主題概念的自然語言詞匯”;楊一瓊認為關(guān)鍵詞的主要特征是“主題性:關(guān)鍵詞揭示的是學術(shù)論文最核心的內(nèi)容,是文章最基本的學術(shù)思想、技術(shù)方法的提煉與概括,具有鮮明的主題色彩,讀者只要分析一下關(guān)鍵詞,就可大致研判論文的學科類別、主題內(nèi)容及可能提供的信息量”。
因此,我們引入了主題度概念來表示一個詞語對文檔主題概念的表征程度。主題度,是指在文本表示時,將文本的主題特征(例如主題概念、核心內(nèi)容、中心思想等)鮮明地表示出來的程度。例如,常見的虛詞性成分(如“總而言之”)的文本主題表示功能較弱,主題度弱;而一些領(lǐng)域性強的體詞性成分(如“封閉式基金”)則文本主題表示功能較強,主題度強。
標引的關(guān)鍵詞應(yīng)該主題度高,這就需要在權(quán)重計算時不僅降低常用詞,而且應(yīng)該凸顯主題特征明顯的詞語。通常的關(guān)鍵詞標引特別是基于詞串統(tǒng)計的關(guān)鍵詞標引方法,最大的問題在于流于簡單的詞頻統(tǒng)計,往往過分突出了詞頻的影響。我們在構(gòu)建的大規(guī)模分類語料庫中進行詞語的主題度訓(xùn)練,獲得了每一詞語的主題度。
戈夫曼提出,文獻詞匯的分布由高頻轉(zhuǎn)向低頻時,可能存在著一個鄰界域,由于高頻詞多為功能詞,低頻詞在很低程度上是作者用詞特點的反映,只有處于鄰界域內(nèi)的詞才真正表達文獻的主題內(nèi)容,這些詞經(jīng)過停用詞表的刪除最適合做標引詞。對已經(jīng)專家標引的關(guān)鍵詞作進一步分析,我們發(fā)現(xiàn)關(guān)鍵詞通常偏向于專業(yè)領(lǐng)域里的術(shù)語性較強的詞語,大多就是術(shù)語。術(shù)語是專業(yè)領(lǐng)域中概念的語言指稱,其主要特征也是主題性,關(guān)鍵詞的主題度就是術(shù)語主題性特征的反映。
因此,我們認為關(guān)鍵詞主題度的本質(zhì)在于其領(lǐng)域分布的不均勻性,關(guān)鍵詞與領(lǐng)域類別密切相關(guān),是某一領(lǐng)域中具有一定頻次的(鄰界域內(nèi))區(qū)別于其他領(lǐng)域內(nèi)容特征的體詞性成分。從表2例舉的關(guān)鍵詞中,我們也可以發(fā)現(xiàn)這點。
基于關(guān)鍵詞的領(lǐng)域不均勻性(主題表征性)和鄰界域的考慮,我們?yōu)殛P(guān)鍵詞的主題度獲取設(shè)計了形式化的計算模型(陳克利,2003):
方差是體現(xiàn)數(shù)據(jù)分布是否均勻的很好的數(shù)學指標,但從方差公式中可以看出,方差大小又受到詞頻大小的影響,為了消除此影響(因為詞頻因素將通過測試時被標注文檔的詞頻來體現(xiàn),方差需要的只是訓(xùn)練時詞頻之間的差異性表示),我們用方差除以該詞在各類中詞頻之和來表示關(guān)鍵詞在不同類之間的分布差異性。
這是對領(lǐng)域性不均勻性(主題表征性)的數(shù)學模擬,對關(guān)鍵詞鄰界域的性質(zhì)則通過〔log(N(wi)/N)〕2來模擬表示,含義為:總訓(xùn)練語料中出現(xiàn)次數(shù)相對較少的關(guān)鍵詞其權(quán)重相對較高。為削弱兩頭高低頻次的過分影響,拉近高頻與低頻詞語的頻率距離,突出頻率鄰界域中的詞語,采用對數(shù)后平方的方法進行詞語頻率的平滑。這就避免了大量高頻的功能性虛詞(如“的、了、在、我”,等等)和低頻的個性化詞語(一些非常見的數(shù)字字母串、書面語、古語、方言詞,如“TODS、殘日、稟陳、圍嘴兒”)的出現(xiàn),同時又照顧到中低頻的術(shù)語詞語。當然,關(guān)鍵詞在總語料中的出現(xiàn)次數(shù)并不能完全說明該詞在標引中的重要性,頻率相同的關(guān)鍵詞在標引中的重要性是不同的:在各類之間分布越均勻,其重要性越小,主題度越低,反之亦然。這就是我們將兩者結(jié)合起來(相乘)模擬表示主題度的原因。
詞頻統(tǒng)計后,進行權(quán)重計算,計算公式如下:
T(wi) = Fw×nZtd(wi)
其中T(wi)表示詞語wi的權(quán)重,F(xiàn)w表示詞語w的頻率,n>=1,可自由設(shè)置,這里n=3。如果某詞語,如新的數(shù)字字母串(切分時遺留的),不在詞語表中,則沒有主題度?紤]到許多數(shù)字字母串也可能是關(guān)鍵詞,如“3721、Windows XP”等,因此權(quán)重計算時將其主題度設(shè)為350(所有詞語表中詞語主題度的均值高一點)。
表3是詞語主題度計算后主題度最低的前40個詞語。
3基于領(lǐng)域知識的關(guān)鍵詞自動標引實現(xiàn)
基于上文獲得的領(lǐng)域知識,我們完成了一個關(guān)鍵詞自動標引系統(tǒng)[8]。系統(tǒng)針對非學術(shù)性的中文文章自動標引關(guān)鍵詞。如一篇題為《微軟昨反訴歐盟 歷史上最大反壟斷官司再次升級》的文章,系統(tǒng)處理后,輸出標引結(jié)果為“微軟、歐盟、反壟斷”。
測試集共105個XML文件,其中經(jīng)濟、科技類文檔約占一半。測試時,針對幾個測試點,兩人分別對105個文件進行人工打分,打分時對每一測試點分別打分。然后,對每一測試點計算其平均分,列表如下:
最后,計算各測試點的綜合平均得分,約為8.08。
參考文獻:
[1] 劉華.關(guān)鍵詞自動標引系統(tǒng)實現(xiàn).現(xiàn)代圖書情報技術(shù),2006(2):88-90.
[2] 劉華.網(wǎng)頁信息抽取及建庫系統(tǒng)C#實現(xiàn).計算機工程,2006,32(16):49-51.
[3] 葉志清,劉端紅,袁慶等.文獻信息計算機全文全自動標引方法.情報學報,2003,22(2):169-172.
[4] 楊文峰,李星.基于PAT-TREE統(tǒng)計語言模型與關(guān)鍵詞自動提取.計算機工程與應(yīng)用,2001,(15):17-20.
[5] 吳春玉.中文全文檢索系統(tǒng)中實現(xiàn)主題詞標引思路.情報雜志,2005(1):115-117.
[6] 李素建.關(guān)鍵詞自動標引的最大熵模型應(yīng)用研究.計算機學報,2004,7(9):1192-1197.
[7] 陳克利.基于大規(guī)模真實文本的平衡語料分析與文本分類方法[C]//孫茂松.Advances in Computation of Oriental Languages.北京:清華大學出版社,2003:540-545.
[8] 主題詞自動標引在線演示地址.[2007-04-25].http://www.省略/class_demo.aspx.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文!
相關(guān)熱詞搜索:標引 語料庫 標注 基于分類標注語料庫的關(guān)鍵詞標引知識自動獲取 開淘寶怎么做優(yōu)化推廣 搜索引擎排名優(yōu)化
熱點文章閱讀