东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

<pre id="rsfhx"><tt id="rsfhx"></tt></pre>

<kbd id="rsfhx"></kbd>

<button id="rsfhx"><tbody id="rsfhx"></tbody></button>

<samp id="rsfhx"></samp>

人生感悟 蒲公英文摘 > 人生感悟 >

關(guān)鍵詞語料庫_基于分類標注語料庫的關(guān)鍵詞標引知識自動獲取

發(fā)布時間:2020-03-07 來源: 人生感悟點擊：

　　〔摘要〕基于大規(guī)模層級分類語料庫，抽取網(wǎng)頁上專家已經(jīng)標引的關(guān)鍵詞形成關(guān)鍵詞表;針對關(guān)鍵詞的領(lǐng)域不均勻性和鄰界域兩個特征，提出并模擬計算了關(guān)鍵詞表征文本主題特征程度的主題度。以關(guān)鍵詞及其主題度為領(lǐng)域知識，結(jié)合統(tǒng)計方法，完成了一個知識與統(tǒng)計相結(jié)合的關(guān)鍵詞自動標引系統(tǒng)。
　　〔關(guān)鍵詞〕關(guān)鍵詞標引分類語料庫主題度
　　〔分類號〕G254.361 TP391.1
　　
　　Knowledge Repository Acquire for Keywords Auto-Indexing System Based on Labeled and Classed Corpus
　　Liu Hua
　　College of Chinese Language and Culture of Jinan University, Guangzhou510610
　　〔Abstract〕From a classed large-scale corpus, extracts keywords labeled on web pages by indexing specialist and formed a keywords list; Referring to the two characteristics of keywords: fields non-even and exists range edge, brought up and calculated the words" subject degree by statistical model.Subject degree expresses text content" s subject concept. Based on subject degree, constructed a key words auto-indexing system.
　　〔Keywords〕keywords indexing classed corpus subject degree
　　
　　1關(guān)鍵詞標引知識
　　
　　關(guān)鍵詞自動標引根據(jù)文檔的主題內(nèi)容，借助計算機處理技術(shù)，自動從文檔中直接抽取關(guān)鍵詞作為標引詞。關(guān)鍵詞自動標引可分為兩種：基于知識的和基于統(tǒng)計的�；谥R的關(guān)鍵詞標引通常見于圖書館文獻標引領(lǐng)域，主要基于已有的標引資源，如《漢語主題詞語表》、《中國分類詞語表》及其復(fù)分表以及各�？菩灾黝}標引手冊等，利用文獻標引規(guī)則，由專家手工標引�；诮y(tǒng)計的主題詞標引主要借助于數(shù)據(jù)挖掘和機器學習的統(tǒng)計算法實現(xiàn)，如馬爾可夫統(tǒng)計模型和互信息、最大熵模型等。
　　關(guān)鍵詞自動標引的任務(wù)包括:①文檔表示為怎樣的詞語集合作為關(guān)鍵詞候選項 ;②依據(jù)什么標準選出候選項作為關(guān)鍵詞。
　　因此，關(guān)鍵詞自動標引需要的領(lǐng)域知識主要包括:關(guān)鍵詞候選項、表示詞語主題象征性能力的某種強度或權(quán)重。
　　本文基于大規(guī)模層級分類標注語料庫，抽取網(wǎng)頁上專家已經(jīng)標引的關(guān)鍵詞形成超大詞語表;針對關(guān)鍵詞的領(lǐng)域不均勻性和鄰界域兩個特征，提出并模擬計算了關(guān)鍵詞表征文本主題特征程度的主題度。
　　
　　2基于語料庫的關(guān)鍵詞標注知識獲取
　　
　　2.1專家標引的網(wǎng)頁關(guān)鍵詞獲取
　　在構(gòu)建文本分類和主題詞標引系統(tǒng)時，我們建立了一個超大規(guī)模的語料庫。語料來自幾個門戶網(wǎng)站，時間跨度為3年(2003-2005)，共約60萬個網(wǎng)頁，6億字。對60萬個網(wǎng)頁提取出詳細的語料信息，如標題、欄目、關(guān)鍵詞、時間、同主題鏈接標題和正文。
　　同時，我們通過對4個門戶網(wǎng)站、3個搜索引擎和13個主流報紙網(wǎng)站的欄目分類體系和傳統(tǒng)分類體系的對比研究，使用同名欄目去重、相似欄目合并、異名同類欄目映射、子類欄目提煉上升等手段，最終在總結(jié)各大網(wǎng)站欄目共性的基礎(chǔ)上，重點考慮“主題劃分”、“生活優(yōu)先”的原則，歸納出一個網(wǎng)頁分類用類目體系。該體系分15個大類，層級類別最深為4級，如“科技_數(shù)碼_視頻_數(shù)字電視”，類目總共244個。
　　將語料庫的網(wǎng)頁欄目和已建立的網(wǎng)頁分類體系進行映射，最終，形成以XML格式存儲的詳細標注語料屬性的層級分類語料庫。
　　語料庫信息匯總見表1(僅列舉大類):
　　
　　在網(wǎng)頁信息提取時，我們發(fā)現(xiàn)很多網(wǎng)頁已經(jīng)人工標引了關(guān)鍵詞。關(guān)鍵詞往往標引在標題下面，是那些具有文本主題表示功能的詞語。關(guān)鍵詞是對一個網(wǎng)頁的主題進行描述的關(guān)鍵性詞語，一般一個網(wǎng)頁約兩三個關(guān)鍵詞。例如一篇題為《中國民航總局解禁“紅眼航班” 消費者喜聞樂見》的網(wǎng)頁，其關(guān)鍵詞為“民航、紅眼航班”。這些關(guān)鍵詞都是網(wǎng)站主題標引專家長期積累下來的集體智慧，是我們基于知識的標引系統(tǒng)非常珍貴的專家資源，不僅為我們的關(guān)鍵詞標引詞表提供了來源，也為我們進行的文本分類和主題詞標引提供了很好的訓(xùn)練和測試語料。
　　我們在上文建立的超大規(guī)模分類語料庫中抽取出其中已標注的關(guān)鍵詞，總共獲得229 237個詞條(去重后)，按網(wǎng)頁的主題屬性存儲進詞表，形成15個大類的領(lǐng)域關(guān)鍵詞詞表和244個小類的領(lǐng)域關(guān)鍵詞詞表。
　　表2是科技、經(jīng)濟、藝術(shù)、汽車、體育、旅游、教育抽取的7類關(guān)鍵詞舉例。
　　2.2關(guān)鍵詞主題度計算
　　在情報學上，關(guān)鍵詞是指在論文標題、摘要或正文中，用以標識和表達文檔主題概念的詞語。關(guān)鍵詞的主要特征是主題性:關(guān)鍵詞揭示的是文檔最核心的內(nèi)容，關(guān)鍵詞能高度概括和代表整個文檔的基本內(nèi)容，是文檔的靈魂。
　　戴璞認為“關(guān)鍵詞表達主題概念時能準確地表達事物的本質(zhì)屬性”；王明燕認為“關(guān)鍵詞是用以表示文章主題、內(nèi)容、信息、款目的單詞或術(shù)語，是反映文章內(nèi)容的名詞性術(shù)語，對文章內(nèi)容具有實質(zhì)性意義的詞或詞組，是表達文獻主題概念的自然語言詞匯”；楊一瓊認為關(guān)鍵詞的主要特征是“主題性:關(guān)鍵詞揭示的是學術(shù)論文最核心的內(nèi)容，是文章最基本的學術(shù)思想、技術(shù)方法的提煉與概括，具有鮮明的主題色彩，讀者只要分析一下關(guān)鍵詞，就可大致研判論文的學科類別、主題內(nèi)容及可能提供的信息量”。
　　因此，我們引入了主題度概念來表示一個詞語對文檔主題概念的表征程度。主題度，是指在文本表示時，將文本的主題特征(例如主題概念、核心內(nèi)容、中心思想等)鮮明地表示出來的程度。例如，常見的虛詞性成分(如“總而言之”)的文本主題表示功能較弱，主題度弱;而一些領(lǐng)域性強的體詞性成分(如“封閉式基金”)則文本主題表示功能較強，主題度強。
　　標引的關(guān)鍵詞應(yīng)該主題度高，這就需要在權(quán)重計算時不僅降低常用詞，而且應(yīng)該凸顯主題特征明顯的詞語。通常的關(guān)鍵詞標引特別是基于詞串統(tǒng)計的關(guān)鍵詞標引方法，最大的問題在于流于簡單的詞頻統(tǒng)計，往往過分突出了詞頻的影響。我們在構(gòu)建的大規(guī)模分類語料庫中進行詞語的主題度訓(xùn)練，獲得了每一詞語的主題度。
　　戈夫曼提出，文獻詞匯的分布由高頻轉(zhuǎn)向低頻時，可能存在著一個鄰界域，由于高頻詞多為功能詞，低頻詞在很低程度上是作者用詞特點的反映，只有處于鄰界域內(nèi)的詞才真正表達文獻的主題內(nèi)容，這些詞經(jīng)過停用詞表的刪除最適合做標引詞。對已經(jīng)專家標引的關(guān)鍵詞作進一步分析，我們發(fā)現(xiàn)關(guān)鍵詞通常偏向于專業(yè)領(lǐng)域里的術(shù)語性較強的詞語，大多就是術(shù)語。術(shù)語是專業(yè)領(lǐng)域中概念的語言指稱，其主要特征也是主題性，關(guān)鍵詞的主題度就是術(shù)語主題性特征的反映。
　　因此，我們認為關(guān)鍵詞主題度的本質(zhì)在于其領(lǐng)域分布的不均勻性，關(guān)鍵詞與領(lǐng)域類別密切相關(guān)，是某一領(lǐng)域中具有一定頻次的(鄰界域內(nèi))區(qū)別于其他領(lǐng)域內(nèi)容特征的體詞性成分。從表2例舉的關(guān)鍵詞中，我們也可以發(fā)現(xiàn)這點。
　　基于關(guān)鍵詞的領(lǐng)域不均勻性(主題表征性)和鄰界域的考慮，我們?yōu)殛P(guān)鍵詞的主題度獲取設(shè)計了形式化的計算模型(陳克利，2003):
　　
　　方差是體現(xiàn)數(shù)據(jù)分布是否均勻的很好的數(shù)學指標，但從方差公式中可以看出，方差大小又受到詞頻大小的影響，為了消除此影響(因為詞頻因素將通過測試時被標注文檔的詞頻來體現(xiàn)，方差需要的只是訓(xùn)練時詞頻之間的差異性表示)，我們用方差除以該詞在各類中詞頻之和來表示關(guān)鍵詞在不同類之間的分布差異性。
　　這是對領(lǐng)域性不均勻性(主題表征性)的數(shù)學模擬，對關(guān)鍵詞鄰界域的性質(zhì)則通過〔log(N(wi)/N)〕2來模擬表示，含義為:總訓(xùn)練語料中出現(xiàn)次數(shù)相對較少的關(guān)鍵詞其權(quán)重相對較高。為削弱兩頭高低頻次的過分影響，拉近高頻與低頻詞語的頻率距離，突出頻率鄰界域中的詞語，采用對數(shù)后平方的方法進行詞語頻率的平滑。這就避免了大量高頻的功能性虛詞(如“的、了、在、我”，等等)和低頻的個性化詞語(一些非常見的數(shù)字字母串、書面語、古語、方言詞，如“TODS、殘日、稟陳、圍嘴兒”)的出現(xiàn)，同時又照顧到中低頻的術(shù)語詞語。當然，關(guān)鍵詞在總語料中的出現(xiàn)次數(shù)并不能完全說明該詞在標引中的重要性，頻率相同的關(guān)鍵詞在標引中的重要性是不同的:在各類之間分布越均勻，其重要性越小，主題度越低，反之亦然。這就是我們將兩者結(jié)合起來(相乘)模擬表示主題度的原因。
　　詞頻統(tǒng)計后，進行權(quán)重計算，計算公式如下:
　　T(wi) = Fw×nZtd(wi)
　　其中T(wi)表示詞語wi的權(quán)重，F(xiàn)w表示詞語w的頻率，n>=1，可自由設(shè)置，這里n=3。如果某詞語，如新的數(shù)字字母串(切分時遺留的)，不在詞語表中，則沒有主題度�？紤]到許多數(shù)字字母串也可能是關(guān)鍵詞，如“3721、Windows XP”等，因此權(quán)重計算時將其主題度設(shè)為350(所有詞語表中詞語主題度的均值高一點)。
　　表3是詞語主題度計算后主題度最低的前40個詞語。
　　
　　3基于領(lǐng)域知識的關(guān)鍵詞自動標引實現(xiàn)
　　
　　基于上文獲得的領(lǐng)域知識，我們完成了一個關(guān)鍵詞自動標引系統(tǒng)[8]。系統(tǒng)針對非學術(shù)性的中文文章自動標引關(guān)鍵詞。如一篇題為《微軟昨反訴歐盟歷史上最大反壟斷官司再次升級》的文章，系統(tǒng)處理后，輸出標引結(jié)果為“微軟、歐盟、反壟斷”。
　　測試集共105個XML文件，其中經(jīng)濟、科技類文檔約占一半。測試時，針對幾個測試點，兩人分別對105個文件進行人工打分，打分時對每一測試點分別打分。然后，對每一測試點計算其平均分，列表如下:
　　
　　最后，計算各測試點的綜合平均得分，約為8.08。
　　
　　參考文獻:
　　[1] 劉華.關(guān)鍵詞自動標引系統(tǒng)實現(xiàn).現(xiàn)代圖書情報技術(shù),2006(2):88-90.
　　[2] 劉華.網(wǎng)頁信息抽取及建庫系統(tǒng)C#實現(xiàn).計算機工程,2006,32(16):49-51.
　　[3] 葉志清,劉端紅,袁慶等.文獻信息計算機全文全自動標引方法.情報學報,2003,22(2):169-172.
　　[4] 楊文峰,李星.基于PAT-TREE統(tǒng)計語言模型與關(guān)鍵詞自動提取.計算機工程與應(yīng)用,2001,(15):17-20.
　　[5] 吳春玉.中文全文檢索系統(tǒng)中實現(xiàn)主題詞標引思路.情報雜志,2005(1):115-117.
　　[6] 李素建.關(guān)鍵詞自動標引的最大熵模型應(yīng)用研究.計算機學報,2004,7(9):1192-1197.
　　[7] 陳克利.基于大規(guī)模真實文本的平衡語料分析與文本分類方法[C]//孫茂松.Advances in Computation of Oriental Languages.北京:清華大學出版社,2003:540-545.
　　[8] 主題詞自動標引在線演示地址.[2007-04-25].http://www.省略/class_demo.aspx.
　　
　　注：“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文�！�

相關(guān)熱詞搜索：標引語料庫標注基于分類標注語料庫的關(guān)鍵詞標引知識自動獲取開淘寶怎么做優(yōu)化推廣搜索引擎排名優(yōu)化

熱點文章閱讀

版權(quán)所有 蒲公英文摘 smilezhuce.com

<sup id="rjhjt"></sup>