淺談web信息抽取
發(fā)布時間:2020-10-26 來源: 調(diào)研報告 點擊:
淺談 web 信息抽取
摘要:文章闡述了 web 信息抽取的定義、抽取過程、Web 信息抽取方法的分類,并指明了 web 信息抽取的應用領(lǐng)域和發(fā)展方向。論文關(guān)鍵詞:web 信息抽取,自然語言,包裝器,web 查詢,抽取對象 一、什么是 web 信息抽取 Web 信息抽取是指從 Web 頁面所包含的無結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式的 Web 頁面信息抽取的過程[1]。
二、Web 信息抽取技術(shù)涉及的內(nèi)容 因特網(wǎng)提供了一個巨大的信息源。這種信息源往往是半結(jié)構(gòu)化的,并且中間夾雜著結(jié)構(gòu)化和自由文本。網(wǎng)上的信息還是動態(tài)的,包含超鏈接,都以不同的形式出現(xiàn)。
信息抽取的內(nèi)容一般可以分為這樣幾個方面:
命名實體的抽取、與模板有關(guān)的內(nèi)容信息抽取、各個實體之間關(guān)系的抽取和預置事件的信息抽取。
信息抽取的方法主要可以分為以下兩類:一類是基于層次結(jié)構(gòu)的信息抽取歸納方法,另一類是基于概念模型的多記錄信息抽取方法。
Web 信息抽取工作主要包裝器(Wrapper)來完成[1]。包裝器是一種軟件過程,這個過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡中 Web頁面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個包裝器一般針對某一種數(shù)據(jù)源中的一類頁面。包裝器運用規(guī)則執(zhí)行程序?qū)嶋H要抽取的數(shù)據(jù)源進行抽取。
抽取過程一般包括以下幾個步驟[2]:
1. 將 Web 網(wǎng)頁進行預處理。預處理的目的是將半結(jié)構(gòu)化 HTML 頁面去掉無用的信息以及對不規(guī)則的 HTML 標識進行修正,為下一步標記信息做準備。
2. 用一組信息模式描述所需要抽取的信息。通?梢葬槍δ骋活I(lǐng)域的信息特征預定義好一系列的信息模式,存放在模式庫中供用戶選用。
3. 對文本進行合理的詞法、句法及語義分析,通常包括識別特定的名詞短語和動詞短語。
4. 使用模式匹配方法識別指定的信息模式的各個部分。
5. 進行上下文分析和推理,確定信息的最終形式。
6. 將結(jié)果輸出成結(jié)構(gòu)化的描述型式以便由網(wǎng)絡集成系統(tǒng)進行查詢分析。
三、Web 信息抽取方法的分類 把所有網(wǎng)頁都歸入半結(jié)構(gòu)化文本是不恰當?shù)摹H裟芡ㄟ^識別分隔符或信息點順序等固定的格式信息正確抽取出來,那么該網(wǎng)頁是結(jié)構(gòu)化的。半結(jié)構(gòu)化的網(wǎng)頁則可能包含缺失的屬性,或一個屬性有多個值,或一個屬性有多個變體等例外的情況。若需要用語言學知識才能正確抽取屬性,則該網(wǎng)頁是非結(jié)構(gòu)化的。
網(wǎng)頁的結(jié)構(gòu)化程度總是取決于用戶想要抽取的屬性是什么。通常機器產(chǎn)生的網(wǎng)頁是非常結(jié)構(gòu)化的,手工編寫的則結(jié)構(gòu)化程度差些,當然有很多例外。
按照 Web 信息抽取對象的結(jié)構(gòu)化程度,大體上可以分為三種類型:
結(jié)構(gòu)化文本。
自由文本。
半結(jié)構(gòu)化文本。
根據(jù) Web 信息抽取對象劃分,可以分為三種類型[2]:
1. 從自由格式的文本中抽取出所需要的信息內(nèi)容。自由文本的抽取技術(shù)可分為三類: a. 基于自然語言處理(NPL)的方式。
b. 基于規(guī)則的方式。
c. 基于統(tǒng)計學習的方式。
2. 從半結(jié)構(gòu)化的文本中,抽取出所需要的信息內(nèi)容。
3. 從結(jié)構(gòu)化的文本中抽取出所需要的信息內(nèi)容。
根據(jù)自動化程度可以分為 人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類。
根據(jù)現(xiàn)有 Web 信息抽取系統(tǒng)和模型實現(xiàn)原理的不同,分為以下幾類: 1. 基于歸納學習的信息抽取[2]。通過對若干個待抽取實例網(wǎng)頁進行結(jié)構(gòu)特征學習,歸納出抽取規(guī)則,然后使用抽取規(guī)則自動分析待抽取信息在網(wǎng)頁中的結(jié)構(gòu)特征并實現(xiàn)信息抽取。采用這種原理的典型的系統(tǒng)有 STALKER,SOHTMEALY,WIEN。
2. 基于 HMM(Hidden Markov Model)的信息抽取[3][4]。是最近幾年應用最廣泛的抽取知識表達模型。它是一種隨機的有限狀態(tài)自動機,由
于 HMM 有成熟的學習算法和堅實的統(tǒng)計基礎(chǔ),所以在信息抽取中是一種成功的模型。
3. 基于特征模式匹配的信息抽取[2]。通過大量學習實例,歸納學習出待抽取信息的語法結(jié)構(gòu)模式,并根據(jù)這些模式從待抽取網(wǎng)頁中抽取出相匹配的信息,適用于復雜結(jié)構(gòu)信息的抽取。
4. 基于網(wǎng)頁結(jié)構(gòu)特征分析的信息抽取[2]。將 Web 文檔轉(zhuǎn)換成反映HTML 文件層次結(jié)構(gòu)的解析樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則。采用該類技術(shù)的典型系統(tǒng)有 LIXTO[5]等。
5. 基于 Ontology 的 Web 信息抽取[7][8]。本體的構(gòu)建是這類抽取的基礎(chǔ)與核心,如何構(gòu)造出良好的面向應用領(lǐng)域的 Ontology 對提高信息抽取的精確度有直接的影響。該方法主要是利用對數(shù)據(jù)本身的描述信息實現(xiàn)抽取,對網(wǎng)頁結(jié)構(gòu)依賴較少。由 Brigham Yong University 信息抽取小組開發(fā)的信息抽取工具中采用了這種方式,另外 QUIXOTE 也采用了這種方式。
6. 基于自然語言處理(Natural Language Processing,NLP)。這類信息抽取主要適用于源文檔中包含大量文本的情況(特別針對于合乎文法的文本),在一定程度上借鑒了自然語言處理技術(shù),利用子句結(jié)構(gòu)、短語和子句間的關(guān)系建立基于語法和語義的抽取規(guī)則實現(xiàn)信息抽取[2][7]。目前采用這種原理的典型的系統(tǒng)有 RAPIER,SRV,WNISK[5]。
7. 基于 Web 查詢的信息抽取。將 Web 信息抽取轉(zhuǎn)化為使用標準的Web 查詢語言對 Web 文檔的查詢,具有通用性。采用該類技術(shù)的典型的系統(tǒng)有:Web-OQL 以及自主開發(fā)的原型系統(tǒng) PQAgent[2]。
四、國內(nèi)外 Web 信息抽取技術(shù)的研究和應用[2][5][6][9] 自 80 年代以來,國內(nèi)外許多大學、公司和研究機構(gòu)對信息抽取技術(shù)展開了有計劃的、長期系統(tǒng)的研究與應用工作,取得了一些成果并有許多相關(guān)的應用。也使信息抽取研究蓬勃開展起來,這主要有兩個因素對其發(fā)展有重要的影響:一是在線和離線文本數(shù)量的幾何級增加,另一個是“消息理解研討會”(MUC,Message Understanding Conference)從 1987 年開始到 1998 年共舉行了七屆會議對該領(lǐng)域的關(guān)注和推動。MUC 由美國國防高級研究計劃委員會(DARPA,the Defense Advanced Research Projects Agency)資助,其顯著特點并不是會議本身,而在于對信息抽取系統(tǒng)的評測。近些年來,信息抽取技術(shù)的研究與應用更為活躍。
在研究方面,主要側(cè)重于以下幾方面:利用機器學習技術(shù)增強系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文本處理能力、WEB 信息抽取(Wrapper)以及對時間信息的處理等等。
在應用方面,信息抽取應用的領(lǐng)域更加廣泛,除自成系統(tǒng)以外,還往往與其他文檔處理技術(shù)結(jié)合建立功能強大的信息服務系統(tǒng)。
至今,已經(jīng)有不少以信息抽取技術(shù)產(chǎn)品為主的公司出現(xiàn),比較著名的有 Cymfony 公司、Bhasha 公司、Linguamatics 公司、Revsolutions 公司等。
熱點文章閱讀