信息融合模型【面向主題的Web信息融合模型】
發(fā)布時間:2020-03-10 來源: 感悟愛情 點擊:
[摘要]評述國內(nèi)外現(xiàn)有Web信息融合的研究成果,分析其中存在的主要問題與不足。針對現(xiàn)有Web信息融合對多維度、多粒度綜合查詢分析和決策支持不足的問題,分析面向主題的Web信息融合的基本原理,設(shè)計面向主題的Web信息融合模型,該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三層組成,并探討各層工作原理和需要實現(xiàn)的關(guān)鍵技術(shù),最后給出原型系統(tǒng)實現(xiàn)及融合查詢示例。
[關(guān)鍵詞]面向主題 Web信息融合 模型 技術(shù)
[分類號]G354
1、引言
隨著Web2.0技術(shù)的發(fā)展,企業(yè)運(yùn)作日益向Inter-net擴(kuò)展,企業(yè)Web信息的容量和多樣性呈爆炸式增長,Web信息日益成為企業(yè)決策的重要依據(jù)。由于Web信息具有半結(jié)構(gòu)化和非結(jié)構(gòu)化的特征,Web信息的急劇增長在為人們獲取所需信息和知識帶來更多機(jī)遇的同時也帶來了更大的挑戰(zhàn)。傳統(tǒng)搜索引擎的性能已達(dá)到極限,其基于關(guān)鍵詞匹配排序來檢索Web信息的工作原理存在檢索結(jié)果信息冗余和不精準(zhǔn)的問題,無法滿足用戶基于主題查詢的需求,更無法適應(yīng)企業(yè)決策的需要。信息融合借鑒人腦的工作原理,利用計算機(jī)對具有相似或不同特征的多源數(shù)據(jù)和信息進(jìn)行處理,為用戶提供統(tǒng)一的信息視圖和可綜合利用的信息。信息融合技術(shù)已在生物、經(jīng)濟(jì)和軍事等領(lǐng)域得到廣泛應(yīng)用。信息融合技術(shù)為Web信息處理提供了新的途徑,但其研究成果主要針對結(jié)構(gòu)化數(shù)據(jù)。
現(xiàn)有Web信息融合研究主要集中在多源Web信息檢索融合和多Web文檔的知識融合兩方面,對應(yīng)于傳統(tǒng)信息融合中的數(shù)據(jù)級融合和特征級融合,不支持信息的多維度和多粒度查詢與綜合分析,遠(yuǎn)遠(yuǎn)不能滿足用戶從Web有效獲取信息進(jìn)行決策的需要。
2、國內(nèi)外研究綜述
2.1 信息檢索融合
信息檢索融合將多個搜索組件的文檔結(jié)果集視為多源證據(jù),綜合利用和聲效應(yīng)、撇取效應(yīng)和/或黑馬效應(yīng),基于綜合評分或排序?qū)Χ嘣唇Y(jié)果集中的文檔進(jìn)行優(yōu)化組合,為用戶提供更高質(zhì)量的搜索結(jié)果。采用的主要方法包括:
2.1.1 基于統(tǒng)計的方法 分為評分融合和排序融合兩類。評分融合算法根據(jù)各源(即搜索組件)的性能賦予其權(quán)重,用線性組合計算出現(xiàn)在多源結(jié)果集的文檔的綜合評分,將綜合評分最高的N個文檔返回給用戶,如WebFusion算法;谂判虻娜诤纤惴▽Χ嘣唇Y(jié)果集按相關(guān)度排序后采用輪循的方式從結(jié)果集抽取文檔返回給用戶,如SR融合算法。
2.1.2 基于人工智能的方法 主要是利用人工神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)進(jìn)行文檔聚類與模式識別。如文獻(xiàn)利用人工神經(jīng)網(wǎng)絡(luò)自組織映射(sOM)算法對Web網(wǎng)頁進(jìn)行聚類,識別各類主題之間的關(guān)系,從而實現(xiàn)搜索結(jié)果的聚合。
2.1.3 基于統(tǒng)計和人工智能的混合方法 基于統(tǒng)計的方法中文檔評分函數(shù)的形式,文檔的內(nèi)容、鏈接和結(jié)構(gòu)三方面各自的權(quán)重,以及各搜索組件的權(quán)重對融合結(jié)果有很大影響,通常結(jié)合人工智能的方法確定,如文獻(xiàn)采用模式識別和啟發(fā)式學(xué)習(xí)調(diào)整搜索源權(quán)重。
2.2 基于多文本的知識融合
基于多文本的知識融合將搜索結(jié)果集中的多個文檔視為多源證據(jù),主要利用語義本體和自然語言處理技術(shù)分析多個文檔,利用基于邏輯的規(guī)則、基于本體的映射與合并消除其中的知識冗余、知識不完整性和知識沖突,為用戶提供具有一致性的知識。根據(jù)處理對象的結(jié)構(gòu)化程度可分為半結(jié)構(gòu)化文本的知識融合和非結(jié)構(gòu)化文本的知識融合。
2.2.1 半結(jié)構(gòu)化文本的知識融合 主要對XML格式的信息進(jìn)行融合。如文獻(xiàn)采用語義本體技術(shù)構(gòu)建了面向半結(jié)構(gòu)化信息(XML格式)的知識融合模型,文獻(xiàn)提出了一種將融合規(guī)則與知識庫相結(jié)合的對半結(jié)構(gòu)化信息進(jìn)行融合的方法。
2.2.2 非結(jié)構(gòu)化文本的知識融合 主要對HTML格式和其他文本格式的信息進(jìn)行融合。大致可分為兩類:一是基于Web的本體學(xué)習(xí),從網(wǎng)頁學(xué)習(xí)本體概念及概念間關(guān)系、獲取概念屬性和填充本體實例;二是多文檔的自動摘要系統(tǒng),核心問題是摘要旬的抽取與融合。
2.3 面向決策的信息融合
這方面的研究成果很少。中國科學(xué)院Yu L等人提出面向Web挖掘的信息融合工具――Web倉庫,設(shè)計了Web倉庫體系結(jié)構(gòu)和EFML處理模型,在信息的融合上采用中介模型。但作者的討論僅限于Web倉庫的概念模型與工作機(jī)制,沒有深入討論具體的信息融合模型與方法。
2.4 研究現(xiàn)狀總結(jié)
總結(jié)國內(nèi)外研究現(xiàn)狀,Web信息檢索融合的研究成果相對成熟。由于半結(jié)構(gòu)化文本實現(xiàn)模式(Sche-ma)映射相對容易,結(jié)合融合規(guī)則和知識推理可以獲得較好的半結(jié)構(gòu)化文本知識融合效果。較困難的是非結(jié)構(gòu)化文本的知識融合,原因在于機(jī)器理解自然語言仍有難度,目前的自動摘要系統(tǒng)會產(chǎn)生較大的信息損失;谖谋镜恼Z義標(biāo)注進(jìn)行知識融合是解決問題的一種途徑,F(xiàn)有Web信息融合算法基本上都是面向Web查詢設(shè)計的,不支持多粒度與多維度查詢,無法滿足決策支持的需要。面向主題的Web信息融合模型與技術(shù)是亟待研究和解決的問題。
3、面向主題的Web信息融合模型設(shè)計
面向決策的信息融合必須支持信息的多粒度與多維度查詢和分析,其關(guān)鍵基礎(chǔ)是多維信息模型的構(gòu)建,并通過維度的分類關(guān)系(即對維度繼續(xù)細(xì)分得到新的子維度)反映信息的多粒度特征。由于Web信息融合的對象,即Web信息,具有半結(jié)構(gòu)化和非結(jié)構(gòu)化特征,無法直接用于決策支持,其關(guān)鍵是找到一種有效的方法,根據(jù)決策主題對相關(guān)Web信息進(jìn)行融合且融合的結(jié)果能按多維信息模型進(jìn)行組織,同時在多維信息模型的基礎(chǔ)上可以進(jìn)一步進(jìn)行信息的多粒度、多維度融合,以滿足決策支持的需要;谏鲜鲈碓O(shè)計的面向主題的Web信息融合模型如圖1所示:
3.1 Web倉庫模型
包括Web文檔本體模型、Web倉庫信息結(jié)構(gòu)模型、基于代數(shù)的操作語言三個方面,具體原理如下:
3.1.1 Web文檔本體模型建立Web文檔本體元模型,設(shè)計包括Web文檔本體元模型、Web文檔概念層、Web文檔屬性層(包括概要屬性、鏈接與結(jié)構(gòu)屬性、內(nèi)容屬性和信任屬性)、Web文檔實例的四層結(jié)構(gòu)框架模型,為非結(jié)構(gòu)化信息向結(jié)構(gòu)化信息的轉(zhuǎn)換提供語義范式,并利用該本體的元模型機(jī)制實現(xiàn)面向不同主題的擴(kuò)充。
3.1.2 Web倉庫信息結(jié)構(gòu)模型 采用多維信息模型組織信息,以本體概念為中心,將本體的屬性映射為維度,將本體概念的繼承與包含關(guān)系映射為維度的分類關(guān)系,設(shè)計Web模式,構(gòu)建事實表和多個維表的星型結(jié)構(gòu)。利用語義模型到多維信息模型的映射關(guān)系將Web文檔本體實例裝載入Web倉庫。
3.1.3 基于代數(shù)的操作語言 利用語義模型到代數(shù)系統(tǒng)的映射將基于語義的查詢轉(zhuǎn)換為面向關(guān)系模型的查詢,設(shè)計基于代數(shù)的操作語言和映射算法將基于語義的查詢等操作映射到代數(shù)系統(tǒng)的集合操作;設(shè)計基 于一階謂詞邏輯的概念和屬性約束,用一階謂詞邏輯的子句歸結(jié)方法判定組合約束的真假實現(xiàn)選擇運(yùn)算。
3.2 Web信息融合功能模型
該模型為具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級融合――概念級融合――決策級融合”的四級融合功能模型,基于Web倉庫實現(xiàn)Web信息的多粒度與多維度融合。其基本工作原理是:首先利用面向主題的信息檢索融合技術(shù)檢索Web網(wǎng)頁,利用本體學(xué)習(xí)技術(shù)從Web網(wǎng)頁生成本體實例,并裝載入Web倉庫;然后根據(jù)用戶的查詢分析需求,在Web倉庫已有多維度信息的基礎(chǔ)上,進(jìn)一步利用本體概念的多粒度關(guān)系和本體實例的合并消重算法,在屬性層級、概念層級或綜合概念與屬性層級實現(xiàn)信息的鉆取、切片、切塊和旋轉(zhuǎn)等操作,實現(xiàn)Web信息在屬性級、概念級、綜合概念與屬性的決策級進(jìn)行多粒度、多維度融合,以提供滿足用戶需求的信息融合結(jié)果。
3.2.1 功能模型 具有自我優(yōu)化機(jī)制的閉環(huán)結(jié)構(gòu)信息融合功能模型,定義各級功能實現(xiàn)的輸入輸出及各級功能的依賴關(guān)系,具有基于評估反饋的自我優(yōu)化機(jī)制,能夠分析評估反饋結(jié)果與各級融合參數(shù)和融合規(guī)則的關(guān)系,并能根據(jù)評估反饋結(jié)果實現(xiàn)融合參數(shù)和融合規(guī)則的自動或半自動調(diào)整。
3.2.2 主要算法 主要包括與功能模型相對應(yīng)的各級融合算法以及本體實例填充算法。①與功能模型相對應(yīng)的各級融合算法:在已有信息檢索融合算法的基礎(chǔ)上引入信任評價機(jī)制,綜合信息源信任度、文本相似度和搜索組件權(quán)重三個方面的信息檢索融合算法;基于多文檔的相同概念相同屬性的屬性值歸并融合算法;基于本體概念上下位關(guān)系的屬性級多粒度融合算法;基于本體屬性合并的概念級多粒度融合算法;基于圖理論、本體概念合并、本體屬性合并和本體實例消重的決策級融合算法。②本體實例填充算法:把每個文檔視為本體實例,重點解決本體實例概念和屬性的學(xué)習(xí)問題,其中概要屬性如所在站點、創(chuàng)建時間等概要信息通過URL和HTTP響應(yīng)信息獲;鏈接與結(jié)構(gòu)屬性通過文本分析器分析獲取;信任屬性由人工賦初值后基于反饋機(jī)制調(diào)整;設(shè)計基于SOM和層次凝聚的聚類算法獲取實例概念及概念間關(guān)系,設(shè)計基于文檔模板匹配和句法模式分析的算法獲取內(nèi)容屬性。
3.3 人機(jī)交互接口
負(fù)責(zé)用戶與融合功能模型層之間基于語義進(jìn)行交互,其實現(xiàn)形式是語義瀏覽器。語義瀏覽器以圖形化的方式顯示本體,用戶通過對本體進(jìn)行操作來表明面向主題的查詢與分析需求,用戶請求被封裝成基于語義的形式后提交給融合功能模型層,融合功能模型層返回查詢分析結(jié)果給用戶并且可以讓用戶追蹤到融合的相關(guān)原始Web信息。
4、原型系統(tǒng)實現(xiàn)
面向服裝行業(yè)企業(yè)主題,滿足服裝行業(yè)按企業(yè)和產(chǎn)品進(jìn)行綜合分析決策的需要,構(gòu)建Web信息融合原型系統(tǒng)。該系統(tǒng)架構(gòu)如圖2所示:
主要包括數(shù)據(jù)中心、融合功能、系統(tǒng)管理、應(yīng)用開發(fā)接口和用戶接口五個部分,信息源為Web文檔。整個系統(tǒng)基于Tomcat+MySQL+Jena實現(xiàn)。Web文檔模型本體和服裝本體采用Protege工具構(gòu)建并存儲在MySQL數(shù)據(jù)庫中,通過Jena的ARQ查詢引擎采用SPARQL查詢語言進(jìn)行查詢;融合規(guī)則的前項和后項以數(shù)據(jù)表的形式存儲在MySQL數(shù)據(jù)庫中;Web倉庫則采用MySQL數(shù)據(jù)倉庫引擎InfoBright實現(xiàn)。Web倉庫模式依據(jù)服裝本體的“概念――屬性”關(guān)系建立,目前根據(jù)“企業(yè)”和“產(chǎn)品”概念建立了兩個事實表,并分別根據(jù)“企業(yè)”概念和“產(chǎn)品”概念的屬性建立了以事實表為中心的維表,實現(xiàn)了本體實例填充算法和基于概念上下位關(guān)系的多粒度融合算法,用戶能夠根據(jù)不同概念和屬性粒度實現(xiàn)融合結(jié)果的查詢。按產(chǎn)品分級(服裝產(chǎn)品――男裝――休閑襯衫)檢索的融合結(jié)果如圖3所示:
5、結(jié)論
信息維度與信息粒度是人類認(rèn)識世界的基本特征,但現(xiàn)有Web信息融合技術(shù)不支持Web信息的多維度和多粒度查詢與分析。本文面向充分利用Web信息進(jìn)行決策支持的需要,設(shè)計面向主題的Web信息融合模型,并探討其基本工作原理和實現(xiàn)技術(shù)。該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三個層次構(gòu)成:Web倉庫模型實現(xiàn)對Web信息的多維組織與存儲;Web信息融合功能模型實現(xiàn)具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級融合――概念級融合――決策級融合”的四級融合功能;人機(jī)交互接口為用戶提供基于語義的主題查詢與分析界面。面向服裝行業(yè)企業(yè)主題構(gòu)建了Web信息融合原型系統(tǒng),融合查詢結(jié)果初步表明了本文提出原理方法的有效性。今后將在已有模型和算法的基礎(chǔ)上深入研究并陸續(xù)行文探討其他融合算法與功能。
相關(guān)熱詞搜索:融合 模型 面向 面向主題的Web信息融合模型 融合空間信息的主題模型 融合多維信息的主題自適應(yīng)
熱點文章閱讀