信息融合模型【面向主題的Web信息融合模型】

發(fā)布時間:2020-03-10 來源: 感悟愛情點擊：

　　[摘要]評述國內(nèi)外現(xiàn)有Web信息融合的研究成果，分析其中存在的主要問題與不足。針對現(xiàn)有Web信息融合對多維度、多粒度綜合查詢分析和決策支持不足的問題，分析面向主題的Web信息融合的基本原理，設(shè)計面向主題的Web信息融合模型，該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三層組成，并探討各層工作原理和需要實現(xiàn)的關(guān)鍵技術(shù)，最后給出原型系統(tǒng)實現(xiàn)及融合查詢示例。
　　[關(guān)鍵詞]面向主題　Web信息融合　模型　技術(shù)
　　[分類號]G354
　　
　　1、引言
　　
　　隨著Web2.0技術(shù)的發(fā)展，企業(yè)運(yùn)作日益向Inter-net擴(kuò)展，企業(yè)Web信息的容量和多樣性呈爆炸式增長，Web信息日益成為企業(yè)決策的重要依據(jù)。由于Web信息具有半結(jié)構(gòu)化和非結(jié)構(gòu)化的特征，Web信息的急劇增長在為人們獲取所需信息和知識帶來更多機(jī)遇的同時也帶來了更大的挑戰(zhàn)。傳統(tǒng)搜索引擎的性能已達(dá)到極限，其基于關(guān)鍵詞匹配排序來檢索Web信息的工作原理存在檢索結(jié)果信息冗余和不精準(zhǔn)的問題，無法滿足用戶基于主題查詢的需求，更無法適應(yīng)企業(yè)決策的需要。信息融合借鑒人腦的工作原理，利用計算機(jī)對具有相似或不同特征的多源數(shù)據(jù)和信息進(jìn)行處理，為用戶提供統(tǒng)一的信息視圖和可綜合利用的信息。信息融合技術(shù)已在生物、經(jīng)濟(jì)和軍事等領(lǐng)域得到廣泛應(yīng)用。信息融合技術(shù)為Web信息處理提供了新的途徑，但其研究成果主要針對結(jié)構(gòu)化數(shù)據(jù)。
　　現(xiàn)有Web信息融合研究主要集中在多源Web信息檢索融合和多Web文檔的知識融合兩方面，對應(yīng)于傳統(tǒng)信息融合中的數(shù)據(jù)級融合和特征級融合，不支持信息的多維度和多粒度查詢與綜合分析，遠(yuǎn)遠(yuǎn)不能滿足用戶從Web有效獲取信息進(jìn)行決策的需要。
　　
　　2、國內(nèi)外研究綜述
　　
　　2.1　信息檢索融合
　　信息檢索融合將多個搜索組件的文檔結(jié)果集視為多源證據(jù)，綜合利用和聲效應(yīng)、撇取效應(yīng)和／或黑馬效應(yīng)，基于綜合評分或排序?qū)Χ嘣唇Y(jié)果集中的文檔進(jìn)行優(yōu)化組合，為用戶提供更高質(zhì)量的搜索結(jié)果。采用的主要方法包括：
　　2.1.1　基于統(tǒng)計的方法　分為評分融合和排序融合兩類。評分融合算法根據(jù)各源(即搜索組件)的性能賦予其權(quán)重，用線性組合計算出現(xiàn)在多源結(jié)果集的文檔的綜合評分，將綜合評分最高的N個文檔返回給用戶，如WebFusion算法�；谂判虻娜诤纤惴▽Χ嘣唇Y(jié)果集按相關(guān)度排序后采用輪循的方式從結(jié)果集抽取文檔返回給用戶，如SR融合算法。
　　2.1.2　基于人工智能的方法　主要是利用人工神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)進(jìn)行文檔聚類與模式識別。如文獻(xiàn)利用人工神經(jīng)網(wǎng)絡(luò)自組織映射(sOM)算法對Web網(wǎng)頁進(jìn)行聚類，識別各類主題之間的關(guān)系，從而實現(xiàn)搜索結(jié)果的聚合。
　　2.1.3　基于統(tǒng)計和人工智能的混合方法　基于統(tǒng)計的方法中文檔評分函數(shù)的形式，文檔的內(nèi)容、鏈接和結(jié)構(gòu)三方面各自的權(quán)重，以及各搜索組件的權(quán)重對融合結(jié)果有很大影響，通常結(jié)合人工智能的方法確定，如文獻(xiàn)采用模式識別和啟發(fā)式學(xué)習(xí)調(diào)整搜索源權(quán)重。
　　2.2　基于多文本的知識融合
　　基于多文本的知識融合將搜索結(jié)果集中的多個文檔視為多源證據(jù)，主要利用語義本體和自然語言處理技術(shù)分析多個文檔，利用基于邏輯的規(guī)則、基于本體的映射與合并消除其中的知識冗余、知識不完整性和知識沖突，為用戶提供具有一致性的知識。根據(jù)處理對象的結(jié)構(gòu)化程度可分為半結(jié)構(gòu)化文本的知識融合和非結(jié)構(gòu)化文本的知識融合。
　　2.2.1　半結(jié)構(gòu)化文本的知識融合　主要對XML格式的信息進(jìn)行融合。如文獻(xiàn)采用語義本體技術(shù)構(gòu)建了面向半結(jié)構(gòu)化信息(XML格式)的知識融合模型，文獻(xiàn)提出了一種將融合規(guī)則與知識庫相結(jié)合的對半結(jié)構(gòu)化信息進(jìn)行融合的方法。
　　2.2.2　非結(jié)構(gòu)化文本的知識融合　主要對HTML格式和其他文本格式的信息進(jìn)行融合。大致可分為兩類：一是基于Web的本體學(xué)習(xí)，從網(wǎng)頁學(xué)習(xí)本體概念及概念間關(guān)系、獲取概念屬性和填充本體實例；二是多文檔的自動摘要系統(tǒng)，核心問題是摘要旬的抽取與融合。
　　2.3　面向決策的信息融合
　　這方面的研究成果很少。中國科學(xué)院Yu L等人提出面向Web挖掘的信息融合工具――Web倉庫，設(shè)計了Web倉庫體系結(jié)構(gòu)和EFML處理模型，在信息的融合上采用中介模型。但作者的討論僅限于Web倉庫的概念模型與工作機(jī)制，沒有深入討論具體的信息融合模型與方法。
　　2.4　研究現(xiàn)狀總結(jié)
　　總結(jié)國內(nèi)外研究現(xiàn)狀，Web信息檢索融合的研究成果相對成熟。由于半結(jié)構(gòu)化文本實現(xiàn)模式(Sche－ma)映射相對容易，結(jié)合融合規(guī)則和知識推理可以獲得較好的半結(jié)構(gòu)化文本知識融合效果。較困難的是非結(jié)構(gòu)化文本的知識融合，原因在于機(jī)器理解自然語言仍有難度，目前的自動摘要系統(tǒng)會產(chǎn)生較大的信息損失�；谖谋镜恼Z義標(biāo)注進(jìn)行知識融合是解決問題的一種途徑�，F(xiàn)有Web信息融合算法基本上都是面向Web查詢設(shè)計的，不支持多粒度與多維度查詢，無法滿足決策支持的需要。面向主題的Web信息融合模型與技術(shù)是亟待研究和解決的問題。
　　
　　3、面向主題的Web信息融合模型設(shè)計
　　
　　面向決策的信息融合必須支持信息的多粒度與多維度查詢和分析，其關(guān)鍵基礎(chǔ)是多維信息模型的構(gòu)建，并通過維度的分類關(guān)系(即對維度繼續(xù)細(xì)分得到新的子維度)反映信息的多粒度特征。由于Web信息融合的對象，即Web信息，具有半結(jié)構(gòu)化和非結(jié)構(gòu)化特征，無法直接用于決策支持，其關(guān)鍵是找到一種有效的方法，根據(jù)決策主題對相關(guān)Web信息進(jìn)行融合且融合的結(jié)果能按多維信息模型進(jìn)行組織，同時在多維信息模型的基礎(chǔ)上可以進(jìn)一步進(jìn)行信息的多粒度、多維度融合，以滿足決策支持的需要�；谏鲜鲈碓O(shè)計的面向主題的Web信息融合模型如圖1所示：
　　3.1　Web倉庫模型
　　包括Web文檔本體模型、Web倉庫信息結(jié)構(gòu)模型、基于代數(shù)的操作語言三個方面，具體原理如下：
　　3.1.1　Web文檔本體模型建立Web文檔本體元模型，設(shè)計包括Web文檔本體元模型、Web文檔概念層、Web文檔屬性層(包括概要屬性、鏈接與結(jié)構(gòu)屬性、內(nèi)容屬性和信任屬性)、Web文檔實例的四層結(jié)構(gòu)框架模型，為非結(jié)構(gòu)化信息向結(jié)構(gòu)化信息的轉(zhuǎn)換提供語義范式，并利用該本體的元模型機(jī)制實現(xiàn)面向不同主題的擴(kuò)充。
　　3.1.2　Web倉庫信息結(jié)構(gòu)模型　采用多維信息模型組織信息，以本體概念為中心，將本體的屬性映射為維度，將本體概念的繼承與包含關(guān)系映射為維度的分類關(guān)系，設(shè)計Web模式，構(gòu)建事實表和多個維表的星型結(jié)構(gòu)。利用語義模型到多維信息模型的映射關(guān)系將Web文檔本體實例裝載入Web倉庫。
　　3.1.3　基于代數(shù)的操作語言　利用語義模型到代數(shù)系統(tǒng)的映射將基于語義的查詢轉(zhuǎn)換為面向關(guān)系模型的查詢，設(shè)計基于代數(shù)的操作語言和映射算法將基于語義的查詢等操作映射到代數(shù)系統(tǒng)的集合操作；設(shè)計基于一階謂詞邏輯的概念和屬性約束，用一階謂詞邏輯的子句歸結(jié)方法判定組合約束的真假實現(xiàn)選擇運(yùn)算。
　　3.2　Web信息融合功能模型
　　該模型為具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級融合――概念級融合――決策級融合”的四級融合功能模型，基于Web倉庫實現(xiàn)Web信息的多粒度與多維度融合。其基本工作原理是：首先利用面向主題的信息檢索融合技術(shù)檢索Web網(wǎng)頁，利用本體學(xué)習(xí)技術(shù)從Web網(wǎng)頁生成本體實例，并裝載入Web倉庫；然后根據(jù)用戶的查詢分析需求，在Web倉庫已有多維度信息的基礎(chǔ)上，進(jìn)一步利用本體概念的多粒度關(guān)系和本體實例的合并消重算法，在屬性層級、概念層級或綜合概念與屬性層級實現(xiàn)信息的鉆取、切片、切塊和旋轉(zhuǎn)等操作，實現(xiàn)Web信息在屬性級、概念級、綜合概念與屬性的決策級進(jìn)行多粒度、多維度融合，以提供滿足用戶需求的信息融合結(jié)果。
　　3.2.1　功能模型　具有自我優(yōu)化機(jī)制的閉環(huán)結(jié)構(gòu)信息融合功能模型，定義各級功能實現(xiàn)的輸入輸出及各級功能的依賴關(guān)系，具有基于評估反饋的自我優(yōu)化機(jī)制，能夠分析評估反饋結(jié)果與各級融合參數(shù)和融合規(guī)則的關(guān)系，并能根據(jù)評估反饋結(jié)果實現(xiàn)融合參數(shù)和融合規(guī)則的自動或半自動調(diào)整。
　　3.2.2　主要算法　主要包括與功能模型相對應(yīng)的各級融合算法以及本體實例填充算法。①與功能模型相對應(yīng)的各級融合算法：在已有信息檢索融合算法的基礎(chǔ)上引入信任評價機(jī)制，綜合信息源信任度、文本相似度和搜索組件權(quán)重三個方面的信息檢索融合算法；基于多文檔的相同概念相同屬性的屬性值歸并融合算法；基于本體概念上下位關(guān)系的屬性級多粒度融合算法；基于本體屬性合并的概念級多粒度融合算法；基于圖理論、本體概念合并、本體屬性合并和本體實例消重的決策級融合算法。②本體實例填充算法：把每個文檔視為本體實例，重點解決本體實例概念和屬性的學(xué)習(xí)問題，其中概要屬性如所在站點、創(chuàng)建時間等概要信息通過URL和HTTP響應(yīng)信息獲��；鏈接與結(jié)構(gòu)屬性通過文本分析器分析獲取；信任屬性由人工賦初值后基于反饋機(jī)制調(diào)整；設(shè)計基于SOM和層次凝聚的聚類算法獲取實例概念及概念間關(guān)系，設(shè)計基于文檔模板匹配和句法模式分析的算法獲取內(nèi)容屬性。
　　3.3　人機(jī)交互接口
　　負(fù)責(zé)用戶與融合功能模型層之間基于語義進(jìn)行交互，其實現(xiàn)形式是語義瀏覽器。語義瀏覽器以圖形化的方式顯示本體，用戶通過對本體進(jìn)行操作來表明面向主題的查詢與分析需求，用戶請求被封裝成基于語義的形式后提交給融合功能模型層，融合功能模型層返回查詢分析結(jié)果給用戶并且可以讓用戶追蹤到融合的相關(guān)原始Web信息。
　　
　　4、原型系統(tǒng)實現(xiàn)
　　
　　面向服裝行業(yè)企業(yè)主題，滿足服裝行業(yè)按企業(yè)和產(chǎn)品進(jìn)行綜合分析決策的需要，構(gòu)建Web信息融合原型系統(tǒng)。該系統(tǒng)架構(gòu)如圖2所示：
　　主要包括數(shù)據(jù)中心、融合功能、系統(tǒng)管理、應(yīng)用開發(fā)接口和用戶接口五個部分，信息源為Web文檔。整個系統(tǒng)基于Tomcat＋MySQL＋Jena實現(xiàn)。Web文檔模型本體和服裝本體采用Protege工具構(gòu)建并存儲在MySQL數(shù)據(jù)庫中，通過Jena的ARQ查詢引擎采用SPARQL查詢語言進(jìn)行查詢；融合規(guī)則的前項和后項以數(shù)據(jù)表的形式存儲在MySQL數(shù)據(jù)庫中；Web倉庫則采用MySQL數(shù)據(jù)倉庫引擎InfoBright實現(xiàn)。Web倉庫模式依據(jù)服裝本體的“概念――屬性”關(guān)系建立，目前根據(jù)“企業(yè)”和“產(chǎn)品”概念建立了兩個事實表，并分別根據(jù)“企業(yè)”概念和“產(chǎn)品”概念的屬性建立了以事實表為中心的維表，實現(xiàn)了本體實例填充算法和基于概念上下位關(guān)系的多粒度融合算法，用戶能夠根據(jù)不同概念和屬性粒度實現(xiàn)融合結(jié)果的查詢。按產(chǎn)品分級(服裝產(chǎn)品――男裝――休閑襯衫)檢索的融合結(jié)果如圖3所示：
　　
　　5、結(jié)論
　　
　　信息維度與信息粒度是人類認(rèn)識世界的基本特征，但現(xiàn)有Web信息融合技術(shù)不支持Web信息的多維度和多粒度查詢與分析。本文面向充分利用Web信息進(jìn)行決策支持的需要，設(shè)計面向主題的Web信息融合模型，并探討其基本工作原理和實現(xiàn)技術(shù)。該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三個層次構(gòu)成：Web倉庫模型實現(xiàn)對Web信息的多維組織與存儲；Web信息融合功能模型實現(xiàn)具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級融合――概念級融合――決策級融合”的四級融合功能；人機(jī)交互接口為用戶提供基于語義的主題查詢與分析界面。面向服裝行業(yè)企業(yè)主題構(gòu)建了Web信息融合原型系統(tǒng)，融合查詢結(jié)果初步表明了本文提出原理方法的有效性。今后將在已有模型和算法的基礎(chǔ)上深入研究并陸續(xù)行文探討其他融合算法與功能。

东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

信息融合模型【面向主題的Web信息融合模型】

熱點文章閱讀