东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        【2009年以來(lái)本體映射系統(tǒng)模型研究綜述】 本體映射

        發(fā)布時(shí)間:2020-03-10 來(lái)源: 短文摘抄 點(diǎn)擊:

          [摘要]本體映射系統(tǒng)分為通用映射系統(tǒng)和領(lǐng)域映射系統(tǒng)兩大類型,從模型和流程視角綜述2009年RiMOM、As―MOV、DSSim、OntoMap、OntSE五種本體映射系統(tǒng)模型,認(rèn)為本體映射研究在關(guān)聯(lián)數(shù)據(jù)等新興前沿領(lǐng)域的應(yīng)用有待進(jìn)一步深化。
          [關(guān)鍵詞]本體映射系統(tǒng) 映射模型 OAEI關(guān)聯(lián)數(shù)據(jù)
          [分類號(hào)]G350
          
          1 引言
          
          本體映射是實(shí)現(xiàn)本體互操作的關(guān)鍵。本體映射系統(tǒng)是建立在本體映射方法基礎(chǔ)上的,發(fā)現(xiàn)本體映射的方法一般分為四種:①術(shù)語(yǔ)方法:借助自然語(yǔ)言處理技術(shù),比較映射對(duì)象之間的相似度,以發(fā)現(xiàn)異構(gòu)本體間的聯(lián)系;②結(jié)構(gòu)方法:分析異構(gòu)本體之間結(jié)構(gòu)上的相似,尋找可能的映射規(guī)則;③實(shí)例方法:借助本體中的實(shí)例,利用機(jī)器學(xué)習(xí)等技術(shù)來(lái)尋找本體間的映射;④綜合方法:在一個(gè)映射系統(tǒng)中同時(shí)采用多種尋找本體映射的方法,彌補(bǔ)不同方法的不足。
          現(xiàn)有的本體映射系統(tǒng)可分為兩種類型:①通用系統(tǒng)(Generic Systems)。這類系統(tǒng)一般采用通用方法,如不確定性推理、機(jī)器學(xué)習(xí)、相似度聚合等構(gòu)建系統(tǒng)平臺(tái),一般可滿足多個(gè)不同領(lǐng)域的映射需求,在語(yǔ)義網(wǎng)環(huán)境下潛在支持各種應(yīng)用。②領(lǐng)域系統(tǒng)(Domain SpecificSystems)。這類系統(tǒng)針對(duì)特定領(lǐng)域問(wèn)題(例如醫(yī)療、農(nóng)業(yè)等)的本體映射需求,使用具體的領(lǐng)域規(guī)則,啟發(fā)訓(xùn)練或背景知識(shí),在映射方案中具有較強(qiáng)的針對(duì)性。本文主要綜述這兩類系統(tǒng)模型近年來(lái)的代表成果。
          
          2 通用系統(tǒng)模型
          
          早期學(xué)者們開(kāi)發(fā)了多種本體映射系統(tǒng),如GLUE,QOM,PROMPT等。近年來(lái)在國(guó)際語(yǔ)義網(wǎng)會(huì)議的推動(dòng)下,特別是舉辦OAEI(the Ontology"Alignment Evalua―tion Initiative)競(jìng)賽以來(lái),多種通用本體映射系統(tǒng)亮相OAEI,有效促進(jìn)了本體映射的發(fā)展。例如,F(xiàn)alcon―AOt、PRIOR+、DSSim ESl等近20種本體映射系統(tǒng)先后參加比賽。本文選取全程參與最近三屆(2007―2009)OAEI競(jìng)賽的通用系統(tǒng),這些系統(tǒng)由于連年參賽,在測(cè)試中不斷改進(jìn)與完善,基本代表了本體映射系統(tǒng)最新的發(fā)展水平。
          
          2.1 RiMOM
          RiMOM是多策略動(dòng)態(tài)本體映射系統(tǒng),其采用貝葉斯理論,結(jié)合自然語(yǔ)言處理技術(shù)整合多種本體映射策略。RiMOM框架見(jiàn)圖1。
          
          結(jié)合圖1,可將RiMOM匹配過(guò)程概括為以下5個(gè)步驟:
          2.1.1 本體預(yù)處理與特征因素評(píng)估將待匹配本體裝入存儲(chǔ)器建立本體圖表,去除非相關(guān)信息,計(jì)算待匹配本體的標(biāo)簽相似因子、結(jié)構(gòu)相似因子和標(biāo)簽意義相似因子,以此評(píng)估策略選擇。
          2.1.2策略選擇執(zhí)行策略選擇算法,即如果兩個(gè)本體具有某些相同的特征,那么基于這些特征信息的策略將被選擇并進(jìn)行加權(quán);如果本體特征信息較低,那么將不采取基于上述特征信息的策略。
          2.1.3單個(gè)策略執(zhí)行得到所選策略后,發(fā)現(xiàn)個(gè)體匹配,每一個(gè)策略輸出一個(gè)匹配結(jié)果。
          2.1.4 策略結(jié)果整合通過(guò)線性插值方法合并匹配結(jié)果。
          2.1.5相似度優(yōu)化與精煉如果兩個(gè)本體有較高的結(jié)構(gòu)相似因子,使用相似度優(yōu)化過(guò)程進(jìn)一步精煉發(fā)現(xiàn)的映射,依照結(jié)構(gòu)化信息發(fā)現(xiàn)新的匹配。RiMOM基于相似度傳播理論(similarity Propagation Theory)提供了3種相似度聚合策略,分別是概念一概念、概念一屬性、屬性一屬性聚合方法。在此基礎(chǔ)上,系統(tǒng)通過(guò)多個(gè)啟發(fā)式規(guī)則剔除不可靠的映射,精煉匹配結(jié)果。
          RiMOM是以貝葉斯決策理論為基礎(chǔ)開(kāi)發(fā)的本體映射系統(tǒng),它在OAEI 2009中參與了標(biāo)準(zhǔn)測(cè)試、解剖測(cè)試、目標(biāo)匹配和實(shí)例匹配4種類型的競(jìng)賽。作為2009年新推出的實(shí)例匹配測(cè)試項(xiàng)目,其由于具有更多實(shí)例的語(yǔ)義信息及屬性,測(cè)試要求更高。為此,RiMOM在優(yōu)化OAEl2008版本中8種策略的同時(shí),針對(duì)實(shí)例特征推出了若干新方法。與此同時(shí),亦有若干問(wèn)題有待進(jìn)一步提升。例如,面對(duì)比原有模式文檔多得多的大規(guī)模實(shí)例文檔,RiMOM在測(cè)試的效率及穩(wěn)定性方面如何保證;此外,如何深層次挖掘?qū)嵗恼Z(yǔ)義信息等也是研究面臨的重要挑戰(zhàn)。
          
          2.2 ASMOV
          ASMOV是由美國(guó)Jean-Mary等人開(kāi)發(fā)的自動(dòng)化本體映射工具,其目標(biāo)是促進(jìn)異構(gòu)本體的整合,ASMOV運(yùn)用迭代計(jì)算分析3種特征計(jì)算實(shí)體本體對(duì)的相似度,產(chǎn)生基于概念間的映射、屬性間的映射和個(gè)體間的
          2.2.1 預(yù)處理ASMOV使用Jena的ARP解析器和建模組件加載解析本體,采用UMLS元詞表或Word,Net計(jì)算概念、屬性和個(gè)體間的詞表相似度,運(yùn)用文本匹配算法計(jì)算詞表距離。
          2.2.2 相似度計(jì)算與預(yù)匹配 ASMOV通過(guò)外部匹配、內(nèi)部匹配和個(gè)體匹配算法計(jì)算實(shí)體對(duì)的關(guān)系結(jié)構(gòu)相似、內(nèi)部結(jié)構(gòu)相似和擴(kuò)展程度相似,得到基于相似策略的概念矩陣、屬性矩陣和個(gè)體矩陣等3個(gè)二維矩陣。隨后抽取具有最高相似計(jì)算的本體與其他本體形成聯(lián)系實(shí)體,完成預(yù)匹配。
          2.2.3 語(yǔ)義確認(rèn)與匹配結(jié)果 查找并除去預(yù)匹配中語(yǔ)義不一致的映射,并將其保存在日志文檔中,避免后續(xù)迭代重復(fù),直至找到可匹配的所有結(jié)果。
          從整體上來(lái)看,ASMOV在召回率和F度量方面較2008年已取得不俗成績(jī)的基礎(chǔ)上再次有了提升。與此同時(shí),在IIMB(ISLab Instance Matching Bench―mark)測(cè)試方面結(jié)果高度準(zhǔn)確;在實(shí)例匹配中的徹底重新設(shè)計(jì),有效改善了性能。針對(duì)其測(cè)試的范圍及卓越性能,ASMOV可用于書目、生物醫(yī)學(xué)等多種領(lǐng)域本體方面。值得關(guān)注的是,基于大規(guī)模實(shí)例文檔的實(shí)例匹配,ASMOV仍需進(jìn)一步優(yōu)化。
          
          2.3 DSSim
          DSSim是由英國(guó)開(kāi)放大學(xué)Nagy等人共同研制,適合大規(guī)模本體映射的通用系統(tǒng)。它是基于多智能代理體系結(jié)構(gòu)的本體映射系統(tǒng),每一個(gè)智能代理通過(guò)特定映射假設(shè)的修正建立一個(gè)可信函數(shù)(belief),大量可信函數(shù)整合得到更為合理的匹配策略,從而提供最佳映射(主要流程見(jiàn)圖3)。
          
          
          基于特定參數(shù)將大規(guī)模本體分割成n*m片段,解析本體片段并將其裝入匹配任務(wù)隊(duì)列。
          執(zhí)行匹配安排,向空閑處理器核分配任務(wù):①?gòu)谋倔w1中選擇用戶使用的概念或?qū)傩圆⒖紤]其作為查詢片段;在算法上參考WordNet,通過(guò)WordNet的上位詞擴(kuò)大查詢概念或?qū)傩。②從本體2考慮在語(yǔ)句構(gòu)成上相似的概念或?qū)傩詷?gòu)建查詢圖,建立局部本體圖查詢,其中包含概念和屬性以及上述環(huán)境的局部本體查詢片段。③通過(guò)語(yǔ)義相似度算法評(píng)估查詢結(jié)點(diǎn)與本體片段兩者的相似值。④可信質(zhì)量函數(shù)由登普斯特整合規(guī)則(Dempstm’s rule of combination)構(gòu)成,并受相似性矩陣的制約。處理器選用計(jì)算值最高的可信質(zhì)量函數(shù)進(jìn)行映射,對(duì)于不符合條件的進(jìn)行迭代計(jì)算。
          將所選的映射加入匹配集合中,獲得匹配結(jié) 果。DSSim針對(duì)本體映射中表示和推理的不確定性在問(wèn)答情景中采取登普斯特一謝弗理論,這與同為解決不確定性的RiMOM運(yùn)用貝葉斯理論不同。DSSim參與了OAEl2009中的標(biāo)準(zhǔn)測(cè)試、解剖測(cè)試、目錄測(cè)試、實(shí)例匹配等4類共7個(gè)項(xiàng)目的競(jìng)賽,它與ASMOV是該年度參加項(xiàng)目最多的兩位,但在召回率和F度量測(cè)評(píng)方面DSSim均與ASMOV存在差距。
          
          2.4 小結(jié)
          除上述三種本體映射系統(tǒng)外,還有另外兩種本體映射系統(tǒng)Lily和TaxoMap亦參與了OAEI近3年的比賽。其中,Lily是基于語(yǔ)義子圖的通用本體映射系統(tǒng),TaxoMap是以發(fā)現(xiàn)概念間的豐富聯(lián)系為目標(biāo)的本體匹配工具。限于篇幅,這里不再贅述。
          
          3 領(lǐng)域系統(tǒng)模型
          
          領(lǐng)域系統(tǒng)是建立在某一特定領(lǐng)域或解決某一特定問(wèn)題的本體映射系統(tǒng)。較通用系統(tǒng)而言,領(lǐng)域系統(tǒng)在解決特定領(lǐng)域本體互操作方面有其優(yōu)勢(shì)。
          
          3.1 OntoMap
          來(lái)自巴西圣保羅大學(xué)科學(xué)計(jì)算與數(shù)學(xué)研究所的Linhalis等學(xué)者,針對(duì)自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信除英語(yǔ)外尚不能夠支持多種語(yǔ)言交流的特點(diǎn),提出采用國(guó)際語(yǔ)(通用網(wǎng)絡(luò)語(yǔ)言中的一種)作為自然語(yǔ)言和計(jì)算機(jī)之間的中介,通過(guò)軟件構(gòu)件執(zhí)行檢索的思路。其目標(biāo)是促進(jìn)多種自然語(yǔ)言在計(jì)算機(jī)中進(jìn)行處理,為此,他們提出了OntoMap結(jié)構(gòu)模型,結(jié)構(gòu)如圖4所示:
          
          OntoMap模型主要是通過(guò)通用網(wǎng)絡(luò)語(yǔ)言(UniversalNetworking Language,UNL)和軟件構(gòu)件來(lái)執(zhí)行自然語(yǔ)言的請(qǐng)求,OntoMap通過(guò)訪問(wèn)UNL表示推斷構(gòu)件的語(yǔ)義信息,然后使用該語(yǔ)義信息查找一個(gè)乃至多個(gè)合適的構(gòu)件執(zhí)行請(qǐng)求。為了完成這一目標(biāo),OntoMap通過(guò)語(yǔ)義映射模塊將UNL和構(gòu)件聯(lián)系起來(lái)。如圖4所示,OntoMap模型分為UNL轉(zhuǎn)換、語(yǔ)義映射、構(gòu)件搜尋與檢索三部分。其中,語(yǔ)義映射模塊的工作流程如圖5所示:
          
          InterComp本體(國(guó)際語(yǔ)構(gòu)件本體)在語(yǔ)義映射模塊中扮演重要作用,它與規(guī)則一起定義國(guó)際語(yǔ)與軟件構(gòu)件之間的關(guān)系,同時(shí)InterComp本體還用來(lái)搜尋和檢索軟件構(gòu)件,最終達(dá)到執(zhí)行自然語(yǔ)言請(qǐng)求的目的。In―terComp本體將UNL和構(gòu)件的語(yǔ)義信息聯(lián)系起來(lái),UNL令牌分類器在InterComp本體中對(duì)UNL語(yǔ)句分類,通過(guò)具體的規(guī)則推斷構(gòu)件的語(yǔ)義信息,隨后通過(guò)語(yǔ)義信息搜尋語(yǔ)義信息構(gòu)件,完成語(yǔ)義映射。
          OntoMap模型與其他研究的不同在于將自然語(yǔ)言請(qǐng)求轉(zhuǎn)換成國(guó)際語(yǔ),使得多科咱然語(yǔ)言,特別是使用較少的自然語(yǔ)言(限制語(yǔ))能夠在計(jì)算機(jī)中處理。但是,其方案仍需借助大量實(shí)驗(yàn)抽取更多國(guó)際語(yǔ)的語(yǔ)義信息。此外,UNL項(xiàng)目的成熟對(duì)OntoMap的發(fā)展具有關(guān)鍵影響。
          
          3.2 OntSE
          為了克服企業(yè)信息系統(tǒng)用戶在找尋用戶所需要的語(yǔ)義層面的相似信息方面存在的局限,韓國(guó)科學(xué)技術(shù)院Jung M等人運(yùn)用多維相似與貝葉斯網(wǎng)絡(luò)方法提出了OntSE模型,如圖6所示:
          
          OntSE模型主要由4個(gè)本體庫(kù)和3個(gè)模塊組件組成:即用戶本體庫(kù)(UOL)、內(nèi)部形式本體庫(kù)(IOL)、分類本體庫(kù)(TOL)和匹配本體庫(kù)(MOL),分別用來(lái)存取用戶本體(UO)、內(nèi)部形式本體(IOL)、分類本體(TO)和匹配本體(NO)。三個(gè)模塊分別是本體構(gòu)建模塊、本體映射模塊和本體更新模塊,其功能分別是:
          ?本體構(gòu)建:構(gòu)建用戶的關(guān)鍵詞本體。
          ?本體映射:本體庫(kù)中用戶關(guān)鍵詞與存儲(chǔ)的術(shù)語(yǔ)(概念)之間的本體映射。
          ?本體更新:其目標(biāo)是通過(guò)多維相似與貝葉斯網(wǎng)絡(luò)算法找到基于用戶關(guān)鍵詞的相同語(yǔ)義的術(shù)語(yǔ)。
          OntSE系統(tǒng)主要用于搜索不同企業(yè)信息系統(tǒng)的文檔語(yǔ)義信息,用戶可通過(guò)關(guān)鍵詞在上述方法的支持下找尋相關(guān)概念的語(yǔ)義,在用戶協(xié)作的基礎(chǔ)上檢索到相關(guān)文檔。OntSE模型具有3個(gè)典型特征:①通過(guò)本體映射找到用戶要查找的在語(yǔ)義上相似的概念;②利用用戶的關(guān)鍵詞描述更新本體庫(kù);③用戶的歷史匹配決策被用來(lái)幫助隨后的用戶搜索。該系統(tǒng)的不足是對(duì)于具體領(lǐng)域的參數(shù)或加權(quán)因子需要大量實(shí)驗(yàn),在此基礎(chǔ)上調(diào)整賦于合適的參數(shù)值滿足具體領(lǐng)域信息的需求。
          
          4 本體映射系統(tǒng)評(píng)價(jià)
          
          無(wú)論是通用系統(tǒng)還是領(lǐng)域系統(tǒng),本體映射系統(tǒng)的優(yōu)劣均需要檢驗(yàn)和比較。以通用系統(tǒng)為例,其評(píng)價(jià)一般采用OAEI競(jìng)賽所提供的公共數(shù)據(jù)集進(jìn)行測(cè)驗(yàn)。國(guó)際語(yǔ)義網(wǎng)會(huì)議自2004年開(kāi)始每年舉辦一次OAEI競(jìng)賽,截至2009年已舉辦6次。該年測(cè)評(píng)體系包括5個(gè)大類共11種數(shù)據(jù)集。其中標(biāo)準(zhǔn)測(cè)試是競(jìng)賽的基礎(chǔ),其目標(biāo)是考查本體映射系統(tǒng)在算法方面的強(qiáng)弱;而實(shí)例匹配則成為近年來(lái)關(guān)注的熱點(diǎn)。上述各類評(píng)價(jià)指標(biāo)包括查準(zhǔn)率、召回率和F度量,計(jì)算公式如下:
          查準(zhǔn)率:P=發(fā)現(xiàn)正確的映射/發(fā)現(xiàn)所有的映射
          召回率:R=發(fā)現(xiàn)正確的映射/所有可能的映射
          F度量:F-m=2*P*R/(P+R)
          對(duì)于大規(guī)模本體的數(shù)據(jù)集來(lái)說(shuō),查準(zhǔn)率和召回率兩者相互制約,F(xiàn)度量是上述兩種指標(biāo)的一種平衡。5展望
          上述五種研究模型是本體映射研究最新發(fā)展的一個(gè)側(cè)面。盡管本體映射已成為相對(duì)成熟的研究領(lǐng)域,但仍存在很多問(wèn)題尚待進(jìn)一步研究,特別是在與相關(guān)前沿研究領(lǐng)域的結(jié)合方面,本體映射模型及其若干方法的應(yīng)用亟待關(guān)注。例如,發(fā)展近5年的關(guān)聯(lián)數(shù)據(jù)(1inked data)近年來(lái)成為圖書情報(bào)界關(guān)注的熱點(diǎn)。瑞典、德國(guó)、英國(guó)等國(guó)國(guó)家圖書館率先將聯(lián)合目錄、詞表或書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),與其他多種資源建立了關(guān)聯(lián)。但是如何將這些關(guān)聯(lián)起來(lái)的數(shù)據(jù)實(shí)現(xiàn)進(jìn)一步整合,以推動(dòng)關(guān)聯(lián)數(shù)據(jù)的深層應(yīng)用成為發(fā)展的瓶頸。一些研究人員提出可嘗試將本體映射的若干研究成果引入到關(guān)聯(lián)數(shù)據(jù)中,在解決關(guān)聯(lián)數(shù)據(jù)的實(shí)例異構(gòu)和值的轉(zhuǎn)換等方面發(fā)揮作用,這方面的研究有待深入。

        相關(guān)熱詞搜索:本體 映射 綜述 2009年以來(lái)本體映射系統(tǒng)模型研究綜述 本體映射系統(tǒng)研究綜述 本體映射的研究綜述

        版權(quán)所有 蒲公英文摘 smilezhuce.com