东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        歐萊雅網(wǎng)絡(luò)營銷策略【基于語義模型的數(shù)字圖書館知識組織信息抽取策略】

        發(fā)布時(shí)間:2020-03-07 來源: 人生感悟 點(diǎn)擊:

          [摘要]簡述語義模型是實(shí)現(xiàn)數(shù)字資源語義關(guān)系形式化描述的方式,是數(shù)字圖書館知識組織語義互聯(lián)的重要影響因素。作為數(shù)字圖書館知識組織語義互聯(lián)的重要環(huán)節(jié),信息抽取需要本體提供語義知識依據(jù),同時(shí)產(chǎn)生的文檔也可以作為設(shè)計(jì)和豐富本體的知識資源。構(gòu)建數(shù)字圖書館知識組織語言聯(lián)的語義模型以“元數(shù)據(jù)、領(lǐng)域本體、橋本體、本體解析體系”為核心要素,在此基礎(chǔ)上探討信息抽取的策略。
          [關(guān)鍵詞]數(shù)字圖書館 語義模型 信息抽取 本體
          [分類號]G250.76
          
          1 引言
          
          語義是指“數(shù)據(jù)(符號)”所指代的概念的含義以及這些含義之間的關(guān)系,是對數(shù)據(jù)的抽象或者更高層次的邏輯表示。語義通過兩種途徑產(chǎn)生:①人類賦予;②通過計(jì)算模型產(chǎn)生。通過第二種方式產(chǎn)生的語義可以被計(jì)算機(jī)理解和處理,可以被獲取、傳遞、共享。根據(jù)實(shí)體資源(如文本和圖像)來產(chǎn)生語義或挖掘出信息所蘊(yùn)含的隱性語義是一個(gè)挑戰(zhàn)性的任務(wù);诮y(tǒng)計(jì)的聚類分析、共詞分析、信息抽取和挖掘技術(shù)可以幫助實(shí)現(xiàn)語義的自動(dòng)抽取。實(shí)現(xiàn)的關(guān)鍵在于建立一個(gè)語義模型,該模型既適用于顯式語義,又適用于通過顯式語義挖掘推導(dǎo)出隱含語義。語義模型是通過模型作為媒介來實(shí)現(xiàn)數(shù)據(jù)語義關(guān)系形式化描述的一種方式。基于本體的語義模型是通過以本體為核心的模型作為媒介,實(shí)現(xiàn)數(shù)字資源語義關(guān)系形式化描述的一種方式。本文基于本體構(gòu)建了語義模型,并基于該語義模型探討數(shù)字圖書館知識組織過程中信息抽取策略。
          
          2 信息抽取與本體
          
          信息抽取是從分布的、異構(gòu)的文本中提取出特定的事實(shí)信息,將其中隱含的語義提取出來并以更為結(jié)構(gòu)化、更為清晰的形式表示,為用戶使用提供便利。信息抽取與語義標(biāo)注總是融合在一起、互相支持的;信息抽取需要在語義標(biāo)注的基礎(chǔ)上進(jìn)行,語義標(biāo)注的內(nèi)容是經(jīng)過信息抽取提取出來的。因此,目前對于信息抽取研究離不開對抽取對象的語義分析和描述。語義分析與描述技術(shù)的研究熱點(diǎn)是本體技術(shù)。
          
          本體是對面向計(jì)算機(jī)語言的、已被組織的知識的描述,而信息抽取是面向自然語言,分析文檔表達(dá)的事實(shí)和從這些文檔中提取相關(guān)信息片段。信息抽取和本體是相輔相成的:作為抽取相關(guān)信息的理解程序,本體被用于信息抽取,是信息抽取的語義知識依據(jù);信息抽取可以豐富本體,因?yàn)樾畔⒊槿〕鰜淼奈臋n可以作為設(shè)計(jì)和豐富本體的知識資源。
          這兩方面的任務(wù)被結(jié)合在循環(huán)中(見圖1)。本體可以有效地、準(zhǔn)確地、解釋信息抽取出來的數(shù)據(jù),而信息抽取從文檔提取出來的新知識可以整合進(jìn)入本體從而豐富本體。
          
          2.1本體對信息抽取的支持
          在抽取過程中,本體知識對文檔的語義解釋具有重要作用。
          本體對領(lǐng)域概念以及概念的多種形式進(jìn)行了規(guī)范性說明,因此在信息抽取中可以用來進(jìn)行字符串的語義分析,進(jìn)而進(jìn)行概念識別;在信息抽取過程中,需要領(lǐng)域本體對文檔中實(shí)體名稱進(jìn)行識別與分類。本體中的類可以對信息抽取文檔進(jìn)行概念識別、語義標(biāo)注和概念規(guī)范。
          本體的概念層次結(jié)構(gòu)。傳統(tǒng)信息抽取的重點(diǎn)是使用同義詞集而不是層次關(guān)系。例如,在wordNet中,同義詞集可以用于語義標(biāo)注和消歧,但上下類關(guān)系還需要本體參與。本體中包含的語義類型或語義的層次關(guān)系,有助于通過抽取內(nèi)容進(jìn)行推理和忠實(shí)釋義。
          更先進(jìn)的信息抽取系統(tǒng)也需要利用領(lǐng)域本體的概念節(jié)點(diǎn)、概念節(jié)點(diǎn)的屬性和相互關(guān)系予以描述。本體中的概念與屬性值能夠清楚地描述信息抽取對象的本質(zhì)。對于文檔中抽取對象的分析既能提高自然語言處理,又能指導(dǎo)概念框架的實(shí)體構(gòu)成,而相應(yīng)的規(guī)則即是基于短語模型,更多是基于語義分析的。
          領(lǐng)域概念模型。領(lǐng)域概念模型本身用于推理,它能合并不同表現(xiàn)形式的同一概念,并且能夠揭示出隱含的語義。
          
          2.2信息抽取對本體的豐富
          本體構(gòu)建一直是公認(rèn)的語義進(jìn)程中的瓶頸,而信息抽取有助于本體構(gòu)建。已經(jīng)提出各種方法用于語料庫的建設(shè)以利于本體構(gòu)建,如基于規(guī)則的信息抽取即是對本體構(gòu)建方法的補(bǔ)充;谕评硪(guī)則抽取出基本數(shù)據(jù),通過已有本體對該數(shù)據(jù)進(jìn)行概念及概念關(guān)系分析,在此基礎(chǔ)上將數(shù)據(jù)中新的概念或概念間的新關(guān)系整合到本體。
          實(shí)體命名抽取:實(shí)體命名通過在本體中以實(shí)例的形式表示。從這個(gè)角度看,需要自動(dòng)地不斷地為本體增添一些熱門領(lǐng)域的實(shí)體名稱。而信息抽取被廣泛應(yīng)用于識別和分類文檔、網(wǎng)頁、數(shù)據(jù)庫等中的實(shí)體。
          關(guān)系抽。涸诮Y(jié)構(gòu)化本體中,概念與概念之間存在著語義關(guān)聯(lián)。目前從文檔中獲取本體關(guān)系的方法主要有三種:基于共詞分析方法、基于知識庫方法和基于信息抽取模式方法。信息提取模式方法提升了前兩種方式:第一種方法需要對基本關(guān)系類型進(jìn)行解釋,而信息抽取中的規(guī)則就是特色化關(guān)系;第二種方法原有的知識可以幫助設(shè)計(jì)一個(gè)提取規(guī)則。
          信息抽取通過本體進(jìn)行基于領(lǐng)域的語義分析,提升信息的語義性,為智能檢索打下基礎(chǔ);本體通過信息抽取不斷學(xué)習(xí),不斷演化,解決本體構(gòu)建的瓶頸問題。鑒于此,本文基于本體構(gòu)建數(shù)字圖書館知識組織語義互聯(lián)的語義模型,利用語義模型探討語義互聯(lián)實(shí)現(xiàn)過程中各個(gè)重要環(huán)節(jié)的策略,進(jìn)而最終完成數(shù)字圖書館知識組織的語義互聯(lián)。
          
          3 數(shù)字圖書館互聯(lián)的語義模型
          
          語義模型是對內(nèi)容語義、語義類型及語義關(guān)系進(jìn)行描述和組織的機(jī)制,它試圖在用戶的信息需求和信息資源之間搭建一座橋梁,將兩者靈活而有機(jī)地結(jié)合起來,從語義的角度來解析信息資源,進(jìn)而從互理解的角度來提升用戶檢索的準(zhǔn)確度和召回率,更好地滿足用戶的信息需求。語義模型是影響數(shù)字圖書館知識組織語義互聯(lián)的核心要素。本文構(gòu)建了以元數(shù)據(jù)、領(lǐng)域本體、橋本體和本體解析體系為組成要素的語義模型,利用語義模型實(shí)現(xiàn)數(shù)字圖書館知識組織過程中的數(shù)字資源、用戶需求表達(dá)的語義解析,完成數(shù)字圖書館用戶交互層、內(nèi)容管理與功能層、內(nèi)容層之間的語義映射。其中,元數(shù)據(jù)進(jìn)行資源的標(biāo)準(zhǔn)化描述,領(lǐng)域本體進(jìn)行概念以及概念之間關(guān)系的語義標(biāo)注,橋本體用于資源之間語義聚合,本體解析主要解決本體的具體效用發(fā)揮的方式,如圖2所示:
          
          3.1元數(shù)據(jù)
          元數(shù)據(jù)是數(shù)字圖書館用來解決語義互聯(lián)的重要基礎(chǔ)工具。數(shù)字圖書館由資源構(gòu)成,而資源是可以被標(biāo)識的。元數(shù)據(jù)提供了對資源各種屬性的描述。元數(shù)據(jù)通過定義數(shù)字圖書館中資源的信息結(jié)構(gòu)以及定義由數(shù)字對象構(gòu)成的資源庫的組織結(jié)構(gòu),決定著數(shù)字圖書館知識組織和知識服務(wù)方式。元數(shù)據(jù)發(fā)展比較成熟,已經(jīng)形成完整規(guī)范的元數(shù)據(jù)體系,包括元數(shù)據(jù)格式、元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)方案、元數(shù)據(jù)應(yīng)用綱要、元數(shù)據(jù)注冊系統(tǒng)等等,這些為數(shù)字圖書館知識組織語義互聯(lián)打下了基礎(chǔ)。
          
          3.2領(lǐng)域本體
          領(lǐng)域本體是知識組織體系中重要組成部分,其目標(biāo)是捕獲相關(guān)領(lǐng)域的知識。領(lǐng)域本體是對領(lǐng)域內(nèi)共享概念模型的明確的形式化的規(guī)范說明;概念以及概念之間的關(guān)系是經(jīng)過精確定義的,提供了對領(lǐng)域知識的共同理解與描述,能夠?yàn)橛?jì)算機(jī)所使用并可用數(shù)學(xué)方 式表達(dá)。在領(lǐng)域本體技術(shù)驅(qū)動(dòng)下,信息資源以全新方式進(jìn)行組織,組織原理發(fā)生如下改變:①從用戶可理解到機(jī)器可理解;②從信息描述到知識表現(xiàn);③從語義隱含到語義揭示;④從“以概念為中心”到“以概念一關(guān)系為中心”;⑤從信息表示到智能推理。這些變化要求知識組織理論、形式、方法、技術(shù)、體系以及知識組織過程都要隨之改變,實(shí)現(xiàn)對資源從語法層面向語義層面深入,最后直至語用層面的組織,在獲取、表示、加工、存儲、重組、提供、共享、利用、控制等知識組織過程中,充分體現(xiàn)語義性,在數(shù)字圖書館系統(tǒng)的各層之間,在用戶、資源、服務(wù)之間,形成語義互理解和互操作。
          
          3.3橋本體
          橋本體是一種特殊的本體,完成不同領(lǐng)域本體概念之間關(guān)系的映射,進(jìn)而實(shí)現(xiàn)本體整合,形成領(lǐng)域內(nèi)的共享本體。橋本體記作Obridg。,可以用一個(gè)六元組表示:
          Obridge={cb,Acb,Rb,Arb,hb,xb}(1)
          其中,cb表示橋本體概念的集合,Acb表示橋本體概念所對應(yīng)的屬性集的集合,Rb表示橋本體之間關(guān)系的集合;Arb是橋本體之間關(guān)系所對應(yīng)的屬性集的集合,Hb代表了概念的層次結(jié)構(gòu),xb是一系列公理集合。
          在概念上,橋本體具有四層樹形結(jié)構(gòu)(見圖3):第一層是最普遍的概念,標(biāo)記為T;第二層具有概念橋和關(guān)系橋兩個(gè)概念,它們分別表示了兩種不同的橋關(guān)系;第三層由10種不同類型的子類橋組成;第四層是一系列動(dòng)態(tài)創(chuàng)建概念的集合,它們的屬性描述了不同本體之間關(guān)系的信息。其中上面三層是固定的,稱之為靜態(tài)層,第四層的概念是根據(jù)已知的多本體動(dòng)態(tài)產(chǎn)生的,為動(dòng)態(tài)層。
          
          3.4本體解析體系
          數(shù)據(jù)存儲模式的選擇直接影響使用的效率。本體是系統(tǒng)多層之間語義聯(lián)系的紐帶,因此本體、橋本體的存儲方式影響數(shù)字圖書館知識組織和知識服務(wù)的質(zhì)量。本文選用的本體描述語言為W3C推薦的OWL,將其存儲到關(guān)系數(shù)據(jù)庫。關(guān)系數(shù)據(jù)庫存儲本體既有缺點(diǎn),對本體含有的豐富語義缺乏精準(zhǔn)的表現(xiàn),又有無可比擬的優(yōu)點(diǎn)。已有文獻(xiàn)對本體到關(guān)系數(shù)據(jù)庫模式映射進(jìn)行了詳盡的闡述,在此僅談及橋本體的解析。
          根據(jù)橋本體的概念結(jié)構(gòu)和關(guān)系數(shù)據(jù)庫的形式化定義,下面給出它到關(guān)系數(shù)據(jù)庫模式的映射規(guī)則。
          以橋本體建立數(shù)據(jù)庫,取名為database-brid―geO。
          橋本體中的十個(gè)橋關(guān)系分別為橋本體的子類,分別以這十個(gè)橋關(guān)系建立十張表,表名為table―Bcequal、table_BCdifferent、table_BCisa、table_Bcinstan―ceof、table BCoverlap、table BChasa、table_Beopposed、ta-ble_BCconnect、table_BRsubsume和table_Brinverse。
          將橋本體的屬性映射為各個(gè)表的屬性,屬性類型為字符型;各表屬性個(gè)數(shù)并不相同,主要包括三類:一類表示具有該種橋關(guān)系的兩個(gè)領(lǐng)域本體的名稱;一類表示具有該種橋關(guān)系的領(lǐng)域本體的類名稱;一類屬性代表該類所對應(yīng)表的地址。
          屬性值分別取值為領(lǐng)域本體名、領(lǐng)域本體中類名和類對應(yīng)的表名。
          不同領(lǐng)域本體概念之間的關(guān)系構(gòu)成表中的記錄。
          表中的主鍵為復(fù)合主鍵,由不同領(lǐng)域本體名稱和不同概念名稱組合而成。
          
          4 基于語義模型的信息抽取策略
          
          抽取對象是異質(zhì)的、異構(gòu)的、多語種的、半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的,并且可能存在著語義模糊、語義缺失,因此對抽取對象實(shí)體命名識別、實(shí)體間關(guān)系的識別變得更加困難,需要多種技術(shù)協(xié)作完成。語義模型能有效協(xié)助信息抽。豪迷獢(shù)據(jù)對數(shù)字信息資源和用戶信息資源進(jìn)行規(guī)范化描述,利用領(lǐng)域本體集和橋本體實(shí)現(xiàn)數(shù)字資源和用戶信息資源語義關(guān)系形式化描述,而語義模型中本體解析體系為信息抽取為利用本體提供了途徑。因此,利用語義模型可以有效地進(jìn)行實(shí)體命名識別和信息抽取規(guī)則制定;谝(guī)則進(jìn)行信息抽取能有效過濾掉噪聲,增加新的結(jié)構(gòu)信息。大體過程如圖4所示:
          
          4.1數(shù)據(jù)采集和數(shù)據(jù)清洗
          通過各種數(shù)據(jù)采集工具對數(shù)據(jù)庫、文檔和網(wǎng)頁進(jìn)行數(shù)據(jù)采集。數(shù)據(jù)庫中的數(shù)據(jù)是結(jié)構(gòu)化的,采集相對簡易;而文檔和網(wǎng)頁結(jié)構(gòu)各異,先將它們抓取入系統(tǒng);數(shù)據(jù)清洗目的是對有信息價(jià)值的各種數(shù)據(jù)通過處理產(chǎn)生純文檔。首先對抓取的原始數(shù)據(jù)進(jìn)行結(jié)構(gòu)分析,去除噪聲,分析數(shù)據(jù)是表結(jié)構(gòu)、文檔結(jié)構(gòu)還是網(wǎng)頁結(jié)構(gòu),網(wǎng)頁結(jié)構(gòu)是內(nèi)容型網(wǎng)頁還是表單型網(wǎng)頁,并對各種結(jié)構(gòu)進(jìn)行識別剝離;然后進(jìn)行內(nèi)容分析,例如網(wǎng)頁中的廣告、圖像、版權(quán)信息等等;最后對用戶關(guān)心的信息內(nèi)容進(jìn)行提取,產(chǎn)生待處理的純文檔,如圖5所示:
          
          4.2文檔預(yù)處理
          文檔預(yù)處理的任務(wù)是自然語言處理,將文檔處理切分為待處理的詞匯和信息單元。首先將待處理的純文檔進(jìn)行詞語切分和詞性標(biāo)注,取出分詞結(jié)果中的名詞和動(dòng)詞;然后按標(biāo)點(diǎn)符號進(jìn)行短句分割,作為信息單元,并以此作為信息抽取的粒度;最后對短句進(jìn)行語法詞法分析,并實(shí)施初次篩選,保留其中至少包含兩個(gè)名詞和一個(gè)動(dòng)詞的信息單元。該過程需要相關(guān)領(lǐng)域知識的術(shù)語表、詞匯表、主題詞表等,對分詞系統(tǒng)中的詞表進(jìn)行二次加工。語義模型中的領(lǐng)域本體可以提供規(guī)范化的概念及概念中所涉及術(shù)語的多種形式,可以對詞表進(jìn)行豐富和規(guī)范,如圖6所示:
          
          4.3規(guī)則生成
          信息抽取規(guī)則的生成利用了本文構(gòu)建的語義模型。語義模型中的領(lǐng)域本體描述了概念、屬性、實(shí)例以及本體內(nèi)部概念與概念之間的關(guān)系,橋本體描述跨本體的概念之間的多種關(guān)系。領(lǐng)域本體和橋本體用OWL描述,將OWL本體映射到關(guān)系數(shù)據(jù)庫,形成語義模型數(shù)據(jù)庫;數(shù)據(jù)庫中含有若干個(gè)表,通過表、表的屬性、表的主鍵與外鍵以及屬性之間的約束對本體進(jìn)行解析。信息規(guī)則在此基礎(chǔ)上生成:首先從語義模型數(shù)據(jù)庫抽取類、抽取屬性、抽取實(shí)例、抽取關(guān)系,對于橋本體還需要抽取表名;然后通過其解析出的本體中描述的概念、關(guān)系、層次結(jié)構(gòu)等來生成三元組,再將此三元組作為信息抽取的規(guī)則存入規(guī)則庫。如圖7所示:
          
          4.4實(shí)體抽取
          信息抽取主要是對信息單元進(jìn)行解析后,對信息單元中的名詞基于語義模型中的概念和實(shí)例進(jìn)行實(shí)體命名識別,充分利用本體對概念規(guī)范描述的優(yōu)勢,提高實(shí)體命名識別的準(zhǔn)確性;再對信息單元重新規(guī)范,形成具有主、謂、賓三元關(guān)系的分析樹。將該分析樹與抽取規(guī)則三元組進(jìn)行匹配,如果匹配成功則將該三元關(guān)系存入數(shù)據(jù)庫中,完成信息抽。蝗绻ヅ洳怀晒,對該三元關(guān)系的概念與語義模型進(jìn)行語義相似度計(jì)算,根據(jù)計(jì)算結(jié)果,形成本體中的新概念或新關(guān)系,添加到語義模型中,完成本體學(xué)習(xí),豐富領(lǐng)域本體,如圖8所示:
          基于語義模型的信息抽取有如下好處:①語義模型的引入既保證了結(jié)構(gòu)的一致性,又保證了數(shù)據(jù)的一致性,使不同來源的數(shù)據(jù)都能以統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行描述和呈現(xiàn),方便了信息的繼承與交換,提高了信息抽取的準(zhǔn)確率及召回率;②驅(qū)使整個(gè)信息抽取過程都直接來自于語義模型,這為利用各種各樣的本體數(shù)據(jù)呈現(xiàn)了一條非常自然的路徑;③基于語義模型的系統(tǒng)可以促進(jìn)本體進(jìn)化,豐富領(lǐng)域本體。
          
          5 結(jié)語
          
          本文通過探求和把握語義描述和組織的規(guī)律,構(gòu)建了以元數(shù)據(jù)、領(lǐng)域本體、橋本體和本體解析體系為組成要素的語義模型,試圖建設(shè)一種有效機(jī)制,發(fā)揮其作為數(shù)字圖書館知識組織語義互聯(lián)重要影響因素的作用,在此基礎(chǔ)上研究信息抽取策略,進(jìn)而為數(shù)字圖書館知識組織語義互聯(lián)理論和實(shí)踐提供奠基性的方法論支持。

        相關(guān)熱詞搜索:語義 抽取 數(shù)字圖書館 基于語義模型的數(shù)字圖書館知識組織信息抽取策略 數(shù)字圖書館知識組織策略 信息抽取技術(shù)探析

        版權(quán)所有 蒲公英文摘 smilezhuce.com