东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        互聯(lián)網(wǎng)資源知識(shí)本體自動(dòng)構(gòu)建實(shí)證研究 本體構(gòu)建

        發(fā)布時(shí)間:2020-03-10 來(lái)源: 散文精選 點(diǎn)擊:

          [摘要]研究一種利用互聯(lián)網(wǎng)已有資源就可以自動(dòng)構(gòu)建互聯(lián)網(wǎng)資源知識(shí)本體的方法,從可以讓用戶對(duì)資源添加自由分類標(biāo)簽的網(wǎng)站標(biāo)簽中篩選出概念,根據(jù)標(biāo)簽與資源的關(guān)系,設(shè)計(jì)合理的規(guī)則,繪出概念關(guān)系網(wǎng)絡(luò)地圖,從概念關(guān)系網(wǎng)絡(luò)地圖中總結(jié)規(guī)律,分析出構(gòu)建概念之間各種級(jí)系的合理規(guī)則,編成讓計(jì)算機(jī)理解的網(wǎng)絡(luò)本體語(yǔ)言自動(dòng)構(gòu)建互聯(lián)網(wǎng)知識(shí)本體。根據(jù)概念匹配原則,系統(tǒng)軟件可以自動(dòng)套用預(yù)給的權(quán)威詞典解釋,也可自動(dòng)讀取百度百科網(wǎng)站相關(guān)的概念的解釋,套入本體術(shù)語(yǔ)解釋數(shù)據(jù)庫(kù)。
          [關(guān)鍵詞]本體 自由分類標(biāo)簽 概念關(guān)系結(jié)構(gòu)圖 自動(dòng)構(gòu)建
          [分類號(hào)]G250
          
          1 引言
          
          本體是某一領(lǐng)域共享的、概念化、形式化表示的知識(shí)體系,第二代互聯(lián)網(wǎng)的發(fā)展需要大量領(lǐng)域本體作為支撐。目前領(lǐng)域本體主要依賴手工構(gòu)建,而且只包含非常少的領(lǐng)域概念,需要耗費(fèi)大量的人力和時(shí)間,對(duì)于互聯(lián)網(wǎng)資源知識(shí)的本體更是無(wú)從構(gòu)建。新的詞匯和概念每天都在出現(xiàn),概念間的關(guān)系也在發(fā)生變化,所以互聯(lián)網(wǎng)資源本體構(gòu)建一定要利用軟件快速構(gòu)建,自動(dòng)更新。研究快速地自動(dòng)構(gòu)建互聯(lián)網(wǎng)資源知識(shí)本體不但可以節(jié)省大量的人力物力,而且是建設(shè)語(yǔ)義網(wǎng)的基礎(chǔ)。
          
          2 本體自動(dòng)構(gòu)建的研究現(xiàn)狀
          
          當(dāng)前,國(guó)內(nèi)外許多研究團(tuán)體正在致力于本體的自動(dòng)構(gòu)建方法的研究。較為成熟和流行的是基于詞典的本體半自動(dòng)構(gòu)建方案,WordNet和HowNet兩部詞典都是基于世界知識(shí)分析總結(jié)后建立的電子詞典,其中記錄了比較全面的概念詞條,通常用來(lái)作為構(gòu)建本體用詞典。概念發(fā)現(xiàn)過(guò)程中進(jìn)行的模式匹配和概念相似度計(jì)算,就是基于詞典進(jìn)行的,對(duì)抽取的數(shù)據(jù)進(jìn)行凈化處理后,將獲得一條條名詞詞組,然后以詞典為基礎(chǔ),進(jìn)行字符串的匹配,從而發(fā)現(xiàn)新的概念。同時(shí),詞典也是概念間關(guān)系發(fā)現(xiàn)的基礎(chǔ),根據(jù)詞典中已有的上下位關(guān)系、同義關(guān)系進(jìn)行概念的相似度計(jì)算,從而完成本體自動(dòng)構(gòu)建過(guò)程中的概念匹配過(guò)程和確定關(guān)系過(guò)程。本體術(shù)語(yǔ)的定義也是采用詞典的解釋作為術(shù)語(yǔ)定義。
          對(duì)于互聯(lián)網(wǎng)資源知識(shí)本體的自動(dòng)構(gòu)建,如果按上述利用詞典去構(gòu)建的方法,筆者認(rèn)為還存在以下問(wèn)題:①互聯(lián)網(wǎng)新知識(shí)新概念每天都層出不窮,而詞典的概念是固定的,有限的,如果靠專家人工去不斷完善詞典,實(shí)際上也不是自動(dòng)構(gòu)建;②詞典對(duì)于概念間的關(guān)系描述有限,對(duì)于關(guān)系的發(fā)現(xiàn)還只限于上下位關(guān)系和同義關(guān)系的發(fā)現(xiàn),而實(shí)際應(yīng)用的本體內(nèi)存在更多的較復(fù)雜的關(guān)系”’;③利用詞典進(jìn)行的相關(guān)度計(jì)算,匹配計(jì)算,相似度計(jì)算后得出概念關(guān)系會(huì)存在偏差,這樣得出的本體應(yīng)用起來(lái)就會(huì)出現(xiàn)難以被人理解的情況;④利用詞典自動(dòng)構(gòu)建的本體還未能對(duì)數(shù)據(jù)源的領(lǐng)域范圍進(jìn)行判斷,這影響本體自動(dòng)構(gòu)建的正確率。
          
          3 利用互聯(lián)網(wǎng)已有資源自動(dòng)構(gòu)建互聯(lián)網(wǎng)資源知識(shí)本體
          
          3.1 新觀點(diǎn)、新方法
          自由分類可以看作“本體論的新學(xué)派”,因?yàn)樽杂煞诸惙ǹ梢员豢醋魇且环N“社會(huì)化的本體,本體的構(gòu)建不需要再依賴專家,而可以從豐富的用戶數(shù)據(jù)中提取。自由分類要自動(dòng)構(gòu)建和豐富本體,其關(guān)鍵是要過(guò)濾掉非形式化、不規(guī)范的標(biāo)簽,篩選出正確的概念,確定概念之間復(fù)雜的層次關(guān)系,同義關(guān)系和屬性關(guān)系,并用準(zhǔn)確的定義去描述概念。
          
          3.2 確定本體的領(lǐng)域和范圍
          只有在可以讓用戶添加自由分類標(biāo)簽的網(wǎng)站才可以提供這些構(gòu)成本體的詞匯、術(shù)語(yǔ)和它們之間的關(guān)系。用戶添加自由分類標(biāo)簽的類型有:推薦的網(wǎng)站網(wǎng)頁(yè)資源分類標(biāo)簽;推薦的圖書,電影,音樂(lè)分類標(biāo)簽;視頻分類標(biāo)簽;博客分類標(biāo)簽;論壇分類標(biāo)簽;圖片分類標(biāo)簽;百科知識(shí)(WIKI)分類標(biāo)簽;開放存取論文分類標(biāo)簽;推薦的新聞分類標(biāo)簽;商品分類標(biāo)簽;威客witkey標(biāo)簽;用戶上傳分享文檔的標(biāo)簽等。雖然自由分類標(biāo)簽并沒有覆蓋所有的互聯(lián)網(wǎng)資源類別和資源,但都是用戶推薦的,有代表性的;ヂ(lián)網(wǎng)的本體構(gòu)建只需每個(gè)類別資源中的有代表性的,受歡迎的資源去構(gòu)建就行了。
          
          3.3 列舉各領(lǐng)域中重要的術(shù)語(yǔ)、概念
          自由分類標(biāo)簽中有許多非分類詞標(biāo)簽,設(shè)計(jì)軟件對(duì)以下很明顯的垃圾標(biāo)簽進(jìn)行過(guò)濾,例如:純標(biāo)點(diǎn)符號(hào)、純數(shù)字、數(shù)字加中文、單個(gè)字,等等。過(guò)濾后還會(huì)剩下不少垃圾標(biāo)簽,由于其字面描述亂七八糟,出現(xiàn)次數(shù)很少,因此只要對(duì)只出現(xiàn)若干次以下的標(biāo)簽不予統(tǒng)計(jì)即可,這樣兩次過(guò)濾后,就得到的比較標(biāo)準(zhǔn)的概念。
          
          
          
          3.4 本體概念的組織
          如果同一資源被用戶添加了兩個(gè)不同的標(biāo)簽(概念),那么就說(shuō)明這兩個(gè)概念之間存在部分意義關(guān)聯(lián),也就是有某部分含義的交叉重疊或者聯(lián)系。概念之間存在同義詞、包含、層次、等級(jí)等關(guān)系,分析它們所標(biāo)注過(guò)的資源集合的關(guān)系就可以分析出概念之間的關(guān)系,當(dāng)兩個(gè)概念標(biāo)注同一個(gè)資源時(shí),兩個(gè)概念之間就用一根連接線連接起來(lái),兩個(gè)概念之間連線越多就說(shuō)明這兩個(gè)概念意義越相近,當(dāng)兩個(gè)概念標(biāo)注過(guò)的資源集合連線數(shù)達(dá)到等于較小的概念標(biāo)注過(guò)的資源集合元素總數(shù)時(shí),就說(shuō)明這兩個(gè)概念集合為同義詞關(guān)系或直接包含關(guān)系。如圖1所示:
          圖1中的數(shù)字94、98、99、101為不同資源的代碼,長(zhǎng)方形為概念名稱,橢圓表示概念包含的資源的集合,概念“圖畫書”標(biāo)注過(guò)的資源集合和概念“繪本”標(biāo)注過(guò)的資源集合的連接線達(dá)到最大限度,說(shuō)明這兩個(gè)概念為同義詞或者達(dá)到完全包含的關(guān)系。如果為同義詞的,就將它們合并為一個(gè)概念;如果為直接包含的,就把包含較少元素的概念作為包含較多元素概念的子目錄。如果一系列概念中有互相完全包含關(guān)系的,就用不同的括符表示。例如A包含B,B包含C,B包含D,D包含E,那么就用A|B[C,D(E)],表示,而且合并為一個(gè)大概念A(yù)。
          把每個(gè)概念看作一個(gè)點(diǎn),兩個(gè)概念之間無(wú)論有多少條連線。都簡(jiǎn)化為一條連線,而且連線的大小與原有的連線多少有關(guān),原連線越多就越加粗表示。
          這樣就處理后,就可以得出每個(gè)概念之間的關(guān)系網(wǎng)絡(luò)地圖,從而判斷它們之間的層次,等級(jí)關(guān)系。
          例如,筆者從豆?網(wǎng)(http://www.省略)的數(shù)據(jù)中選擇了120本有關(guān)文學(xué)的圖書和它們被用戶添加的自由分類標(biāo)簽進(jìn)行研究繪圖,首先對(duì)120本圖書標(biāo)上1到120的編號(hào),這樣每個(gè)數(shù)字就代表一本圖書,對(duì)只出現(xiàn)三次以下的標(biāo)簽省略掉,這樣就去掉了絕大部分非分類詞標(biāo)簽,得到較為標(biāo)準(zhǔn)的概念,在每個(gè)概念后列出其標(biāo)注過(guò)的圖書的編號(hào)。
          兩概念(標(biāo)簽)之間只有一條連線的(即兩個(gè)標(biāo)簽只標(biāo)注了同一本書)就省略,因?yàn)橹挥幸粭l連線不足以說(shuō)明兩個(gè)概念之間有包含等級(jí)關(guān)系,可能只是某用戶的偏理解。兩概念(標(biāo)簽)之間只有兩條以上連線的(即兩個(gè)標(biāo)簽同時(shí)標(biāo)注了兩本以上的書),繪制時(shí)兩標(biāo)簽簡(jiǎn)化用一條線連接,原連線越多,簡(jiǎn)化后的連線就越粗。兩個(gè)概念集合為同義詞關(guān)系或直接包含關(guān)系的,就把這兩個(gè)概念緊挨著繪制。這樣處理后就得到如圖2所示:
          在圖2中,可以很容易看出網(wǎng)絡(luò)圖的主干線,分支 線,主干線是一級(jí)目錄“文學(xué)”分別指向二級(jí)目錄“小說(shuō)”、“散文”、“詩(shī)歌”、“隨筆”、“中國(guó)文學(xué)”、“外國(guó)文學(xué)”。二級(jí)干線有“中國(guó)文學(xué)”與“散文”、“小說(shuō)”與“中國(guó)文學(xué)”、“文學(xué)”與“文學(xué)評(píng)論”、“中國(guó)文學(xué)”與“詩(shī)歌”等,三級(jí)干線有“網(wǎng)絡(luò)小說(shuō)”與“小說(shuō)”、“外國(guó)文學(xué)”與“英國(guó)文學(xué)”等。
          圖2中的兩個(gè)概念集合緊挨著繪制的“武俠”與“武俠小說(shuō)”、“兒童文學(xué)”與“童話”、“童書”等也確實(shí)為同義詞關(guān)系或直接包含關(guān)系?梢钥闯鲈S多概念是的層次關(guān)系是交叉的,網(wǎng)狀分布的,繪出的結(jié)果非常符合實(shí)際,這樣就可以用實(shí)際數(shù)據(jù)例子說(shuō)明這種繪制規(guī)則是合理的、正確的。
          對(duì)于繪出的概念關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)圖,還會(huì)發(fā)現(xiàn)一些孤島概念,就是其和其他概念沒有任何連線的,經(jīng)分析,這些概念也是一些不規(guī)范的標(biāo)簽,為了得到好的效果,設(shè)置系統(tǒng)對(duì)這些不規(guī)范的標(biāo)簽也過(guò)濾掉。
          這只是對(duì)120本書的標(biāo)簽網(wǎng)絡(luò)地圖繪制的規(guī)則,如果對(duì)于10萬(wàn)冊(cè)書的標(biāo)簽網(wǎng)絡(luò)地圖繪制,筆者認(rèn)為可以規(guī)定對(duì)只出N次以下連接線的支線省略掉,不斷變化參數(shù),直到得出最好的效果,并按照每個(gè)標(biāo)簽之間的連接次數(shù)從多到少,逐級(jí)排列分為一級(jí)干線、二級(jí)干線、……N級(jí)干線。
          不同類型的資源(例如電影、博客、音樂(lè)、論壇、百科知識(shí)等)的標(biāo)簽與資源關(guān)系構(gòu)建的概念關(guān)系網(wǎng)絡(luò)地圖特征不同,所以要根據(jù)其特征具體分析,制定不同的確定概念之間屬性的合理方法。
          所以筆者又選擇百度百科(http://baikebaidu.com)詞條為研究對(duì)象進(jìn)行實(shí)證研究,選取了100個(gè)有關(guān)天文、地理的詞條,每個(gè)詞條的解釋后面都注明該詞條的屬于的幾個(gè)開放分類(這些開放分類實(shí)際上就是篩選后的用戶對(duì)該詞條添加的自由分類標(biāo)簽)。同上述規(guī)則,首先對(duì)100個(gè)詞條標(biāo)上1到100的編號(hào),這樣每個(gè)數(shù)字就代表一個(gè)詞條,對(duì)只出現(xiàn)三次以下的開放分類標(biāo)簽省略掉,包含相同序號(hào)詞條的兩個(gè)分類標(biāo)簽之間就添加一條連線,兩個(gè)分類標(biāo)簽之間連線少于兩條的就省略掉,兩個(gè)分類標(biāo)簽之間無(wú)論有多少條連線都簡(jiǎn)化為一條,而且連線的大小與原有的連線多少有關(guān),原連線越多就越加粗表示。如果有孤島概念(就是和其他概念沒有任何連線的)也篩選掉,這樣就得到如圖3所示:
          圖3中,可以看出3個(gè)大的互相關(guān)聯(lián)的體系分別是地理、天文和自然科學(xué),其中自然科學(xué)處于它們的中間。概念層次分明,連線越粗就說(shuō)明兩概念的細(xì)小知識(shí)單元重合越多,越處于眾多概念的上層架構(gòu),橢圓緊挨著長(zhǎng)方形繪制的就是長(zhǎng)方形概念集合里的詞條元素完全包含橢圓行概念集合里的詞條元素(即說(shuō)明長(zhǎng)方形概念的細(xì)小知識(shí)單元完全包含橢圓概念的所有細(xì)小知識(shí)單元),即長(zhǎng)方形概念是橢圓形概念的上級(jí)。這樣就進(jìn)一步用實(shí)際例子證明上述規(guī)則構(gòu)建概念的層次關(guān)系的正確性。而且這樣得出的本體結(jié)構(gòu)簡(jiǎn)潔、直觀,概念之間的關(guān)系更為明了。
          在圖3中,例如對(duì)于“地理”這個(gè)概念,橢圓形的詞條“地域”、區(qū)域”、“地球科學(xué)”、“自然景觀”都是“地理”中的一個(gè)屬性或特征,與“地理”相連的長(zhǎng)方形詞條“平原”、“海洋”、“草原”、“地質(zhì)”、“地形”等是地理知識(shí)中要講述的某個(gè)方面概念。
          “地質(zhì)學(xué)”可分別屬于“地理”、“地質(zhì)”、“自然科學(xué)”這三個(gè)目錄下。又例如“行星”和“八大行星”這兩個(gè)詞條都是屬于“太陽(yáng)系”的部件。在判別究竟“宇宙”和“太陽(yáng)系”這兩個(gè)概念究竟哪個(gè)是上級(jí)時(shí),看到“宇宙”是通過(guò)一條很粗的干線與“天文”中心概念連接的,而“太陽(yáng)系”是沒有直接與中心概念“天文”連接,而且與周邊概念的連接線都很細(xì),所以“宇宙”肯定是“太陽(yáng)系”的上級(jí)了。
          可以看出圖2的概念關(guān)系結(jié)構(gòu)比圖3的概念關(guān)系結(jié)構(gòu)更加合理,因?yàn)閳D2的資源是圖書,圖3的資源是詞條(詞條本身就可能是一個(gè)分類詞,給分類詞添加分類標(biāo)簽就會(huì)存在不是很貼切的情況,而且會(huì)出現(xiàn)概念描述重復(fù))。如果資源是視頻、歌曲、論文、博客等,那么繪出的概念關(guān)系結(jié)構(gòu)圖的規(guī)律就肯定不完全相同,分析結(jié)構(gòu)圖的方法就肯定有差別,所以要根據(jù)實(shí)際繪出結(jié)構(gòu)圖后,用人工分析,總結(jié)規(guī)律,設(shè)計(jì)算法,再按照規(guī)律去編程,利用軟件自動(dòng)分析,從而更加合理地自動(dòng)定義本體中概念與概念的關(guān)系,定義概念的屬性。
          
          3.5 定義本體中概念與概念的關(guān)系,定義概念的屬性
          用上述規(guī)則繪出本體概念關(guān)系網(wǎng)絡(luò)地圖后,就可以根據(jù)概念關(guān)系地圖判斷出概念之間的各種層次關(guān)系,同義詞關(guān)系,包含關(guān)系及屬性關(guān)系。在圖2中,根據(jù)中心度的計(jì)算以及以與周圍的概念關(guān)聯(lián)最多,關(guān)聯(lián)線最粗的判斷,很容易看出“文學(xué)”是處于最高層的一級(jí)概念!靶≌f(shuō)”、“散文”、“詩(shī)歌”、“隨筆”從體裁角度描述的二級(jí)概念分布在起周圍!爸袊(guó)文學(xué)”、“外國(guó)文學(xué)”從地域范圍描述的二級(jí)概念也直接在“文學(xué)”這個(gè)一級(jí)概念之下,而且和“小說(shuō)”、“散文”、“詩(shī)歌”、“隨筆”都有交叉聯(lián)系,“英國(guó)文學(xué)”、“美國(guó)文學(xué)”、“日本文學(xué)”、“法國(guó)文學(xué)”和“外國(guó)文學(xué)”的直接連線都較粗,所以可以判斷“英國(guó)文學(xué)”、“美國(guó)文學(xué)”、“日本文學(xué)”、“法國(guó)文學(xué)”首先屬于“外國(guó)文學(xué)”這個(gè)二級(jí)概念,先組成一個(gè)“外國(guó)文學(xué)”的凝聚子群。又例如在圖2中,“武俠”被“武俠小說(shuō)”完全包含,是“武俠小說(shuō)”的一個(gè)屬性。
          
          3.6 本體術(shù)語(yǔ)定義
          根據(jù)概念關(guān)鍵詞匹配原則,系統(tǒng)有接口可以引入權(quán)威詞典的解釋,也有接口引入百度百科(維基百科)對(duì)相應(yīng)概念的解釋,這就保證了不斷新出的概念都能套用到現(xiàn)成的解釋。
          
          3.7 對(duì)本體編碼,形式化
          選用OWL本體描述語(yǔ)言對(duì)上述建立的互聯(lián)網(wǎng)知識(shí)本體進(jìn)行編碼、形式化。相比其他語(yǔ)言,OWL有更多的機(jī)制來(lái)表術(shù)語(yǔ)義,更重要的是它是由W3C推薦的,用它來(lái)描述本體具有國(guó)際通用性,適合互聯(lián)網(wǎng)知識(shí)本體的構(gòu)建。在本體編碼過(guò)程中選擇Prot~g6作為本體建模工具,通過(guò)Protege,可以很方便地將其轉(zhuǎn)換為OWL語(yǔ)言。
          
          4 實(shí)現(xiàn)的關(guān)鍵技術(shù)與軟件示例
          
          4.1 關(guān)鍵技術(shù)
          系統(tǒng)有接口與可以讓用戶添加分類標(biāo)簽的網(wǎng)站對(duì)接,直接導(dǎo)入以記事本形式記錄的資源和標(biāo)簽數(shù)據(jù),有接口與權(quán)威詞典、百度百科的數(shù)據(jù)庫(kù)對(duì)接,直接導(dǎo)入概念的解釋和實(shí)例,并儲(chǔ)存在系統(tǒng)相對(duì)應(yīng)的本體術(shù)語(yǔ)數(shù)據(jù)庫(kù)中。
          系統(tǒng)根據(jù)篩選后的標(biāo)簽,按矩陣分析方法得出概念之間的完全包含關(guān)系,被包含概念的都列在相應(yīng)概念后面的括號(hào)里,如果有多個(gè)概念多重包含則用多重括號(hào)表示,然后分析不同概念之間的連接線,并按連接線的多少繪出概念之間的直線大小。軟件自動(dòng)匯出的概念關(guān)系網(wǎng)絡(luò)圖中,概念的位置可以隨鼠標(biāo)拖動(dòng),以求達(dá)到清晰的網(wǎng)絡(luò)圖。
          概念關(guān)系網(wǎng)絡(luò)地圖涉及的數(shù)據(jù)和規(guī)則要讓人通過(guò)觀察、總結(jié)、理解后,再編成讓計(jì)算機(jī)理解的網(wǎng)絡(luò)本體語(yǔ)言。
          
          4.2 軟件處理示例
          從豆?網(wǎng)給的8萬(wàn)冊(cè)圖書書名,每本書標(biāo)注的標(biāo) 簽數(shù)據(jù)分析來(lái)看,雖然每本書的標(biāo)簽十分凌亂。有很多不規(guī)范的非概念性標(biāo)簽,但正是由于它們十分不規(guī)范,所以出現(xiàn)次數(shù)都非常少,只需要對(duì)出現(xiàn)50次以下的標(biāo)簽刪除,劉,一些很明顯的垃圾標(biāo)簽(例如純數(shù)字標(biāo)簽、中英文組合的標(biāo)簽,純標(biāo)點(diǎn)符號(hào)的標(biāo)簽等)刪除即可得到比較標(biāo)準(zhǔn)的概念。根據(jù)上述標(biāo)簽和資源的關(guān)聯(lián)規(guī)則繪制的概念關(guān)系網(wǎng)絡(luò)圖,如果概念之間連線少于40次的就省略掉,這樣就可以過(guò)濾掉由于個(gè)別用戶偏理解的而造成的概念關(guān)聯(lián)。然后再刪除一些孤島概念(和其他概念沒有任何連線的概念),這樣就基本可以從凌亂的標(biāo)簽中篩選到標(biāo)準(zhǔn)的概念和繪出層次分明的概念關(guān)系網(wǎng)絡(luò)地圖。
          課題組開發(fā)的軟件可以直接導(dǎo)入保存在,txt文件的資源名稱及其標(biāo)簽數(shù)據(jù),并進(jìn)行篩選、合并、計(jì)算,自動(dòng)繪制概念關(guān)系網(wǎng)絡(luò)地圖,而且概念在圖中的位置可以隨鼠標(biāo)拖動(dòng),這樣就保證各個(gè)關(guān)聯(lián)緊密的概念放在圖中的同一區(qū)域,無(wú)任何關(guān)聯(lián)的概念放在圖中不同的區(qū)域。軟件的一些操作界面見圖4-圖7:
          例如圖5,按1、2步驟打開后綴為.txt的數(shù)據(jù)文件,如果對(duì)數(shù)據(jù)滿意,則不用任何處理,直接導(dǎo)入庫(kù)即可。如果不滿意還可以對(duì)數(shù)據(jù)按下面的步驟進(jìn)行相應(yīng)的處理:①按5步驟可刪除選中的書名和標(biāo)簽;②按6步驟合并選中的數(shù)據(jù);③按7步驟將標(biāo)簽里的空格自動(dòng)刪除,便于軟件分析標(biāo)簽數(shù)據(jù);④按9步驟查出相似度達(dá)到一定程度(可設(shè)參數(shù))的書目數(shù)據(jù),然后就可以按6合并;⑤按10步驟可以自動(dòng)合并完全相同的書目數(shù)據(jù);⑥按11步驟就可以先過(guò)濾掉很明顯的垃圾標(biāo)簽,例如純數(shù)字,純標(biāo)點(diǎn)符號(hào),單個(gè)字等;⑦按12步驟將新文件的數(shù)據(jù)增加入庫(kù),不清除原有的數(shù)據(jù);⑧按13步驟將新文件的數(shù)據(jù)入庫(kù),人庫(kù)同時(shí)就清除原有的數(shù)據(jù);⑨按14步驟還可以修改標(biāo)簽數(shù)據(jù)。
          在圖6中,可分別用關(guān)鍵詞進(jìn)行書名檢索和標(biāo)簽檢索,并分別顯示標(biāo)注這些書的標(biāo)簽或標(biāo)簽標(biāo)注了什么書。
          在圖7中,可進(jìn)行標(biāo)簽按出現(xiàn)次數(shù)(M次)過(guò)濾,得到標(biāo)準(zhǔn)概念,可按標(biāo)簽之間連接線出現(xiàn)次數(shù)(N次)過(guò)濾,過(guò)濾掉由于用戶的偏理解而造成的概念關(guān)聯(lián)。然后進(jìn)行矩陣分析標(biāo)簽之間的完全包含關(guān)系。在圖中對(duì)角線的數(shù)字就是每個(gè)標(biāo)簽本身包含的資源總數(shù)量,每個(gè)標(biāo)簽與其他標(biāo)簽包含相同資源的數(shù)量就列在兩個(gè)標(biāo)簽行、列交叉的空格處,這樣就很容易分析出它們是否完全包含,例如在圖7中,美國(guó)文學(xué)包含的資源總數(shù)是4,外國(guó)文學(xué)與美國(guó)文學(xué)包含相同的資源總數(shù)也是4,而且外國(guó)文學(xué)包含的資源總數(shù)量是27,所以外國(guó)文學(xué)完全包含美國(guó)文學(xué)。
          把完全包含的概念分別用小括號(hào)、中括號(hào)、大括號(hào)層層表示它們的不同層次的完全包含關(guān)系,而且把最大的外層看作一個(gè)點(diǎn)去繪制概念關(guān)系網(wǎng)絡(luò)地圖。外國(guó)文學(xué)完全包含美國(guó)文學(xué),就表示為外國(guó)文學(xué)(美國(guó)文學(xué)),同放于一個(gè)長(zhǎng)方形內(nèi)。如圖8所示:
          根據(jù)初步的實(shí)踐檢驗(yàn),只要通過(guò)人工觀察不同資源標(biāo)簽構(gòu)建的概念關(guān)系網(wǎng)絡(luò)地圖特征,制定出合理的規(guī)則,那么根據(jù)不同規(guī)則編寫的程序自動(dòng)構(gòu)建的本體是合理的。

        相關(guān)熱詞搜索:互聯(lián)網(wǎng) 本體 構(gòu)建 互聯(lián)網(wǎng)資源知識(shí)本體自動(dòng)構(gòu)建實(shí)證研究 本體構(gòu)建方法 本體

        版權(quán)所有 蒲公英文摘 smilezhuce.com