东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

<big id="oxzse"></big>

<ol id="oxzse"><dl id="oxzse"><cite id="oxzse"></cite></dl></ol>

<rp id="oxzse"><strong id="oxzse"><pre id="oxzse"></pre></strong></rp>

<u id="oxzse"></u>

<address id="oxzse"></address>

感悟愛(ài)情 蒲公英文摘 > 感悟愛(ài)情 >

一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢(xún)擴(kuò)展方法關(guān)聯(lián)規(guī)則挖掘算法

發(fā)布時(shí)間:2020-03-07 來(lái)源: 感悟愛(ài)情點(diǎn)擊：

　　[摘　要]針對(duì)現(xiàn)有信息檢索系統(tǒng)中存在的詞不匹配問(wèn)題，提出一種基于詞間關(guān)聯(lián)規(guī)則的查詢(xún)擴(kuò)展算法，該算法利用現(xiàn)有挖掘算法自動(dòng)對(duì)前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘，提取含有原查詢(xún)?cè)~的詞間關(guān)聯(lián)規(guī)則，從中提取擴(kuò)展詞，實(shí)現(xiàn)查詢(xún)擴(kuò)展。實(shí)驗(yàn)結(jié)果表明，該算法能改善和提高信息檢索系統(tǒng)性能，具有很高的應(yīng)用價(jià)值。
　　[關(guān)鍵詞]查詢(xún)擴(kuò)展　關(guān)聯(lián)規(guī)則　局部反饋　信息檢索
　　[分類(lèi)號(hào)]TP391
　　
　　1 引言
　　
　　查詢(xún)擴(kuò)展是提高和改善信息檢索性能的核心技術(shù)之一，指的是利用計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多種技術(shù)，把與原查詢(xún)相關(guān)的詞或者詞組添加到原查詢(xún)，得到比原查詢(xún)更長(zhǎng)的新查詢(xún)，然后再次檢索文檔，以改善檢索系統(tǒng)的查全率和查準(zhǔn)率，彌補(bǔ)用戶(hù)查詢(xún)信息不足的缺陷。傳統(tǒng)的查詢(xún)擴(kuò)展技術(shù)主要有全局分析的、局部分析的查詢(xún)擴(kuò)展。全局分析的查詢(xún)擴(kuò)展是對(duì)全部文獻(xiàn)中的詞或詞組進(jìn)行相關(guān)分析，計(jì)算每對(duì)詞或詞組間的關(guān)聯(lián)程度，將與用戶(hù)查詢(xún)關(guān)聯(lián)程度較高的詞或者詞組加入原查詢(xún)生成新查詢(xún)，其主要技術(shù)有全局聚類(lèi)算法、潛在語(yǔ)義索引(LSI)和相似性詞典等。基于局部分析的查詢(xún)擴(kuò)展主要是利用初檢文檔中與原查詢(xún)最相關(guān)的n篇文檔作為擴(kuò)展詞的來(lái)源，主要有局部反饋的、用戶(hù)相關(guān)反饋的和基于局部上下文分析的查詢(xún)擴(kuò)展等。
　　本文從數(shù)據(jù)挖掘的角度研究查詢(xún)擴(kuò)展，提出一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢(xún)擴(kuò)展算法，該算法自動(dòng)對(duì)前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘，提取含有原查詢(xún)?cè)~的詞間關(guān)聯(lián)規(guī)則，從中提取擴(kuò)展詞，實(shí)現(xiàn)查詢(xún)擴(kuò)展。實(shí)驗(yàn)結(jié)果表明，該算法能改善和提高信息檢索的查全率和查準(zhǔn)率，與未進(jìn)行查詢(xún)擴(kuò)展時(shí)比較，采用本文查詢(xún)擴(kuò)展算法后，平均準(zhǔn)確率提高了13.34％，與傳統(tǒng)的局部上下文分析查詢(xún)擴(kuò)展算法比較，其平均準(zhǔn)確率提高了4.87％。
　　
　　2　基于詞間關(guān)聯(lián)規(guī)則的查詢(xún)擴(kuò)展算法
　　
　　2．1算法基本思想
　　首先對(duì)用戶(hù)查詢(xún)采用傳統(tǒng)的向量空間模型檢索算法(即tf*idf算法)對(duì)文檔集初檢，然后，對(duì)局部前列初檢文檔進(jìn)行詞間關(guān)聯(lián)規(guī)則挖掘，提取含有原查詢(xún)項(xiàng)的關(guān)聯(lián)規(guī)則構(gòu)建規(guī)則庫(kù)，從庫(kù)中提取擴(kuò)展詞添加到原查詢(xún)中構(gòu)建新查詢(xún)，實(shí)現(xiàn)查詢(xún)擴(kuò)展。
　　
　　2．2 面向查詢(xún)擴(kuò)展的詞間關(guān)聯(lián)挖掘及其剪枝策略
　　在向量空間模型中，將文檔視為事務(wù)，將語(yǔ)詞看作是事物項(xiàng)，即特征項(xiàng)，則可以運(yùn)用關(guān)聯(lián)規(guī)則挖掘算法對(duì)基于向量空間模型的文本數(shù)據(jù)庫(kù)進(jìn)行詞間關(guān)聯(lián)規(guī)則挖掘。查詢(xún)擴(kuò)展的核心問(wèn)題是如何找到與原查詢(xún)相關(guān)的擴(kuò)展詞。針對(duì)查詢(xún)擴(kuò)展的特點(diǎn)，我們?cè)谖墨I(xiàn)的關(guān)聯(lián)規(guī)則挖掘算法基礎(chǔ)上給出了面向查詢(xún)擴(kuò)展的詞間關(guān)聯(lián)規(guī)則挖掘的基本思想，即：用文獻(xiàn)的挖掘算法對(duì)文本數(shù)據(jù)庫(kù)只挖掘含有原查詢(xún)項(xiàng)的詞間關(guān)聯(lián)規(guī)則，讓候選項(xiàng)集減少到最低程度，提高挖掘效率。為此，在原算法的剪枝策略基礎(chǔ)上，增加兩種剪枝策略：一是將頻度為O的候選項(xiàng)集剪掉，因?yàn)轭l度為O的候選項(xiàng)集不可能成為頻繁項(xiàng)集，二是從候選2_項(xiàng)集開(kāi)始，將剪掉不含原查詢(xún)項(xiàng)的候選項(xiàng)集，只保留含有原查詢(xún)項(xiàng)的候選項(xiàng)集。
　　
　　2. 3擴(kuò)展模型和擴(kuò)展詞權(quán)重的計(jì)算方法
　　本文采用的查詢(xún)擴(kuò)展模型為：原查詢(xún)?cè)~→擴(kuò)展詞(sup，conf)。即規(guī)則前件是查詢(xún)項(xiàng)集合，后件是擴(kuò)展項(xiàng)集合。sup是關(guān)聯(lián)規(guī)則支持度，conf是關(guān)聯(lián)規(guī)則置信度。在查詢(xún)擴(kuò)展中，原查詢(xún)項(xiàng)永遠(yuǎn)是最重要的，是最能反映用戶(hù)查詢(xún)意圖的，應(yīng)該具有最高的權(quán)重。擴(kuò)展詞的重要性不會(huì)高于原查詢(xún)語(yǔ)詞。為了體現(xiàn)這種思想，在進(jìn)行查詢(xún)擴(kuò)展時(shí)，本文將原查詢(xún)項(xiàng)語(yǔ)詞的權(quán)重設(shè)置為2(設(shè)置為2的原因主要是和文獻(xiàn)的算法進(jìn)行實(shí)驗(yàn)比較)，擴(kuò)展詞的權(quán)重置為0到l之間的值(包括0和1)，即擴(kuò)展詞權(quán)重計(jì)算公式如下：
　　
　　
　　原查詢(xún)相關(guān)的擴(kuò)展詞，計(jì)算其權(quán)重，實(shí)現(xiàn)查詢(xún)擴(kuò)展，進(jìn)行第二次檢索，并返回結(jié)果。
　　
　　3．3實(shí)驗(yàn)結(jié)果及其分析
　　將本文查詢(xún)擴(kuò)展算法(即BARBTQE算法)和基于局部上下文分析的查詢(xún)擴(kuò)展算法(即LCA-Based QE)進(jìn)行檢索性能比較。兩種算法分別對(duì)所設(shè)計(jì)的10個(gè)查詢(xún)?cè)谙嗤臏y(cè)試文檔集中進(jìn)行檢索，統(tǒng)計(jì)這10個(gè)查詢(xún)的平均準(zhǔn)確率(MAP)。表l表示分別采用BARBTQE和LCA-Based QE兩種擴(kuò)展方法后的檢索性能。其中“No Expansion”列表示不進(jìn)行查詢(xún)擴(kuò)展時(shí)的檢索性能(即初始檢索結(jié)果的檢索性能)，其他兩列表示相應(yīng)擴(kuò)展方法的檢索性能以及與“No Expansion”相比時(shí)改進(jìn)的百分比。
　　從表1中可以看出，與未進(jìn)行查詢(xún)擴(kuò)展時(shí)相比，兩種查詢(xún)擴(kuò)展方法的檢索性能都有顯著的提高，然而，本文BARBTQE算法的提高幅度最為明顯，其平均準(zhǔn)確率(MAP)比傳統(tǒng)的向量空間模型tf*idf算法(No Expansion)的提高了13.34％，而比LCA-Based QE算法的提高了4.87％。實(shí)驗(yàn)結(jié)果表明，本文算法的檢索性能確實(shí)獲得了明顯的提高，比傳統(tǒng)的查詢(xún)擴(kuò)展效果好。主要原因是本文算法引入了查詢(xún)擴(kuò)展機(jī)制后，具有明顯歧義性的短查詢(xún)?cè)~通過(guò)擴(kuò)展詞可以達(dá)到消歧作用，同時(shí)還能檢索到原始短查詢(xún)中所不能檢索到的文檔。
　　
　　
　　4　結(jié)論
　　
　　在信息檢索中，查詢(xún)擴(kuò)展是改善和提高其檢索性能的關(guān)鍵技術(shù)之一。本文提出了一種基于詞間關(guān)聯(lián)規(guī)則的查詢(xún)擴(kuò)展算法，該算法利用現(xiàn)有挖掘算法自動(dòng)對(duì)前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘，提取含有原查詢(xún)?cè)~的詞間關(guān)聯(lián)規(guī)則，從中提取擴(kuò)展詞，實(shí)現(xiàn)查詢(xún)擴(kuò)展。實(shí)驗(yàn)結(jié)果表明，該算法能有效地改善和提高信息檢索系統(tǒng)的查全率和查準(zhǔn)率，具有很高的推廣應(yīng)用價(jià)值。

相關(guān)熱詞搜索：關(guān)聯(lián) 挖掘擴(kuò)展一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢(xún)擴(kuò)展方法關(guān)聯(lián)規(guī)則挖掘不屬于大數(shù)據(jù)挖掘形式

熱點(diǎn)文章閱讀

夜色資源www.Ye321.Com [夜色 2020-03-24
深圳往事|《深圳往事》1—13李 2020-03-30
中國(guó)男同志China免費(fèi)boys “ 2020-03-03
八路軍女兵冀中泣血蒙難記【1 2020-03-01
我是誰(shuí)――“富二代”的幸與不 2020-03-15
王海光：政爭(zhēng)與權(quán)爭(zhēng)——“高饒 2020-06-16
愛(ài)情論壇 2017-02-07
陶潛之略傳文言文翻譯_文言文 2019-02-04
[為兒子就業(yè)母親“獻(xiàn)身”上司 2020-03-06
河北定州6-11襲擊村民事件始末 2020-05-25

版權(quán)所有 蒲公英文摘 smilezhuce.com