东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

美文摘抄 蒲公英文摘 > 美文摘抄 >

基于《中國(guó)圖書館分類法》的用戶興趣建模方法:中國(guó)圖書館分類法

發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄點(diǎn)擊：

　　〔摘要〕提出一種基于《中國(guó)圖書館分類法》的用戶興趣建模方法。通過《中國(guó)圖書館分類法》分類號(hào)確定用戶初始興趣模型，使用《中圖分類主題詞表》中詞匯描述用戶興趣主題。對(duì)于用戶模型的學(xué)習(xí)，提出一種通用的方法，將各種反饋信息融合統(tǒng)一。在上述思想的基礎(chǔ)上，開發(fā)出一個(gè)科技文獻(xiàn)推薦系統(tǒng)，使用戶在盡可能少的參與下，完成用戶模型的建立、學(xué)習(xí)和更新。
　　〔關(guān)鍵詞〕信息推送用戶興趣模型個(gè)性化
　　〔分類號(hào)〕G250.7
　　
　　User Interest Modeling Based On Chinese Library Classification
　　Ma Haibing1Wang Lancheng4
　　Shanghai Branch, Nanjing Political Institute, Shanghai200433
　　Xiao Hui2
　　Ningbo Instiute of Technology , Zhejiang University , Ningbo 315100
　　Li Ronglu3
　　Autodesk Inc. Shanghai, Shanghai200001
　　
　　〔Abstract〕This paper proposes a user modeling method based on Chinese Library Classification (CLC). The initial user model is defined by classification number of CLC, and the subject terms of CLC is used to describe user interests. It also puts forward a universal frame which can combine all kinds of feedback information for the user model to learn. Based on these ideas, it develops a science document recommend system, where user model can be built, learn and update as few participations of the users as possible.
　　〔Keywords〕information recommending systemuser interest modelpersonalization
　　
　　
　　1引言
　　
　　今天，互聯(lián)網(wǎng)技術(shù)發(fā)展迅速，網(wǎng)絡(luò)信息呈指數(shù)增長(zhǎng)，但浩瀚如海的網(wǎng)上資源往往導(dǎo)致“信息過載”和“信息迷向”。傳統(tǒng)的搜索引擎滿足了用戶的信息查詢需求，但它不具有智能性，不能學(xué)習(xí)用戶的興趣。具有特定興趣，信息需求相對(duì)穩(wěn)定的用戶，只能不斷在網(wǎng)上反復(fù)查詢相同的內(nèi)容。正是在這樣的需求驅(qū)動(dòng)下，信息推送技術(shù)得到了長(zhǎng)足的發(fā)展。如果把信息檢索看作是一種“人找信息”的信息服務(wù)形態(tài)，那信息推送就是一種“信息找人”的信息服務(wù)形態(tài)，即實(shí)現(xiàn)信息的個(gè)性化推薦服務(wù)。
　　個(gè)性化推薦技術(shù)的關(guān)鍵是用戶興趣模型的建立和學(xué)習(xí)。對(duì)于用戶興趣模型的建立，多數(shù)信息推送系統(tǒng)是通過讓用戶主動(dòng)地輸入一系列關(guān)鍵詞，給每個(gè)關(guān)鍵詞分配合適的權(quán)值來實(shí)現(xiàn)的。但是，用戶常常找不到恰當(dāng)?shù)年P(guān)鍵詞來描述自己的興趣，更不用說合適的權(quán)值了，而且詞語的多義現(xiàn)象和同義現(xiàn)象也會(huì)導(dǎo)致一些不正確的信息被推送過來。對(duì)于用戶興趣
　　模型的學(xué)習(xí)和調(diào)整，有的文獻(xiàn)通過顯式反饋實(shí)現(xiàn)[1-2]，如將推送信息分為非常感興趣、比較感興趣、不感興趣、完全不感興趣等一些離散的等級(jí)或一些離散的數(shù)值，讓用戶進(jìn)行評(píng)價(jià);也有一些系統(tǒng)通過監(jiān)視用戶的行為來實(shí)現(xiàn)[3-5]，如:瀏覽時(shí)間、保存、打印操作等，為用戶模型的學(xué)習(xí)和調(diào)整提供依據(jù)，這類信息被稱為隱式反饋信息。顯式反饋信息比較準(zhǔn)確，但是增加了用戶的負(fù)擔(dān)。隱式反饋信息減輕了用戶的負(fù)擔(dān)，但這類信息往往不夠準(zhǔn)確，不一定能夠反映用戶真實(shí)的興趣需求。
　　針對(duì)這些問題，筆者提出了一種基于《中國(guó)圖書館分類法》(以下簡(jiǎn)稱《中圖法》)的用戶興趣模型:通過《中圖法》分類號(hào)建立初始用戶興趣模型;利用《中國(guó)分類主題詞表》中的詞匯來描述用戶的興趣主題，解決詞語多義問題和同義問題;將用戶反饋信息進(jìn)行分類，盡量利用用戶瀏覽時(shí)的行為信息，使用戶在盡可能少的參與下，完成興趣模型的學(xué)習(xí)和更新。
　　
　　2用戶興趣模型描述
　　
　　2.1用戶興趣模型的表示
　　用戶興趣模型指的是從用戶信息需求的提交到注銷這段時(shí)間內(nèi)，對(duì)用戶某一興趣需求的一體化描述，包括用戶興趣模型隨著需求調(diào)整進(jìn)行動(dòng)態(tài)更新的過程。用戶興趣模型可形式化描述為一個(gè)三元組P:P＝（I，F(xiàn),ψ)。其中，
　　
　　
　　
　　這里，I為用戶興趣在學(xué)習(xí)調(diào)整過程中產(chǎn)生的全部狀態(tài)集;F為系統(tǒng)為用戶采集到的全部反饋信息集，其作用是驅(qū)動(dòng)學(xué)習(xí)過程;ψ表示用戶興趣的學(xué)習(xí)函數(shù)。不難看出:I(0)為用戶興趣的初始狀態(tài);I(i)為經(jīng)過i次學(xué)習(xí)調(diào)整后的用戶興趣;F(i)表示對(duì)系統(tǒng)第i次反饋的用以調(diào)整I(i+1)的評(píng)價(jià)信息;而{I(1)，∧，I（n）}則表示用戶興趣的終結(jié)狀態(tài)集。
　　2.2現(xiàn)有用戶模型的構(gòu)造方法
　　用戶興趣模型的構(gòu)造可以依據(jù)關(guān)鍵詞集和興趣文檔集，這種方式通常需要用戶積極參與(或是直接提交興趣信息，或是間接反饋興趣評(píng)價(jià))，推送系統(tǒng)服務(wù)器端利用信息抽取技術(shù)和機(jī)器學(xué)習(xí)方法從中獲取當(dāng)前用戶興趣的特征信息，以使得該用戶興趣模型可以與待推送的新信息之間進(jìn)行相關(guān)度計(jì)算。通過該方式獲取用戶興趣后，對(duì)用戶興趣模型的更新和維護(hù)在很大程度上可以借助對(duì)新信息的處理技術(shù)，在理論上可以依據(jù)信息抽取領(lǐng)域、機(jī)器學(xué)習(xí)領(lǐng)域和信息檢索領(lǐng)域中的方法和技術(shù)，所以在實(shí)踐上這種構(gòu)造用戶興趣模型的技術(shù)也是可行的。應(yīng)用本文技術(shù)實(shí)現(xiàn)的科技文獻(xiàn)推送系統(tǒng)就是依據(jù)這一方法進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)的。
　　還有一種方法，它不需要用戶做任何事情來描述自己的信息需求，而是由系統(tǒng)根據(jù)用戶訪問資源的歷史記錄自動(dòng)進(jìn)行分析。近年來，出現(xiàn)了一些以用戶興趣為核心的電子商務(wù)站點(diǎn)，它們通常是從網(wǎng)站經(jīng)營(yíng)的角度出發(fā)，分析大多數(shù)用戶在網(wǎng)站中的瀏覽路徑，根據(jù)用戶對(duì)頁面的訪問次序、訪問頻度和訪問時(shí)間等信息，動(dòng)態(tài)調(diào)整頁面結(jié)構(gòu)以更好地滿足訪問者的需求。其中，對(duì)服務(wù)器端Web日志的分析是得到用戶潛在需求興趣的主要依據(jù)。但該方法或是將用戶看作是單個(gè)的興趣載體，或是把所有用戶看作一個(gè)整體不做區(qū)別地進(jìn)行處理。因此這種方法不適合信息推送用的用戶興趣模型構(gòu)造。
　　
　　3基于《中圖法》的用戶興趣模型
　　
　　《中圖法》是我國(guó)第一部集中了全國(guó)圖書館和信息部門的力量共同編制的一部綜合性大型文獻(xiàn)分類法�！吨袊�(guó)分類主題詞表》則收錄了5萬余條類目、21萬條主題詞及主題標(biāo)題，包括哲學(xué)、社會(huì)科學(xué)和自然科學(xué)所有各個(gè)領(lǐng)域的學(xué)科和主題概念。例如:“TP391 信息處理(信息加工)”中，“TP391”是該類別的中圖法分類號(hào)，“信息處理”和“信息加工”則是這個(gè)類別的主題詞。選擇《中圖法》和《中國(guó)分類主題詞表》，一方面可為信息推送提供規(guī)范的依據(jù)，更重要的是將其作為構(gòu)造用戶興趣的初始模板，為用戶興趣模型的構(gòu)建提供了參照依據(jù)，使得用戶需求信息與系統(tǒng)資源之間能建立有效“聯(lián)接”。而且，《中國(guó)分類主題詞表》中的詞具有單義性，非常適合描述用戶的興趣主題。
　　3.1初始用戶興趣模型的構(gòu)造
　　初始用戶興趣模型通過一個(gè)《中圖法》分類號(hào)來確定。當(dāng)用戶在首次登錄時(shí)，要求用戶提供能表征其興趣主題的類別信息。用戶依據(jù)《中圖法》的分類體系，選擇某一類別作為初始的興趣類別，注冊(cè)的類別不一定是《中圖法》最底層的類別。在實(shí)際應(yīng)用中，用戶與興趣之間是多對(duì)多關(guān)系，即一個(gè)用戶可以擁有多個(gè)興趣，一個(gè)興趣可以被多個(gè)用戶共同擁有。但對(duì)信息推送系統(tǒng)來講，有意義的是興趣而非用戶，因此信息的推送是基于興趣的。如果某一用戶同時(shí)注冊(cè)多個(gè)興趣，系統(tǒng)應(yīng)為其建立多個(gè)用戶興趣模型;也有可能不同的用戶注冊(cè)了相同的興趣類別信息，即他們采用了相同的興趣模板，系統(tǒng)將收集所有注冊(cè)了該興趣類的用戶信息，并將其附帶提供給該興趣類的所有注冊(cè)用戶，以便具有相同興趣的用戶之間進(jìn)行交流與學(xué)習(xí)。
　　初始的用戶興趣模型I(0)可以表示為一個(gè)二元組:
　　
　　
　　其中，N表示用戶興趣模型對(duì)應(yīng)的《中圖法》分類號(hào)，一旦確定后不允許改變;W表示用戶興趣特征，由Wt、Wp、Wu、Wl四部分組成;Wt表示N對(duì)應(yīng)的主題詞;Wp表示N對(duì)應(yīng)類別的父類的主題詞，一般只取兩級(jí)父類的主題詞，因?yàn)殡S著級(jí)別的增高，主題詞與用戶興趣的相關(guān)性變得越來越小;Wu表示由用戶手動(dòng)添加到興趣模型中的特征;Wl表示用戶興趣模型在經(jīng)過i次學(xué)習(xí)和調(diào)整后新增的特征，在初始的用戶興趣模型I(0)中，還沒有利用反饋信息對(duì)其進(jìn)行刷新，因此Wl是一個(gè)空集。
　　Wt、Wp、Wu、Wl都是一個(gè)二元組的集合，表示為{＜ti，wi＞，＜t2，w2＞，∧}其中ti表示一個(gè)特征，這個(gè)特征可能是一個(gè)字、詞、短語、N-Gram項(xiàng)等;wi代表特征ti的權(quán)重，是一個(gè)[0，1]之間的值。Wt、Wp、Wu，Wl間不存在重復(fù)的特征，即對(duì)于ti來說，它們之間的交集為空。Wt、Wp、Wu中的特征不會(huì)隨著用戶興趣模型的學(xué)習(xí)和調(diào)整而增加或減少，但是它們的權(quán)值可能會(huì)發(fā)生變化。而Wl中的特征及其權(quán)值會(huì)隨著用戶興趣模型的學(xué)習(xí)和調(diào)整發(fā)生較大的變化。
　　當(dāng)Wt、Wp、Wu中的特征確定之后，需要為每個(gè)特征分配一個(gè)權(quán)重。對(duì)于Wt中的特征，設(shè)置每個(gè)特征的權(quán)值為a;對(duì)于Wu中的特征，設(shè)置每個(gè)特征的權(quán)值為b;對(duì)于Wp中的特征t，其權(quán)值為:
　　(公式6)
　　其中，l為主題詞對(duì)應(yīng)類別與《中圖法》分類號(hào)N對(duì)應(yīng)類別在《中圖法》分類體系結(jié)構(gòu)中相差的層數(shù)。通常a、b、c的值都設(shè)為1。
　　3.2新信息的推送算法
　　新信息的推送算法是基于向量空間模型的。向量空間模型用特征項(xiàng)及其相應(yīng)權(quán)值來表征信息的語義，新信息和用戶興趣模型都表示為一個(gè)向量。在需要給用戶推送新信息時(shí)，新信息和用戶興趣模型的相關(guān)程度是通過向量運(yùn)算來描述的，一般使用向量之間的夾角余弦來計(jì)算它們的相似度。
　　本文中，用戶興趣模型由一個(gè)《中圖法》分類號(hào)N和一個(gè)興趣特征列表W組成。將W表示為一個(gè)向量，就可以使用夾角余弦公式來計(jì)算用戶興趣模型和新信息的相似度。不過，我們希望在計(jì)算相似度的時(shí)候能夠利用《中圖法》分類號(hào)，因此對(duì)相似度計(jì)算方法進(jìn)行了改進(jìn)。設(shè)W(i)表示用戶興趣模型I(i)的興趣特征列表，l為新信息對(duì)應(yīng)類別與N對(duì)應(yīng)類別在《中圖法》分類體系結(jié)構(gòu)中相差的層數(shù)，則文檔d和用戶興趣模型I(i)的相似度計(jì)算公式為:
　　(公式7)
　　
　　其中，α+β，k為一個(gè)常數(shù)，一般取值為1。
　　3.3用戶興趣模型的更新
　　用戶興趣模型要能夠及時(shí)準(zhǔn)確地反映用戶的興趣，除了在初始的建立階段要全面考慮之外，還需要能夠根據(jù)用戶的瀏覽行為和興趣變化進(jìn)行動(dòng)態(tài)的修改，這就需要充分利用用戶的反饋信息。我們可以根據(jù)用戶的反饋信息類型將興趣模型分為兩種:
　　3.3.1基于顯式反饋信息的模型現(xiàn)有的系統(tǒng)普遍采用“相關(guān)反饋”作為用戶和系統(tǒng)交互的主要手段。給定一個(gè)評(píng)價(jià)標(biāo)準(zhǔn)，如:完全符合要求、相關(guān)、無關(guān)、完全無關(guān)，或給定一個(gè)評(píng)價(jià)數(shù)值，如:+2~-2，+2代表完全符合要求，-2代表完全無關(guān)。當(dāng)用戶查看推送過來的文檔時(shí)，根據(jù)這些評(píng)價(jià)標(biāo)準(zhǔn)對(duì)文檔做出評(píng)價(jià)，然后系統(tǒng)利用這種相關(guān)反饋信息實(shí)現(xiàn)對(duì)用戶興趣模型的學(xué)習(xí)和更新。其中最常用的更新方法是Salton和Buckley[3]所提出的公式:
　　(公式8)
　　
　　其中，W(i)表示用戶興趣模型I(i)的興趣特征，ej代表用戶對(duì)文檔dj的評(píng)價(jià)等級(jí)。這個(gè)方法使用簡(jiǎn)單，但增加了用戶的負(fù)擔(dān)，用戶也很難準(zhǔn)確地使用評(píng)價(jià)等級(jí)對(duì)推送的文檔做出評(píng)價(jià)，而且不同的用戶對(duì)評(píng)價(jià)等級(jí)有不同的認(rèn)識(shí)，也會(huì)導(dǎo)致降低這種方法的性能。
　　3.3.2基于隱式反饋信息的模型用戶在瀏覽推送過來的文檔時(shí)，可以通過跟蹤記錄用戶的瀏覽行為，得到用戶對(duì)文檔感興趣的程度，如:瀏覽時(shí)間、保存操作、打印操作等行為都是用戶對(duì)文檔是否感興趣的一種反饋。本研究中，我們?cè)诜⻊?wù)器端建立了推送文檔的收藏、管理功能，實(shí)現(xiàn)對(duì)用戶瀏覽行為的跟蹤和記錄，從而更新和學(xué)習(xí)用戶的興趣模型。
　　用戶的瀏覽行為可以總結(jié)為以下５種:
　　●瀏覽次數(shù)。訪問同一文檔的次數(shù)越多，說明用戶對(duì)該文檔的內(nèi)容越感興趣。不過有些文檔在瀏覽過程中重復(fù)出現(xiàn)時(shí)，不一定對(duì)應(yīng)于用戶要再次查看其中的內(nèi)容，可能只是對(duì)應(yīng)于諸如回退之類的操作，目的是為了另一個(gè)感興趣的文檔。
　　●瀏覽時(shí)間。對(duì)同一文檔的關(guān)注越多，即停留時(shí)間越長(zhǎng)，表明用戶對(duì)該文檔的興趣也越大。同時(shí)，我們也規(guī)定了最大的時(shí)間閾值MaxDuration，以處理用戶離開瀏覽狀態(tài)卻未關(guān)閉的情況。
　　●收藏操作。當(dāng)用戶對(duì)某一文檔感興趣，并且希望經(jīng)常查看此文檔的時(shí)候，用戶可能會(huì)將文檔加入收藏夾。
　　●保存或打印操作。用戶一般只會(huì)保存感興趣的東西，而保存或打印文檔也往往是為了將文檔最終保存下來，方便查看。
　　●查詢操作。一般來說，用戶在查詢時(shí)輸入的字符串或關(guān)鍵字，往往代表他所感興趣的東西。
　　設(shè)D是攜帶有反饋信息的文檔集， dj∈D，vj代表dj的瀏覽次數(shù)，tj代表dj的瀏覽時(shí)間，ej代表用戶對(duì)文檔dj的評(píng)價(jià)等級(jí)，fv，ft,，fe分別為文檔的瀏覽次數(shù)、瀏覽時(shí)間、評(píng)價(jià)等級(jí)的加權(quán)函數(shù)，W（i)表示用戶興趣模型I(i)的興趣特征，則興趣特征W(i)的更新公式為:
　　
　　(公式9)
　　其中，ft和fv都是對(duì)數(shù)函數(shù)，fe是一個(gè)線性函數(shù)。如果文檔dj的瀏覽次數(shù)、瀏覽時(shí)間、評(píng)價(jià)等級(jí)為0或空，這三個(gè)函數(shù)都返回一個(gè)常數(shù)。
　　將特征類反饋信息折算為一個(gè)評(píng)價(jià)等級(jí)，公式9可以將所有反饋信息融合在同一個(gè)框架中。例如:可以給收藏、保存、打印了的文檔一個(gè)分值最高的評(píng)價(jià)等級(jí)。查詢操作比較特殊，這種反饋信息對(duì)應(yīng)的不是一篇文檔，而是一個(gè)或多個(gè)關(guān)鍵詞。但是，同樣可以將每個(gè)關(guān)鍵詞看作一篇文檔，它的瀏覽次數(shù)就是這個(gè)關(guān)鍵詞的查詢次數(shù)，它的瀏覽時(shí)間設(shè)置為一個(gè)常數(shù)。
　　
　　4基于《中圖法》的科技文獻(xiàn)推薦系統(tǒng)
　　
　　在基于《中圖法》的用戶興趣模型的基礎(chǔ)上，我們開發(fā)了一個(gè)科技文獻(xiàn)推薦系統(tǒng)。系統(tǒng)推薦的對(duì)象是科技文獻(xiàn)，主要服務(wù)于高校和科研院所的科研工作者。因?yàn)榭萍嘉墨I(xiàn)具有比較規(guī)范的格式，而且大部分文獻(xiàn)都具有《中圖法》分類號(hào)，所以非常適合于使用本文提出的方法。
　　系統(tǒng)體系結(jié)構(gòu)如圖1所示。整個(gè)系統(tǒng)包括服務(wù)器端和客戶端兩大部分。服務(wù)器端的主要功能是收集文獻(xiàn)，對(duì)收集到的文獻(xiàn)進(jìn)行索引，對(duì)全文數(shù)據(jù)庫進(jìn)行更新和維護(hù)等。同時(shí)，用戶興趣模型的更新也在服務(wù)器端定期集中完成，而不是在客戶端實(shí)時(shí)地對(duì)用戶興趣模型進(jìn)行更新�？蛻舳说闹饕δ馨ㄗ�(cè)興趣，修改和刪除用戶興趣模型，接收、瀏覽系統(tǒng)發(fā)送的新文獻(xiàn)，獲取用戶的反饋信息等。
　　用戶在使用系統(tǒng)之前，需要注冊(cè)一個(gè)賬戶，輸入自己的真實(shí)姓名、研究方向等個(gè)人信息。當(dāng)用戶登錄系統(tǒng)后，就可以注冊(cè)自己的興趣了。系統(tǒng)提供了兩種注冊(cè)方式:一種是手動(dòng)方式;另一種是自動(dòng)方式。在手動(dòng)方式中，用戶依據(jù)《中圖法》的分類體系，選擇某一類別作為初始的興趣類別。一個(gè)用戶可以注冊(cè)多個(gè)興趣，如果興趣之間重疊，那么選擇這兩個(gè)興趣類別的父類作為興趣類別。確定了興趣的分類號(hào)之后，就可以將這個(gè)分類號(hào)所對(duì)應(yīng)的主題詞列出，然后用戶從中選擇相關(guān)的主題詞作為描述用戶興趣的特征。在自動(dòng)方式中，用戶也可以先查詢本地文獻(xiàn)數(shù)據(jù)庫，對(duì)查詢結(jié)果文獻(xiàn)進(jìn)行相關(guān)反饋，然后調(diào)用用戶興趣模型更新算法，由系統(tǒng)為用戶自動(dòng)創(chuàng)建出一個(gè)興趣模型。用戶興趣模型的《中圖法》分類號(hào)來自于相關(guān)反饋文獻(xiàn)，通過取這些文獻(xiàn)的《中圖法》分類號(hào)的最大交集得到。
　　另一方面，系統(tǒng)使用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)指定的資源進(jìn)行抓取，將發(fā)現(xiàn)的新文獻(xiàn)下載到本地服務(wù)上。下載下來的這些文獻(xiàn)是多種格式的，需要使用格式轉(zhuǎn)換和信息抽取模塊將這些文獻(xiàn)轉(zhuǎn)換為統(tǒng)一的格式，并提取出文獻(xiàn)中的標(biāo)題、作者、摘要、《中圖法》分類號(hào)等信息，再將這些信息保存到數(shù)據(jù)庫中，對(duì)于標(biāo)題和摘要信息還要建立全文索引。當(dāng)服務(wù)器處于閑置狀態(tài)時(shí)，或者在一段時(shí)間內(nèi)的某一固定時(shí)刻，集中進(jìn)行計(jì)算，將新到文獻(xiàn)推送給用戶。推送給用戶的文獻(xiàn)實(shí)際是文獻(xiàn)的URL地址，當(dāng)用戶要瀏覽文獻(xiàn)的時(shí)候，需要登陸系統(tǒng)，因此系統(tǒng)能夠準(zhǔn)確記錄文獻(xiàn)的瀏覽次數(shù)和瀏覽時(shí)間。同時(shí)，系統(tǒng)提供了文獻(xiàn)的管理功能，能夠收藏、打印、保存、刪除文獻(xiàn)，對(duì)文獻(xiàn)進(jìn)行相關(guān)反饋。有了這些信息，就可以使用公式9對(duì)用戶的興趣模型進(jìn)行更新。隨著新文獻(xiàn)的不斷推送，更多的反饋信息被記錄下來，使用戶興趣模型能夠更加準(zhǔn)確地反映用戶的興趣需求。
　　
　　5應(yīng)注意的問題
　　
　　上述基于《中圖法》的用戶興趣建模方法在科技文獻(xiàn)推送系統(tǒng)中的應(yīng)用取得了較好的效果，但也存在一些問題。
　　5.1反面隱式反饋信息的利用
　　在用戶興趣模型的更新算法中，我們主要利用的是正面的隱式反饋信息，即對(duì)文獻(xiàn)的評(píng)價(jià)是正面的。但是還有許多反面的反饋信息可以利用，例如推送給用戶的文獻(xiàn)，用戶只看了標(biāo)題和摘要后就刪除掉了，這可能代表用戶對(duì)這篇文獻(xiàn)不感興趣。這些信息可以作為用戶興趣模型學(xué)習(xí)的重要依據(jù)。
　　5.2協(xié)作過濾算法的使用
　　上述模型使用《中圖法》分類號(hào)確定用戶初始的興趣類別，等于對(duì)用戶的興趣做了一個(gè)分類。如果多個(gè)用戶模型具有相同的分類號(hào)，或分類號(hào)之間具有父子類關(guān)系，那么某個(gè)用戶興趣模型的特征信息以及該模型的一些反饋信息，對(duì)其他用戶興趣模型的學(xué)習(xí)將重要的具有參考作用。將協(xié)作過濾的思想應(yīng)用于本文的方法和系統(tǒng)中，可以改善用戶興趣模型的學(xué)習(xí)算法。
　　
　　參考文獻(xiàn):
　　[1]Balabanovic M, Shoham Y. Learning information retrieval agents: Experiments with automated Web browsing //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments. Stanford: AAAI Press,1995:13-18.
　　[2]Armstrong R, Freitag D, Joachims T, et al. WebWatcher: A learning apprentice for the world wide Web. //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogenows, Distributed Environments. Stanford:AAAI Press,1995:6-12.
　　[3]Salton G, Buckley C. Improving retrieval performance by relevance feedback. Journal of American Society for Information Science, 1990,41(4):288-297.
　　[4]Joachims T, Mitchell T, Freitag D, et al. Webwatcher: Machine learning and hypertext // Morik K, Herrmann J. GI Fachgruppentreffen Maschinelles Lernen.University of Dortmund, 1995:145-149.
　　[5]Letizia L H . An agent that assists Web browsing //Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, Montreal:Morgan Kanfmann, 1995:924-929.
　　
　　注：本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

相關(guān)熱詞搜索：分類法建模中國(guó) 基于《中國(guó)圖書館分類法》的用戶興趣建模方法 issn 中國(guó)圖書館分類法f

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 smilezhuce.com