文本學(xué)習(xí)機(jī)器學(xué)習(xí)自動(dòng)分類
發(fā)布時(shí)間:2020-09-08 來(lái)源: 實(shí)習(xí)報(bào)告 點(diǎn)擊:
具有重要用途的研究課題。而在這些數(shù)據(jù)中,文本數(shù)據(jù)又是數(shù)量最大的一類。“文本分類是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過(guò)程”(達(dá)觀數(shù)據(jù)科技聯(lián)合創(chuàng)始人,張。。文本分類有著廣泛的應(yīng)用場(chǎng)景,例如:
? 新聞網(wǎng)站包含大量報(bào)道文章,基于文章內(nèi)容,需要將這些文章按題材進(jìn)行自動(dòng)分類(例如自動(dòng)劃分成政治、經(jīng)濟(jì)、軍事、體育、娛樂(lè)等。
? 在電子商務(wù)網(wǎng)站,用戶進(jìn)行了交易行為后對(duì)商品進(jìn)行評(píng)價(jià)分類,商家需要對(duì)用戶的評(píng)價(jià)劃分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià),來(lái)獲取各個(gè)商品的用戶反饋統(tǒng)計(jì)情況。
? 電子郵箱頻繁接收到垃圾廣告信息,通過(guò)文本分類技術(shù)從眾多的郵件中識(shí)別垃圾郵件并過(guò)濾,提高了郵箱用戶的使用效率。
? 媒體每日有大量投稿,依靠文本分類技術(shù)能夠?qū)ξ恼逻M(jìn)行自動(dòng)審核,標(biāo)記投稿中的色情、暴力、政治、垃圾廣告等違規(guī)內(nèi)容。
20 世紀(jì) 90 年代以前,占主導(dǎo)地位的文本分類方法一直是基于知識(shí)工程的方法:借助專業(yè)人員的幫助,為每個(gè)類別定義大量的推理規(guī)則,如果一篇文檔能滿足這些推理規(guī)則,則可以判定屬于該類別。但是這種方法有明顯的缺點(diǎn):分類的質(zhì)量依賴于規(guī)則的好壞;需要大量的專業(yè)人員進(jìn)行規(guī)則的制定;不具備可推廣性,不同的領(lǐng)域需要構(gòu)建完全不同的分類系統(tǒng),造成開發(fā)資源和資金資源的巨大浪費(fèi)。
而機(jī)器學(xué)習(xí)技術(shù)能很好地解決上述問(wèn)題,以統(tǒng)計(jì)理論為基礎(chǔ),利用算法讓機(jī)器具有類似人類般的自動(dòng)“學(xué)習(xí)”能力——對(duì)已知的訓(xùn)練數(shù)據(jù)做統(tǒng)計(jì)分析從而獲得規(guī)律,再運(yùn)用規(guī)律對(duì)未知數(shù)據(jù)做預(yù)測(cè)分析。機(jī)器學(xué)習(xí)方法運(yùn)用在文本分類上的基本過(guò)程就是:
標(biāo)注——利用人工對(duì)一批文檔進(jìn)行了準(zhǔn)確分類,以作為訓(xùn)練集(進(jìn)行機(jī)器學(xué)習(xí)的材料); 訓(xùn)練——計(jì)算機(jī)從這些文檔中挖掘出一些能夠有效分類的規(guī)則,生成分類器(總結(jié)出的規(guī)則集合); 分類——將生成的分類器應(yīng)用在有待分類的文檔集合中,獲取文檔的分類結(jié)果。由于機(jī)器學(xué)習(xí)方法在文本分類領(lǐng)域有著良好的實(shí)際表現(xiàn),已經(jīng)成為了該領(lǐng)域的主流。
達(dá)觀數(shù)據(jù)團(tuán)隊(duì)在處理海量數(shù)據(jù)方面具有豐富的經(jīng)驗(yàn),在文本分類技術(shù)方面有深入的實(shí)踐,并將文本分類技術(shù)成功運(yùn)用到了線上服務(wù)中,取得了良好的效果。本文整理了文本分類的基本方法和處理流程,進(jìn)行了綜述性介紹。
。ㄒ唬何谋绢A(yù)處理 1.文本分類流程 文本分類的流程如圖 1 所示,包括訓(xùn)練、特征抽取、訓(xùn)練模型、分類預(yù)測(cè)等幾個(gè)主要環(huán)節(jié)。
圖 1 文本分類流程圖 2.文本預(yù)處理 2.1 文檔建模 機(jī)器學(xué)習(xí)方法讓計(jì)算機(jī)自己去學(xué)習(xí)已經(jīng)分類好的訓(xùn)練集,然而計(jì)算機(jī)是很難按人類理解文章那樣來(lái)學(xué)習(xí)文章,因此,要使計(jì)算機(jī)能夠高效地處理真實(shí)文本,就必須找到一種理想的形式化表示方法,這個(gè)過(guò)程就是文檔建模。文檔建模一方面要
能夠真實(shí)地反映文檔的內(nèi)容,另一方面又要對(duì)不同文檔具有區(qū)分能力。文檔建模比較通用的方法包括 布爾模型、向量空間模型( VSM )和 概率模型。其中最為廣泛使用的是向量空間模型。
經(jīng)典的 向量空間模型 (VSM :
Vector Space Model)由 Salton 等人于 60 年代提出,并成功地應(yīng)用于著名的 SMART 文本檢索系統(tǒng)。VSM 概念非常直觀——把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂。當(dāng)文檔被表示為文檔空間的向量時(shí),就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性。文本處理中最常用的相似性度量方式是余弦距離。文本挖掘系統(tǒng)采用向量空間模型,用特征詞條(T1,T2,…Tn)及其權(quán)值Wi 代表目標(biāo)信息,在進(jìn)行信息匹配時(shí),使用這些特征項(xiàng)評(píng)價(jià)未知文本與目標(biāo)樣本的相關(guān)程度。特征詞條及其權(quán)值的選取稱為目標(biāo)樣本的特征提取,特征提取算法的優(yōu)劣將直接影響到系統(tǒng)的運(yùn)行效果。
設(shè)D為一個(gè)包含m個(gè)文檔的文檔集合Di為第i個(gè)文檔的特征向量,則有D={D1,D2,…,Dm}, Di=(di1di2…dij),i=12,…,m j=1,2,…,n。其中 dij(i=1,2,…,m; j=1,2,…,n)為文檔 Di 中第 j 個(gè)詞條 tj 的權(quán)值它一般被定義為 tj 在 Di 中出現(xiàn)的頻率 tij 的函數(shù),例如采用 TF-IDF 函數(shù),即 dij=tij*log(N/nj)。其中 N 是文檔數(shù)據(jù)庫(kù)中文檔總數(shù),nj 是文檔數(shù)據(jù)庫(kù)含有詞條 tj 的文檔數(shù)目。假設(shè)用戶給定的文檔向量為 D2,未知的文檔向量為 q,兩者的相似程度可用兩向量的夾角余弦來(lái)度量,夾角越小說(shuō)明相似度越高。相似度的計(jì)算公式如下
圖 2 向量空間模型 通過(guò)上述的向量空間模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個(gè)文檔之間的相似性問(wèn)題轉(zhuǎn)變成了兩個(gè)向量之間的相似性問(wèn)題。
2.2 中文分詞技術(shù) 在使用向量模型表示文檔時(shí),首先要對(duì)文檔進(jìn)行詞匯化處理。對(duì)于英語(yǔ)或者法語(yǔ)等語(yǔ)言來(lái)說(shuō),將文檔轉(zhuǎn)化成詞的集合比較簡(jiǎn)單,但是對(duì)于漢語(yǔ)來(lái)說(shuō),不像英文文本的單詞那樣有空格來(lái)區(qū)分,這個(gè)處理過(guò)程要依賴于分詞技術(shù)。從簡(jiǎn)單的查詞典的方法,到后來(lái)的基于統(tǒng)計(jì)語(yǔ)言模型的分詞方法,中文分詞的技術(shù)已趨于成熟。但是,盡管現(xiàn)在分詞軟件的準(zhǔn)確率已經(jīng)比較高了,它對(duì) 專業(yè)術(shù)語(yǔ)(稱為未登錄詞識(shí)別)的識(shí)別率還不是很好。例如“來(lái)自星星的你”,分詞可以成功切分為“來(lái)
自\星星\的\你”,但是怎樣把“來(lái)自星星的你”作為一個(gè)完整的專有名詞(電視劇名稱)識(shí)別出來(lái),還有很多技術(shù)要解決。為了進(jìn)一步提高關(guān)鍵詞抽取的準(zhǔn)確率,通常需要在詞庫(kù)中添加專名詞表來(lái)保證分詞的質(zhì)量。
在完成分詞之后,我們對(duì)詞語(yǔ)的位臵信息做進(jìn)一步的發(fā)掘,需要確定記錄位臵信息的方式以及各個(gè)位臵的詞在反映主題時(shí)的相對(duì)重要性。標(biāo)題、摘要和結(jié)論、正文等文章各個(gè)部分的位臵權(quán)重是各不相同的,當(dāng)軟件逐詞掃描統(tǒng)計(jì)詞頻時(shí),記錄每個(gè)詞的位臵信息。
在計(jì)算文檔的特征向量的值時(shí),還需要對(duì)文本集進(jìn)行一些處理,過(guò)濾掉無(wú)用的信息。濾除這些沒有作用的詞語(yǔ)可以減少文本特征向量的維數(shù),減少不必要的運(yùn)算。常見做法包括:
? 去掉一些低頻詞,比如某些單詞只在一兩個(gè)文本中出現(xiàn)過(guò),這樣詞留在集合中會(huì)導(dǎo)致大部分文本樣本的該屬性值為 0。
? 去掉停止詞,一般這種詞幾乎不攜帶任何信息。例如:“的”、“地”、“得”之類的助詞,以及像“然而”、“因此”等只能反映句子語(yǔ)法結(jié)構(gòu)的詞語(yǔ),它們不但不能反映文獻(xiàn)的主題,而且還會(huì)對(duì)關(guān)鍵詞的抽取造成干擾,有必要將其濾除。應(yīng)該去掉的停止詞為所有虛詞以及標(biāo)點(diǎn)符號(hào)。
? 去掉一些標(biāo)記信息,這主要針對(duì)網(wǎng)頁(yè)文本或其他的標(biāo)記語(yǔ)言文本。
。ǘ禾卣鞒槿 1.文本特征抽取 目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項(xiàng),作為特征項(xiàng)的詞稱作特征詞。這些特征詞作為文檔的中間表示形式,用來(lái)實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算 。如果把所有的詞都作為特征項(xiàng),那么特征向量的維數(shù)將過(guò)于巨大,會(huì)對(duì)分類系統(tǒng)的運(yùn)算性能造成極大的壓力。在這樣的情況下,要完成文本
分類幾乎是不可能的。尋求一種 有效的特征降維方法,不僅能降低運(yùn)算復(fù)雜度,還能提高分類的效率和精度,是文本自動(dòng)分類中一項(xiàng)重要技術(shù)。
特征抽取的主要功能就是在不損傷核心信息的情況下降低向量空間維數(shù),簡(jiǎn)化計(jì)算,提高文本處理的速度和效率。相對(duì)于其他分類問(wèn)題,文本特征抽取的方式常見的有 4 種:
? 用映射或變換的方法把原始特征變換為較少的新特征;
? 從原始特征中挑選出一些最具代表性的特征;
? 根據(jù)專家的知識(shí)挑選最有影響的特征;
? 基于數(shù)學(xué)方法進(jìn)行選取,找出最具分類信息的特征。
其中基于數(shù)學(xué)方法進(jìn)行特征選擇比較精確,人為因素干擾少,尤其適合于文本應(yīng)用。這種方法通過(guò)構(gòu)造評(píng)估函數(shù),對(duì)特征集合中的每個(gè)特征進(jìn)行評(píng)估,并對(duì)每個(gè)特征打分,這樣每個(gè)詞語(yǔ)都獲得一個(gè)評(píng)估值,又稱為權(quán)值,然后將所有特征按權(quán)值大小排序,提取預(yù)定數(shù)目的最優(yōu)特征作為提取結(jié)果的特征子集。
2.評(píng)估函數(shù) 對(duì)用數(shù)學(xué)方法進(jìn)行特征選擇的算法, 決定文本特征提取效果的主要因素是評(píng)估函數(shù)的質(zhì)量,常用評(píng)估函數(shù)包括:
(1) TF-IDF 單詞權(quán)重最為有效的實(shí)現(xiàn)方法就是 TF-IDF 它是由 Salton 在 1988 年提出的。其中 TF 稱為詞頻,用于計(jì)算該詞描述文檔內(nèi)容的能力。IDF 稱為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力。TF*IDF 的指導(dǎo)思想建立在這樣一條基本假設(shè)之上:在一個(gè)文本中出現(xiàn)很多次的單詞,在另一個(gè)同類文本中出現(xiàn)次數(shù)也會(huì)很多,
反之亦然。所以如果特征空間坐標(biāo)系取 TF 詞頻作為測(cè)度,就可以體現(xiàn)同類文本的特點(diǎn)。另外還要考慮單詞區(qū)別不同類別的能力,TF*IDF 法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻率越小,它區(qū)別不同類別的能力就越大,所以引入了逆文本頻度 IDF的概念:以 TF 和 IDF 的乘積作為特征空間坐標(biāo)系的取值測(cè)度。TF-IDF 法是以特征詞在文檔 d 中出現(xiàn)的次數(shù)與包含該特征詞的文檔數(shù)之比作為該詞的權(quán)重,即其中,Wi 表示第 i 個(gè)特征詞的權(quán)重,TFi(t,d)表示詞 t 在文檔 d 中的出現(xiàn)頻率,N 表示總的文檔數(shù),DF(t)表示包含 t 的文檔數(shù)。用 TF-IDF 算法來(lái)計(jì)算特征詞的權(quán)重值是表示當(dāng)一個(gè)詞在這篇文檔中出現(xiàn)的頻率越高,同時(shí)在其他文檔中出現(xiàn)的次數(shù)越少,則表明該詞對(duì)于表示這篇文檔的區(qū)分能力越強(qiáng),所以其權(quán)重值就應(yīng)該越大。將所有詞的權(quán)值排序,根據(jù)需要可以有兩種選擇方式:
? 選擇權(quán)值最大的某一固定數(shù) n 個(gè)關(guān)鍵詞
? 選擇權(quán)值大于某一閾值的關(guān)鍵詞
達(dá)觀數(shù)據(jù)的實(shí)踐經(jīng)驗(yàn)是,計(jì)算機(jī)選擇的關(guān)鍵詞數(shù)量在 10∽15 個(gè),人工選擇的關(guān)鍵詞數(shù)量在 4∽6 個(gè)比較合適,通常具有最好的覆蓋度和專指度。TFIDF 算法是建立在這樣一個(gè)假設(shè)之上的:對(duì)區(qū)別文檔最有意義的詞語(yǔ)應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語(yǔ),所以如果特征空間坐標(biāo)系取 TF 詞頻作為測(cè)度,就可以體現(xiàn)同類文本的特點(diǎn)。另外考慮到單詞區(qū)別不同類別的能力,TFIDF 法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大。因此引入了逆文本頻度 IDF 的概念,以 TF 和 IDF 的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并用它完成對(duì)權(quán)值 TF 的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上 IDF 是一種試圖抑制噪音的加權(quán),并且單純地認(rèn)為文本頻數(shù)小的單詞就越重要,文本頻數(shù)大的單詞就越
無(wú)用,顯然這并不是完全正確的。IDF 的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無(wú)法很好地完成對(duì)權(quán)值調(diào)整的功能,所以 TF*IDF法的精度并不是很高。此外,在 TFIDF 算法中并沒有體現(xiàn)出單詞的位臵信息,對(duì)于 Web 文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出 HTML 的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對(duì)文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此應(yīng)該對(duì)于處于網(wǎng)頁(yè)不同位臵的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果。
(2) 詞頻法 詞頻是一個(gè)詞在文檔中出現(xiàn)的次數(shù)。通過(guò)詞頻進(jìn)行特征選擇就是將詞頻小于某一閾值的詞刪除,從而降低特征空間的維數(shù)。這個(gè)方法是基于這樣一個(gè)假設(shè),即出現(xiàn)頻率小的詞對(duì)過(guò)濾的影響也較小。但是在信息檢索的研究中認(rèn)為,有時(shí)頻率小的詞含有更多的信息。因此,在特征選擇的過(guò)程中不宜簡(jiǎn)單地根據(jù)詞頻大幅度刪詞。
(3) 文檔頻次法 文檔頻數(shù)(Document Frequency, DF)是最為簡(jiǎn)單的一種特征選擇算法,它指的是在整個(gè)數(shù)據(jù)集中有多少個(gè)文本包含這個(gè)單詞。在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)一算它的文檔頻次,并且根據(jù)預(yù)先設(shè)定的闌值去除那些文檔頻次特別低和特別高的特征。文檔頻次通過(guò)在訓(xùn)練文檔數(shù)量中計(jì)算線性近似復(fù)雜度來(lái)衡量巨大的文檔集,計(jì)算復(fù)雜度較低,能夠適用于任何語(yǔ)料,因此是特征降維的常用方法。在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)算它的文檔頻數(shù),若該項(xiàng)的DF值小于某個(gè)閾值則將其刪除,
若其 DF 值大于某個(gè)閾值也將其去掉。因?yàn)樗麄兎謩e代表了“沒有代表性”和“沒有區(qū)分度”兩種極端的情況。DF 特征選取使稀有詞要么不含有用信息,要么太少而不足以對(duì)分類產(chǎn)生影響,要么是噪音,所以可刪去。DF 的優(yōu)點(diǎn)在于計(jì)算量小,速度快,它的時(shí)間復(fù)雜度和文本數(shù)量成線性關(guān)系,所以非常適合于超大規(guī)模文本數(shù)據(jù)集的特征選擇。不僅如此,文檔頻數(shù)還非常地高效,在有監(jiān)督的特征選擇應(yīng)用中當(dāng)刪除 90%單詞的時(shí)候其性能與信息增益和 X2 統(tǒng)計(jì)的性能還不相上下。但如果某一稀有詞條主要出現(xiàn)在某類訓(xùn)練集中,卻能很好地反映類別的特征,而因低于某個(gè)設(shè)定的閾值而濾除掉,包含著重要的判斷信息被舍棄,這樣就會(huì)對(duì)分類精度有一定的影響。
(4) 互信息方法 互信息(Mutual Information)衡量的是某個(gè)詞和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系,某個(gè)詞 t 和某個(gè)類別 Ci 傳統(tǒng)的互信息定義如下:互信息是計(jì)算語(yǔ)言學(xué)模型分析的常用方法,它度量?jī)蓚(gè)對(duì)象之間的相互性。在過(guò)濾問(wèn)題中用于度量特征對(duì)于主題的區(qū)分度。
互信息的定義與交叉嫡近似;バ畔⒈緛(lái)是信息論中的一個(gè)概念,用于表示信息之間的關(guān)系, 是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測(cè)度,使用互信息理論進(jìn)行特征抽取是基于如下假設(shè):在某個(gè)特定類別出現(xiàn)頻率高,但在其他類別出現(xiàn)頻率比較低的詞條與該類的互信息比較大。通常用互信息作為特征詞和類別之問(wèn)的測(cè)度,如果特征詞屬于該類的話,它們的互信息量最大。由于該方法不需要對(duì)特征詞和類別之間關(guān)系的性質(zhì)作任何假設(shè),因此非常適合于文本分類的特征和類別的配準(zhǔn)工
作。特征項(xiàng)和類別的互信息體現(xiàn)了特征項(xiàng)與類別的相關(guān)程度,是一種廣泛用于建立詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)。
互信息與期望交叉熵的不同在于沒有考慮特征出現(xiàn)的頻率,這樣導(dǎo)致互信息評(píng)估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。因?yàn)閷?duì)于每一主題來(lái)講,特征 t 的互信息越大,說(shuō)明它與該主題的共現(xiàn)概率越大,因此,以互信息作為提取特征的評(píng)價(jià)時(shí)應(yīng)選互信息最大的若干個(gè)特征;バ畔⒂(jì)算的時(shí)間復(fù)雜度類似于信息增益,互信息的平均值就是信息增益。互信息的不足之處在于得分非常受詞條邊緣概率的影響。達(dá)觀的實(shí)驗(yàn)數(shù)據(jù)顯示,互信息分類效果通常比較差,其次是文檔頻率、CC 統(tǒng)計(jì),CHI 統(tǒng)計(jì)分類效果最好。
對(duì)互信息而言,提高分類精度的方法有:1) 可以增加特征空間的維數(shù),以提取足夠多的特征信息,這樣就會(huì)帶來(lái)了時(shí)間和空間上的額外開銷;2) 根據(jù)互信息函數(shù)的定義,認(rèn)為這些低頻詞攜帶著較為強(qiáng)烈的類別信息,從而對(duì)它們有不同程度的倚重。當(dāng)訓(xùn)練語(yǔ)料庫(kù)沒有達(dá)到一定規(guī)模的時(shí)候,特征空間中必然會(huì)存在大量的出現(xiàn)文檔頻率很低(比如低于 3 次) 的詞條,他們較低的文檔頻率導(dǎo)致了他們必然只屬于少數(shù)類別。但是從抽取出來(lái)的特征詞觀察發(fā)現(xiàn),大多數(shù)為生僻詞,很少一部分確實(shí)帶有較強(qiáng)的類別信息,多數(shù)詞攜帶少量的類別信息,甚至是噪音詞。
(5) 期望交叉熵(Expected Cross Entropy) 交叉嫡與信息量的定義近似,其公式為:交叉嫡,也稱 KL 距離。它反映了文本主題類的概率分布和在出現(xiàn)了某特定詞匯的條件下文本主題類的概率分布之間的距離,詞匯 w 的交叉嫡越大,對(duì)文本主題類分布的影響也越大。它與信息增
益唯一的不同之處在于沒有考慮單詞未發(fā)生的情況,只計(jì)算出現(xiàn)在文本中的特征項(xiàng)。如果特征項(xiàng)和類別強(qiáng)相關(guān),P(Ci|w)就大,若 P(Ci) 又很小的話,則說(shuō)明該特征對(duì)分類的影響大。交叉熵反映了文本類別的概率分布和在出現(xiàn)了某個(gè)特定詞的條件下文本類別的概率分布之間的距離,特征詞 t 的交叉熵越大,對(duì)文本類別分布的影響也越大。熵的特征選擇效果都要優(yōu)于信息增益。
(6) 二次信息熵(QEMI) 將二次熵函數(shù)應(yīng)用于互信息評(píng)估方法中,取代互信息中的 Shannon 熵,就形成了基于二次熵的互信息評(píng)估函數(shù);诙戊氐幕バ畔⒖朔嘶バ畔⒌碾S機(jī)性,是一個(gè)確定的量,因此可以作為信息的整體測(cè)度,另外它還比互信息最大化的計(jì)算復(fù)雜度要小,所以可以比較高效地用在基于分類的特征選取上。
(7) 信息增益方法(Information Gain) 信息增益方法是機(jī)器學(xué)習(xí)的常用方法,在過(guò)濾問(wèn)題中用于度量已知一個(gè)特征是否出現(xiàn)于某主題相關(guān)文本中對(duì)于該主題預(yù)測(cè)有多少信息。通過(guò)計(jì)算信息增益可以得到那些在正例樣本中出現(xiàn)頻率高而在反例樣本中出現(xiàn)頻率低的特征,以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征。信息增益 G(w)的訓(xùn)算公式如下:其中 P(w)是詞 w 出現(xiàn)的概率,P(Ci)是取第 i 個(gè)目錄時(shí)的概率,P(Ci|w) 是假定 w 出現(xiàn)時(shí)取第 i 個(gè)目錄的概率。
信息增益是一種基于熵的評(píng)估方法,涉及較多的數(shù)學(xué)理論和復(fù)雜的熵理論公式,定義為某特征項(xiàng)為整個(gè)分類所能提供的信息量,不考慮任何特征的熵與考慮該特征后的熵的差值。他根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)特征項(xiàng)的信息增益,刪除信息增
益很小的項(xiàng),其余的按照信息增益從大到小排序。信息增益是信息論中的一個(gè)重要概念,它表示了某一個(gè)特征項(xiàng)的存在與否對(duì)類別預(yù)測(cè)的影響,定義為考慮某一特征項(xiàng)在文本中出現(xiàn)前后的信息熵之差。某個(gè)特征項(xiàng)的信息增益值越大,貢獻(xiàn)越大,對(duì)分類也越重要。信息增益方法的不足之處在于它考慮了特征未發(fā)生的情況。特別是在類分布和特征值分布高度不平衡的情況下,絕大多數(shù)類都是負(fù)類,絕大多數(shù)特征都不出現(xiàn)。此時(shí)的函數(shù)值由不出現(xiàn)的特征決定,因此,信息增益的效果就會(huì)大大降低。信息增益表現(xiàn)出的分類性能偏低。因?yàn)樾畔⒃鲆婵紤]了文本特征未發(fā)生的情況,雖然特征不出現(xiàn)的情況腫可能對(duì)文本類別具有貢獻(xiàn),但這種貢獻(xiàn)往往小于考慮這種情況時(shí)對(duì)特征分值帶來(lái)的干擾。
(8) 統(tǒng)計(jì)量方法 X2 統(tǒng)計(jì)量用于度量特征 W 和主題類 C 之間的獨(dú)立性。而表示除 W 以外的其他特征,C 表示除 C 以外的其他主題類,那么特征 W 和主題類 C 的關(guān)系有以下四種情況:用 A、B、C、D 表示這四種情況的文檔頻次,總的文檔數(shù) N=A+B+C+D,擴(kuò)統(tǒng)計(jì)量的計(jì)算公式如下:當(dāng)特征 W 和主題類 C 之間完全獨(dú)立的時(shí)候,X2 統(tǒng)計(jì)量為 0。X2 統(tǒng)計(jì)量和互信息的差別在于它是歸一化的統(tǒng)計(jì)量,但是它對(duì)低頻特征的區(qū)分效果也不好。X2 統(tǒng)計(jì)得分的計(jì)算有二次復(fù)雜度,相似于互信息和信息增益。在 X2 統(tǒng)計(jì)和互信息之間主要的不同在于 X2 是規(guī)格化評(píng)價(jià), 因而 X2 評(píng)估分值對(duì)在同類中的詞是可比的, 但是 X2 統(tǒng)計(jì)對(duì)于低頻詞來(lái)說(shuō)是不可靠的。
利用 X2 統(tǒng)計(jì)方法來(lái)進(jìn)行特征抽取是基于如下假設(shè):在指定類別文本中出現(xiàn)頻率高的詞條與在其他類別文本中出現(xiàn)頻率比較高的詞條,對(duì)判定文檔是否屬于該類別都是很有幫助的.采用 X2 估計(jì)特征選擇算法的準(zhǔn)確率在實(shí)驗(yàn)中最高,其分類效
果受訓(xùn)練集影響較小,比較穩(wěn)定。而且在對(duì)文教類和政治類存在類別交叉現(xiàn)象的文本進(jìn)行分類時(shí),采用 X2 估計(jì)的分類系統(tǒng)表現(xiàn)出了優(yōu)于其它方法的分類性能。X2 估計(jì)的可靠性較好,便于對(duì)程序的控制,無(wú)需因訓(xùn)練集的改變而人為的調(diào)節(jié)特征閥值的大小。
(9) 文本證據(jù)權(quán)(The Weight of Evidence for Text) 文本證據(jù)權(quán)衡量類的概率和給定特征時(shí)類的條件概率之間的差別。
(10) 優(yōu)勢(shì)率(Odds Ratio) 優(yōu)勢(shì)率只適用于二元分類的情況,其特點(diǎn)是只關(guān)心文本特征對(duì)于目標(biāo)類的分值。Pos 表示目標(biāo)類,neg 表示非目標(biāo)類。
(11) 遺傳算法(Genetic Algorithm, GA):
遺傳算法(Genetic Algorithm, GA)是一種通用型的優(yōu)化搜索方法,它利用結(jié)構(gòu)化的隨機(jī)信息交換技術(shù)組合群體中各個(gè)結(jié)構(gòu)中最好的生存因素,復(fù)制出最佳代碼串,并使之一代一代地進(jìn)化,最終獲得滿意的優(yōu)化結(jié)果。
文本實(shí)際上可以看作是由眾多的特征詞條構(gòu)成的多維空間,而特征向量的選擇就是多維空間中的尋優(yōu)過(guò)程,因此在文本特征提取研究中可以使用高效尋優(yōu)算法。在將文本特征提取問(wèn)題轉(zhuǎn)化為文本空間的尋優(yōu)過(guò)程中,首先對(duì) Web 文本空間進(jìn)行遺傳編碼,以文本向量構(gòu)成染色體,通過(guò)選擇、交叉、變異等遺傳操作,不斷搜索問(wèn)題域空間,使其不斷得到進(jìn)化,逐步得到 Web 文本的最優(yōu)特征向量。
基于協(xié)同演化的遺傳算法不是使用固定的環(huán)境來(lái)評(píng)價(jià)個(gè)體,而是使用其他的個(gè)體來(lái)
評(píng)價(jià)特定個(gè)體;趨f(xié)同演化的遺傳算法不僅能反映其母體的特征,還能反映其他同類文本的共性,這樣可以有效地解決同一主題眾多文本的集體特征向量的提取問(wèn)題,獲得反映整個(gè)文本集合某些特征的最佳個(gè)體。
(12) 主成分分析法(Principal Component Analysis,PCA) PCA 是非常常用的一種通用特征降維方法,也同樣大規(guī)模用于文本特征抽取中,基于其處理方式的不同又分為 數(shù)據(jù)方法和矩陣方法。
矩陣方法中,所有的數(shù)據(jù)通過(guò)計(jì)算方差一協(xié)方差結(jié)構(gòu)在矩陣中表示出來(lái),矩陣的實(shí)現(xiàn)目標(biāo)是確定協(xié)方差矩陣的特征向量,它們和原始數(shù)據(jù)的主要成分相對(duì)應(yīng)。在主成分方法中,由于矩陣方法的復(fù)雜度在 n 很大的情況以二次方增長(zhǎng),因此人們又開發(fā)了主要使用 Hebbian 學(xué)習(xí)規(guī)則的 PCA 神經(jīng)網(wǎng)絡(luò)方法。主成分分析法是特征選取常用的方法之一,它能夠揭示更多有關(guān)變量-豐要方向的信息。但它的問(wèn)題在于矩陣方法中要使用奇異值分解對(duì)角化矩陣求解方差一協(xié)方差。
(13) 模擬退火算法(Simulating Anneal,SA) 特征選取可以看成是一個(gè)組合優(yōu)化問(wèn)題,因而可以使用解決優(yōu)化問(wèn)題的方法來(lái)解決特征選取的問(wèn)題。模擬退火算法(Simulating Anneal,SA)就是其中一種方法。模擬退火算法是一個(gè)很好的解決優(yōu)化問(wèn)題的方法,將這個(gè)方法運(yùn)用到特征選取中,理論上能夠找到全局最優(yōu)解,但在初始溫度的選取和鄰域的選取 t 要恰當(dāng),必須要找到一個(gè)比較折中的辦法,綜合考慮解的性能和算法的速度。
(14) N-Gram 算法
它的基本思想是將文本內(nèi)容按字節(jié)流進(jìn)行大小為 N 的滑動(dòng)窗口操作,形成長(zhǎng)度為 N 的字節(jié)片段序列。每個(gè)字節(jié)片段稱為 gram,對(duì)全部 gram 的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并按照事先設(shè)定的閾值進(jìn)行過(guò)濾,形成關(guān)鍵 gram 列表,即為該文本的特征向量空間,每一種 gram 則為特征向量維度。
由于 N-Gram 算法可以避免中文分詞的障礙,所以對(duì)中文分類有較高的實(shí)用性。中文文本處理大多采用雙字節(jié)進(jìn)行分解,稱之為 bi-gram。但是 bi-gram 切分方法在處理 20%左右的中文多字詞時(shí),往往產(chǎn)生語(yǔ)義和語(yǔ)序方面的偏差。而對(duì)于專業(yè)研究領(lǐng)域,多字詞常常是文本的核心特征,處理錯(cuò)誤會(huì)導(dǎo)致較大的負(fù)面影響。基于 N-Gram 改進(jìn)的文本特征提取算法,在進(jìn)行 bi-gram 切分時(shí),不僅統(tǒng)計(jì) gram 的出現(xiàn)頻度,而且還統(tǒng)計(jì)某個(gè) gram 與其前鄰 gram 的情況,并將其記錄在 gram 關(guān)聯(lián)矩陣中。對(duì)于那些連續(xù)出現(xiàn)頻率大于事先設(shè)定閾值的,就將其合并成為多字特征詞。這樣通過(guò)統(tǒng)計(jì)與合并雙字特征詞,自動(dòng)產(chǎn)生多字特征詞,可以較好地彌補(bǔ)N-Gram 算法在處理多字詞方面的缺陷。
3. 評(píng)估函數(shù)對(duì)比分析 上述羅列的幾種文檔特征評(píng)估函數(shù)的特點(diǎn)如何呢?信息增益的定義過(guò)于復(fù)雜,因此應(yīng)用較多的是交叉嫡和互信息。其中互信息的效果要好于交叉嫡,這是因?yàn)榛バ畔⑹菍?duì)不同的主題類分別抽取特征詞,而交叉嫡跟特征在全部主題類內(nèi)的分布有關(guān),是對(duì)全部主題類來(lái)抽取特征詞。這些方法,在英文特征提取方面都有各自的優(yōu)勢(shì),但用于中文文本,并沒有很高的效率。主要有 2 個(gè)方面的原因:
? 特征提取的計(jì)算量太大,特征提取效率太低,而特征提取的效率直接影響到整個(gè)文本分類系統(tǒng)的效率;
? 經(jīng)過(guò)特征提取后生成的特征向量維數(shù)太高,而且不能直接計(jì)算出特征向量中各個(gè)特征詞的權(quán)重。
目前使用評(píng)估函數(shù)進(jìn)行特征選取越來(lái)越普遍,特征選取算法通過(guò)構(gòu)造一個(gè)評(píng)估函數(shù)的方法,選取預(yù)定數(shù)目的最佳特征作為特征子集的結(jié)果。在幾種評(píng)估方法中,每一種方法都有一個(gè)選詞標(biāo)準(zhǔn),遵從這個(gè)標(biāo)準(zhǔn),從文本集的所有詞匯中選取出有某個(gè)限定范圍的特征詞集。因?yàn)樵u(píng)估函數(shù)的構(gòu)造不是特別復(fù)雜,適用范圍又很廣泛,所以越來(lái)越多的人們喜歡使用構(gòu)造評(píng)估函數(shù)來(lái)進(jìn)行特征的選取,這些評(píng)估函數(shù)在 Web 文本挖掘中被廣泛使用,特征選擇精度普遍達(dá)到 70%~80%,但也各自存在缺點(diǎn)和不足。例如,“信息增益”考慮了單詞未發(fā)生的情況,對(duì)判斷文本類別貢獻(xiàn)不大,而且引入不必要的干擾,特別是在處理類分布和特征值分布高度不平衡的數(shù)據(jù)時(shí)選擇精度下降。“期望交叉熵”與“信息增益”的唯一不同就是沒有考慮單詞未發(fā)生的情況,因此不論處理哪種數(shù)據(jù)集,它的特征選擇精度都優(yōu)于“信息增益”。與“期望交叉熵”相比,“互信息”沒有考慮單詞發(fā)生的頻度,這是一個(gè)很大的缺點(diǎn),造成“互信息”評(píng)估函數(shù)經(jīng)常傾向于選擇稀有單詞。“文本證據(jù)權(quán)”是一種構(gòu)造比較新穎的評(píng)估函數(shù),它衡量一般類的概率和給定特征類的條件概率之間的差別,這樣在文本處理中,就不需要計(jì)算 W 的所有可能值,而僅考慮 W 在文本中出現(xiàn)的情況。“優(yōu)勢(shì)率”不像前面所述的其他評(píng)估函數(shù)將所有類同等對(duì)待,它只關(guān)心目標(biāo)類值,所以特別適用于二元分類器,可以盡可能多地識(shí)別正類,而不關(guān)心識(shí)別出負(fù)類。從考慮文本類間相關(guān)性的角度,可以把常用的評(píng)估函數(shù)分為兩類,即類間不相關(guān)的和類間相關(guān)的。
“文檔頻數(shù)”(DF)是典型的類間不相關(guān)評(píng)估函數(shù),DF 的排序標(biāo)準(zhǔn)是依據(jù)特征詞在文檔中出現(xiàn)篇數(shù)的百分比,或稱為篇章覆蓋率。這種類型的評(píng)估函數(shù),為了提
高區(qū)分度,要盡量尋找篇章覆蓋率較高的特征詞,但又要避免選擇在各類文本中都多次出現(xiàn)的無(wú)意義高頻詞,因此類間不相關(guān)評(píng)估函數(shù)對(duì)停用詞表的要求很高。但是很難建立適用于多個(gè)類的停用詞表,停用詞不能選擇太多,也不能選擇太少,否則都將會(huì)影響特征詞的選擇。同時(shí),類間不相關(guān)評(píng)估函數(shù)還存在一個(gè)明顯的缺點(diǎn),就是對(duì)于特征詞有交叉的類別或特征相近的類別,選擇的特征詞會(huì)出現(xiàn)很多相似或相同的詞條,造成在特定類別間的區(qū)分度下降。類間相關(guān)的評(píng)估函數(shù),例如期望交叉熵、互信息、文本證據(jù)權(quán)等,綜合考慮了詞條在已定義的所有類別中的出現(xiàn)情況,可以通過(guò)調(diào)整特征詞的權(quán)重,選擇出區(qū)分度更好的特征,在一定程度上提高了相近類別的區(qū)分度。但是,該區(qū)分度的提高僅體現(xiàn)在已定義的類別間,而對(duì)于尚未定義的域外類別,類間相關(guān)評(píng)估函數(shù)的選擇效果也不理想。因此,在評(píng)估函數(shù)選擇問(wèn)題上,提高對(duì)域外類別文本的區(qū)分度是十分重要的研究課題。
傳統(tǒng)的特征選擇方法大多采用以上各評(píng)估函數(shù)進(jìn)行特征權(quán)重的計(jì)算,由于這些評(píng)估函數(shù)是基于統(tǒng)計(jì)學(xué)的,其中一個(gè)主要缺陷就是需要用一個(gè)很龐大的訓(xùn)練集才能獲得幾乎所有的對(duì)分類起關(guān)鍵作用的特征.這需要消耗大量的時(shí)間和空間資源,況且構(gòu)建這樣一個(gè)龐大的訓(xùn)練集也是一項(xiàng)十分艱巨的工作。然而在現(xiàn)實(shí)應(yīng)用中,考慮到工作效率,不會(huì)也沒有足夠的資源去構(gòu)建一個(gè)龐大的訓(xùn)練集,這樣的結(jié)果就是:被選中的甚至是權(quán)重比較高的特征,可能對(duì)分類沒有什么用處,反而會(huì)干涉到正確的分類;而真正有用的特征卻因?yàn)槌霈F(xiàn)的頻率低而獲得較低的權(quán)重,甚至在降低特征空間維數(shù)的時(shí)候被刪除掉了。基于評(píng)估函數(shù)的特征提取方法是建立在特征獨(dú)立的假設(shè)基礎(chǔ)上,但在實(shí)際中這個(gè)假設(shè)是很難成立的,因此需要考慮特征相關(guān)條件下的文本特征提取方法。
4. 詞向量的應(yīng)用 特征選擇也可以通過(guò)用映射或變換的方法把原始特征變換為較少的新特征。上面提到的特征選擇模塊,在實(shí)際情況會(huì)碰到這樣的問(wèn)題:無(wú)論是采用文檔頻率、信息增益法、互信息法等得降維方法,都會(huì)損失了部分的文檔信息。以文檔頻率為例,在特征選擇過(guò)程中由于某些關(guān)鍵的詞語(yǔ)低于了人為設(shè)定的閾值,所以會(huì)被直接忽視掉,而很多情況這部分詞匯能包含較多的信息,對(duì)于分類的重要性比較大。怎么能夠進(jìn)一步理解這部分的信息,是急需要解決的問(wèn)題。一個(gè)想法是找到這些使用頻率比較低的詞語(yǔ)相似的高頻詞,譬如在討論“月亮”的古詩(shī)詞中,包含了很多低頻的同義詞,如“玉兔”,“嬋娟”等,如果我們能把這些低頻的詞語(yǔ)合并到一個(gè)維度,無(wú)疑是能夠增強(qiáng)分類系統(tǒng)對(duì)文檔的理解深度的。詞向量這一概念能夠有效地表示詞語(yǔ)之間的相似性,適用于這種方法。
先介紹一下詞向量的定義。一種最簡(jiǎn)單的詞向量是 one-hot representation,就是用一個(gè)很長(zhǎng)的向量來(lái)表示一個(gè)詞,向量的長(zhǎng)度是詞典 D 的大小 N,向量的分量只有一個(gè)為 1,其他全為 0,1 的位臵對(duì)應(yīng)該詞在詞典中的索引。這種詞向量表示有一些缺點(diǎn):容易受維數(shù)災(zāi)難的困擾。另一種詞向量是 Distributed Representation,它最早是Hinton于1986年提出來(lái)的,可以克服one-hot representation的上述缺點(diǎn)。其基本想法是:通過(guò)訓(xùn)練將某種語(yǔ)言中的每個(gè)詞映射成一個(gè)固定長(zhǎng)度的短向量。所有這些向量構(gòu)成一個(gè)詞向量空間,每個(gè)向量是該空間中的一個(gè)點(diǎn),在這個(gè)空間上引入距離,就可以根據(jù)詞之間的距離來(lái)判斷它們之間的(詞法、語(yǔ)義上的)相似性了。如何獲取 Distributed Representation 的詞向量呢?有很多不同的模型可以
用來(lái)估計(jì)詞向量,包括有名的 LSA、LDA 和神經(jīng)網(wǎng)絡(luò)算法。c Word2Vec 就是使用度比較廣的一個(gè)神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的詞向量計(jì)算工具。
現(xiàn)在介紹詞向量在分類系統(tǒng)上的具體實(shí)踐。Word2Vec 能夠?qū)⒃~映射成一個(gè)固定長(zhǎng)度的短向量,所以生成了文檔集合詞語(yǔ)的向量表示。由于向量的距離代表了詞語(yǔ)之間的相似性,我們可以通過(guò)聚類的方法(譬如 K-Means)把相似的詞語(yǔ)合并到一個(gè)維度,重新計(jì)算該維度的特征向量權(quán)值。相比于原來(lái)的方法,使用詞向量能在一定程度保留了文檔的信息。此外,Word2Vec 作為無(wú)監(jiān)督學(xué)習(xí)方法的一個(gè)實(shí)現(xiàn),能夠允許它從無(wú)標(biāo)注的文本進(jìn)行訓(xùn)練,能進(jìn)一步提升系統(tǒng)的性能。
另外,基于向量空間模型的文本分類方法是沒有考慮到詞的順序的;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)做文本分類,可以利用到詞的順序包含的信息。CNN 模型把原始文本作為輸入,不需要太多的人工特征。下圖是 CNN 模型的一個(gè)實(shí)現(xiàn),共分四層,第一層是詞向量層,doc 中的每個(gè)詞,都將其映射到詞向量空間,假設(shè)詞向量為 k 維,則 n 個(gè)詞映射后,相當(dāng)于生成一張 n*k 維的圖像;第二層是卷積層,多個(gè)濾波器作用于詞向量層,不同濾波器生成不同的 feature map;第三層是pooling 層,取每個(gè) feature map 的最大值,這樣操作可以處理變長(zhǎng)文檔,因?yàn)榈谌龑虞敵鲋灰蕾囉跒V波器的個(gè)數(shù);第四層是一個(gè)全連接的 softmax 層,輸出是每個(gè)類目的概率。除此之外,輸入層可以有兩個(gè) channel,其中一個(gè) channel 采用預(yù)先利用 word2vec 訓(xùn)練好的詞向量,另一個(gè) channel 的詞向量可以通過(guò)backpropagation 在訓(xùn)練過(guò)程中調(diào)整。
圖 3 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法
相關(guān)熱詞搜索:學(xué)習(xí) 文本 機(jī)器
熱點(diǎn)文章閱讀