【文本可視化技術(shù)與競(jìng)爭(zhēng)情報(bào)】文本可視化
發(fā)布時(shí)間:2020-03-10 來(lái)源: 人生感悟 點(diǎn)擊:
[摘要]競(jìng)爭(zhēng)情報(bào)實(shí)踐離不開收集大量資料,在這些收集到的公開資料中有大量自由文本,從這類文本中正確高效地提取出情報(bào)是非常重要的。從可視化技術(shù)角度,把文本可視化分為文本內(nèi)可視化和文本間可視化技術(shù),并分別就這兩大類技術(shù)下的各類文本可視化技術(shù)的特點(diǎn)以及如何將它們應(yīng)用于競(jìng)爭(zhēng)情報(bào)文本分析進(jìn)行闡述,提出文本可視化是競(jìng)爭(zhēng)情報(bào)分析的新的重要手段。
[關(guān)鍵詞]文本可視化 競(jìng)爭(zhēng)情報(bào) 競(jìng)爭(zhēng)情報(bào)分析
[分類號(hào)]G350
1、引言
目前對(duì)競(jìng)爭(zhēng)情報(bào)沒有統(tǒng)一的定義,但無(wú)論中外,競(jìng)爭(zhēng)情報(bào)都是指通過(guò)公開、合法的手段搜集各類信息,依靠對(duì)收集到的信息進(jìn)行科學(xué)分析得到用于決策的情報(bào)…。當(dāng)前資料的主要來(lái)源包括從各類媒體中收集公開報(bào)導(dǎo),從公開的數(shù)據(jù)庫(kù)中收集學(xué)術(shù)文獻(xiàn),從互聯(lián)網(wǎng)收集網(wǎng)頁(yè)、論壇、郵件等,收集的資料大部分都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本信息。如何高效地從中分析出有效的情報(bào)來(lái)支持決策,成為競(jìng)爭(zhēng)情報(bào)研究的重要內(nèi)容。
競(jìng)爭(zhēng)情報(bào)實(shí)踐借助IT輔助手段由來(lái)已久,而且計(jì)算機(jī)系統(tǒng)在競(jìng)爭(zhēng)情報(bào)信息的收集、存儲(chǔ)和處理分析中已具有非常重要的地位。但一直以來(lái)從文本中分析出競(jìng)爭(zhēng)情報(bào)所需內(nèi)容的工作卻很難借助計(jì)算機(jī)來(lái)自動(dòng)完成。2000年由美國(guó)加州大學(xué)伯克利分校的Peter Ly-man和Hal Varian領(lǐng)導(dǎo)的團(tuán)隊(duì)研究認(rèn)為,當(dāng)前人類每年新產(chǎn)生的數(shù)據(jù)量大約是2 EB(每EB相當(dāng)于106TB),即便其中文本只占較少的比例,僅1999年當(dāng)年新印刷的書也超過(guò)1 000 000本。以人類的閱讀能力,面對(duì)如此海量的數(shù)據(jù),且不要說(shuō)從篩選的信息中分析到有用的情報(bào),僅僅“篩選”就是不可能完成的任務(wù)。
如何讓人們能以最快的速度從大量以抽象數(shù)據(jù)形式存在的文本中獲得有效的情報(bào),在競(jìng)爭(zhēng)越來(lái)越激烈的互聯(lián)網(wǎng)時(shí)代是非常重要的。筆者認(rèn)為把可視化技術(shù)應(yīng)用于文本處理是解決方案之一。
在人腦中,有70%的感知和40%大腦皮層的接受是與視覺有關(guān)的,與觸覺、聽覺等其他知覺相比,視覺的帶寬要寬得多。進(jìn)一步的研究還表明,人們感知和記憶可視化圖像的帶寬是文本的2倍?梢妼(duì)于圖像的認(rèn)知能力使圖像成為人類最有效的交流方式,也顯示了用圖像來(lái)表達(dá)和傳遞文本信息的價(jià)值。
所謂文本可視化是指從文本中提取出一定的模式來(lái)生成圖形,用戶通過(guò)與可視化界面的交互來(lái)快速理解文本。當(dāng)前文本可視化已經(jīng)形成了不少技術(shù),依據(jù)可視化的對(duì)象是著眼于文本內(nèi)還是文本之間,筆者把目前的文本可視化技術(shù)劃分成“文本內(nèi)可視化”和“文本間可視化”兩大類,它們都能在競(jìng)爭(zhēng)情報(bào)中發(fā)揮重要的作用。
文本可視化的文本范圍包括:論文、書本、Web頁(yè)面、電子郵件、論壇中的評(píng)論、社交網(wǎng)站中的貼子和個(gè)人資料以及博客和微博中的博文等內(nèi)部沒有結(jié)構(gòu)、內(nèi)容千差萬(wàn)別的“自由文本”。
2、文本內(nèi)可視化
文本內(nèi)可視化的主要目的是快速地從文本中找出重要的內(nèi)容,通過(guò)揭示內(nèi)容的結(jié)構(gòu)和內(nèi)容之間的關(guān)系幫助用戶快速獲取所需情報(bào),通過(guò)劃分文本細(xì)節(jié)為用戶獲得情報(bào)進(jìn)行導(dǎo)航,減少競(jìng)爭(zhēng)情報(bào)分析人員在低附加值勞動(dòng)中所花費(fèi)的時(shí)間,提高分析工作時(shí)效。
文本內(nèi)可視化依據(jù)可視化呈現(xiàn)的特點(diǎn)可以分為詞匯索引式的文本可視化、基于詞頻的文本可視化和基于詞匯分布的文本可視化。
2.1 詞匯索引式的文本可視化
這類可視化從全文中搜索詞匯,把去掉停用詞后剩下的所有詞匯編成一個(gè)索引,通過(guò)索引來(lái)展示相應(yīng)詞匯在全文中的使用。圖1的左側(cè)圖中,左邊欄顯示的是所有的索引詞,通過(guò)鼠標(biāo)點(diǎn)擊選中某詞,右側(cè)窗口會(huì)顯示文本中所有與該詞相關(guān)的句子。圖1的右側(cè)圖來(lái)自施樂(lè)PARC研究中心的SeeSoft,圖形每欄中的一行代表文本中的一個(gè)句子。通過(guò)選擇左側(cè)的詞,右側(cè)文本中與該詞相關(guān)的句子就會(huì)高亮地顯示出來(lái)。
詞匯索引式的文本可視化在競(jìng)爭(zhēng)情報(bào)的分析中是非常有用的,比如,通過(guò)所形成的詞匯的統(tǒng)計(jì)數(shù)據(jù)可以讓競(jìng)爭(zhēng)情報(bào)人員知道該文本所論述的主要內(nèi)容,并通過(guò)與之相關(guān)聯(lián)的句子快速?gòu)奈谋緝?nèi)找到核心數(shù)據(jù)和主要內(nèi)容。如果是有目的地查找和檢索,則可以從相關(guān)詞匯在整個(gè)文本中的分布狀態(tài)快速判斷該文本的價(jià)值,從而從大量的全文閱讀中解脫出來(lái),把更多的精力用于情報(bào)分析。
2.2 基于詞頻的文本可視化
基于詞頻的文本可視化是目前經(jīng)常被采用的一種方式。人們因某個(gè)詞在文本中反復(fù)出現(xiàn)而假定該詞是文中的重要詞匯,在把文本用可視化方式展現(xiàn)時(shí),通過(guò)改變?cè)~的大小、顏色、中心位置等方式把出現(xiàn)頻率高的詞顯示在重要、醒目的位置。
詞頻統(tǒng)計(jì)技術(shù)是文本挖掘的重要技術(shù),也是基于詞頻的文本可視化技術(shù)中除對(duì)于詞的“可視化映射”和“顯示技術(shù)”之外的重點(diǎn)技術(shù)。目前對(duì)于西文基于詞頻的可視化技術(shù)相對(duì)比較成熟:從全文抽取出所有詞匯,去掉停用詞后對(duì)所有剩余的獨(dú)特的詞建立統(tǒng)計(jì)表。建表的方式多種多樣,有些是用柱形圖,有些是放在數(shù)據(jù)庫(kù)的一個(gè)字段中。在統(tǒng)計(jì)的過(guò)程中,要運(yùn)用一些如Porter Stemming等的算法對(duì)英文單詞進(jìn)行原形化處理。
應(yīng)用相對(duì)詞頻計(jì)算(TFIDF,term frequency inverteddocument frequency)算法處理文檔中的詞以確定該詞的重要性。目前可以使用的TFIDF算法有很多,比較常見的計(jì)算公式為:
公式中w(t,D)為詞t在文本D中的權(quán)重,tf(t,D)為詞t在文本D中的詞頻,N為文本集中的文本總數(shù),n為向量的維數(shù),ti為向量第i個(gè)分量對(duì)應(yīng)的特征項(xiàng),nti為總文本中出現(xiàn)ti的文本數(shù),nt為文本集中出現(xiàn)t的文本數(shù),分母為規(guī)范化因子。
在圖2中,左圖是目前常見的標(biāo)簽云圖,它按照全文中所有詞匯出現(xiàn)的頻率來(lái)確定詞的大;右圖的中心詞匯是可以通過(guò)點(diǎn)擊鼠標(biāo)來(lái)切換的,切換后中心詞的外圈是整個(gè)文本中曾與該詞匯搭配出現(xiàn)的詞,詞的大小是由出現(xiàn)的頻率決定的。
基于詞頻的文本可視化可以應(yīng)用于單個(gè)文本,也可用于大量文本集匯成的文本。這種技術(shù)在收集到數(shù)量大而對(duì)內(nèi)容毫無(wú)所知的資料時(shí)是非常有用的:把所有資料統(tǒng)一到大的文本集下,通過(guò)字云(見圖2左)技術(shù)快速了解最主要被使用的詞匯,從而知道文本集最主要的論述內(nèi)容,用于快速推斷文本集中所論述的主要研究領(lǐng)域、研究熱點(diǎn)。通過(guò)層次詞頻結(jié)構(gòu)(見圖2右)可以快速獲得競(jìng)爭(zhēng)情報(bào)課題中感興趣的詞匯在文本或文本集中與哪些其他詞匯有共現(xiàn)關(guān)系,共現(xiàn)的緊密程度如何,幫助從大量文本中發(fā)現(xiàn)競(jìng)爭(zhēng)對(duì)手、競(jìng)爭(zhēng)環(huán)境中的危機(jī)和機(jī)會(huì)。如果文本集中的文本帶有時(shí)間戳,還可以快速發(fā)現(xiàn)變化趨勢(shì)。
2.3 基于詞匯分布的文本可視化
這種類型的可視化是用可視化方式呈現(xiàn)全文中與輸入的查詢條件一致的詞在文章中的分布情況,可以讓查詢者更清楚地了解返回文獻(xiàn)的內(nèi)容與自己需求的對(duì)應(yīng)關(guān)系,從而有針對(duì)性地選擇文獻(xiàn)。以來(lái)自加州大 學(xué)伯克利分校的TileBars為例:它會(huì)依據(jù)輸入的關(guān)鍵詞對(duì)于資料庫(kù)中所有資料進(jìn)行全文分析,然后返回符合搜索條件的文本,而且用可視化的方式告訴你檢索詞在文獻(xiàn)全文中的頻率分布。
圖3中的長(zhǎng)條代表著文獻(xiàn)全文,一行長(zhǎng)條對(duì)應(yīng)一個(gè)檢索詞在文獻(xiàn)內(nèi)的情況,每一個(gè)矩形代表文章的一個(gè)自然段。對(duì)矩形顏色的灰度也有明確的定義:灰度越高,該檢索詞在該自然段出現(xiàn)的頻率越高;反之則頻率越低,當(dāng)顏色為全白時(shí),表明該檢索詞沒有在該自然段中出現(xiàn)。以圖3中的返回結(jié)果為例,文獻(xiàn)1較長(zhǎng),但提到“Information”的段落基本都沒提到“Visualiza-tion”,而文獻(xiàn)2中有3個(gè)自然段同時(shí)出現(xiàn)這兩個(gè)詞。如果分析的對(duì)象是“Information Visualization”,則文獻(xiàn)2的價(jià)值更高。
在當(dāng)前信息充分豐富的情況下,“查全率”已不是最受關(guān)注的問(wèn)題。當(dāng)一次檢索返回成千上萬(wàn)條查詢結(jié)果時(shí),通過(guò)詞匯在整個(gè)文本中的分布示意使快速了解文本內(nèi)容相關(guān)度、找到最相關(guān)的資料成為可能。
3、文本間可視化
文本內(nèi)可視化研究的重點(diǎn)在于揭示文本內(nèi)部?jī)?nèi)容的重點(diǎn)、內(nèi)部結(jié)構(gòu)之間的關(guān)系。而如果要看到多個(gè)文本之間的關(guān)系、多文本內(nèi)容的異同程度、一系列文本內(nèi)容的重點(diǎn)隨時(shí)間的變化情況等就要通過(guò)文本間可視化技術(shù)來(lái)展現(xiàn)。
3.1 基于時(shí)間序列的文本可視化
時(shí)間是文本的一個(gè)重要屬性,針對(duì)文本在時(shí)間上的關(guān)系進(jìn)行可視化,同時(shí)在此基礎(chǔ)上進(jìn)行一些特別的分析,可以發(fā)現(xiàn)多個(gè)文本背后的規(guī)律,是研究趨勢(shì)、技術(shù)發(fā)展的規(guī)律以及文章內(nèi)容的變遷等的有效工具。
圖4是通過(guò)ThemeRiver實(shí)現(xiàn)的對(duì)1990年6月至8月間超過(guò)100 000份西方國(guó)家主要報(bào)紙的報(bào)導(dǎo)所生成的可視化圖。圖中一種顏色代表一種主題,寬度代表頻率。從中可以看到白色和黑色在8月份突然得到高頻關(guān)注,這是因?yàn)?月2號(hào)Iraq入侵了Kuwait。該圖同時(shí)揭示了可視化圖從左到右始終持續(xù)地得到關(guān)注的主題:石油。
字云技術(shù)也是分析文本主題隨時(shí)間變遷常被用到的技術(shù)。The Daily Beast網(wǎng)站通過(guò)字云技術(shù)展現(xiàn)了美國(guó)從Woodrow Wilson到Barack Obama共計(jì)21位總統(tǒng)就職演講的字云圖,不必分別閱讀每位總統(tǒng)幾千字的演講全文,一眼就可以看到各自演講的重點(diǎn);如果從時(shí)間角度對(duì)比,還可看到歷屆總統(tǒng)執(zhí)政重點(diǎn)的變遷過(guò)程,這是很重要的競(jìng)爭(zhēng)環(huán)境的情報(bào)。
時(shí)間是競(jìng)爭(zhēng)情報(bào)非常重要的分析對(duì)象,在競(jìng)爭(zhēng)情報(bào)實(shí)踐過(guò)程中所收集的資料基本都是與時(shí)間有關(guān)的。傳統(tǒng)的分析方法很難把時(shí)間與文本分析結(jié)合起來(lái),而借助基于時(shí)間序列的文本可視化技術(shù)可以快速揭示多個(gè)文本內(nèi)容背后的規(guī)則和模式。
3.2 基于主題地圖的文本可視化
基于文本主題的可視化技術(shù)是目前文本可視化應(yīng)用最多的方式之一。它可以讓用戶更直接地從海量文本中找出感興趣的文本集,在查準(zhǔn)率的基礎(chǔ)上顧全查全率,還能得到通常只有通過(guò)內(nèi)容分析才能獲得的潛在關(guān)系。
文本主題的形成是在對(duì)文本進(jìn)行全文抽詞的基礎(chǔ)上應(yīng)用某種TFIDF算法得到的,確定了主題詞后用該詞集通過(guò)某種向量空間模型在向量空間中表達(dá)該文本集,對(duì)于整個(gè)文本集通過(guò)多維尺度MDS、Isometric特征映射(1somap)等方式來(lái)降維處理,再通過(guò)自組織算法(SOM)和可視化映射表達(dá)為可視化的主題地圖。
以來(lái)自美國(guó)太平洋西北國(guó)家實(shí)驗(yàn)室(Pacific North-west National Laboratory)的IN-SPIRE為例,其實(shí)現(xiàn)方式就是掃描源文本的全文或文摘,抽取出域和相應(yīng)的術(shù)語(yǔ),再依據(jù)域到術(shù)語(yǔ)的索引生成“術(shù)語(yǔ)到域”的索引。通過(guò)FAST-INV算法生成把整個(gè)文本作為一個(gè)記錄的“術(shù)語(yǔ)到記錄”的索引。利用建立的索引發(fā)現(xiàn)相關(guān)聯(lián)的術(shù)語(yǔ)集群,形成N維的“主題”和“核心術(shù)語(yǔ)”,把記錄中全部M個(gè)詞分別去與這N維關(guān)聯(lián),形成關(guān)聯(lián)矩陣。對(duì)該關(guān)聯(lián)矩陣進(jìn)行計(jì)算得到每個(gè)記錄(文本)中的知識(shí)標(biāo)簽,這樣該文本就在一個(gè)高維的N維空間中占據(jù)了一個(gè)點(diǎn)。對(duì)文本集中的其他文本也采用同樣的方式進(jìn)行處理,最終使每個(gè)文本都有自己在N維空間中的位置。然后通過(guò)計(jì)算這N維空間中各文本之間的標(biāo)量距離進(jìn)行聚類,再通過(guò)多維尺度降維算法把它投影到二維空間中形成如圖5所示的可視化圖形:
圖5中山峰和山谷表示主題與主題之間的關(guān)系。大量?jī)?nèi)容相近的文本聚成山峰,其高度與該主題下的文本數(shù)相對(duì)應(yīng)。山峰之間的距離代表主題之間的關(guān)系,峰間距離越近則表示相應(yīng)文本的內(nèi)容相似度也高。
在競(jìng)爭(zhēng)情報(bào)實(shí)踐中主題地圖可視化是非常高效的工具,收集到大量資料時(shí)情報(bào)分析人員首先要進(jìn)行篩選找出相關(guān)資料。面對(duì)海量數(shù)據(jù)采用人工方式是不可想象的,而借助主題地圖文本可視化技術(shù)可以迅速了解這些資料的大致類別。如果只對(duì)某個(gè)主題有興趣,就只需研究組成該山峰的文本;如果是為了分析資料集中不同主題間的關(guān)系,也可以很直觀地實(shí)現(xiàn)。
3.3 基于引用關(guān)系的文本可視化
其可視化依據(jù)的是文本之間的引用關(guān)系,雖不是直接針對(duì)文本內(nèi)容,但因其可聚類內(nèi)容相似的文本,也可作為理解文本的重要手段。
通過(guò)對(duì)作者或文獻(xiàn)之間的互引、同引、同被引的可視化分析,應(yīng)用可視化圖譜中的引文網(wǎng)絡(luò)時(shí)序圖、共引網(wǎng)絡(luò)圖譜和時(shí)間線視圖等可揭示某個(gè)研究主題的論文或?qū)@脑搭^、最初著者及其發(fā)展脈絡(luò),可探測(cè)研究前沿隨時(shí)間變化趨勢(shì),可以繪制各領(lǐng)域主流期刊和相關(guān)群體,揭示期刊、作者之間的相互關(guān)系和交叉關(guān)系。
知識(shí)圖譜的可視化方式目前已經(jīng)成為學(xué)科情報(bào)研究的重要手段。而把這種可視化方式應(yīng)用于對(duì)專利文獻(xiàn)間引用關(guān)系的分析,可以揭示競(jìng)爭(zhēng)情報(bào)中非常重要的技術(shù)情報(bào),用直觀的方式展示某個(gè)專利技術(shù)領(lǐng)域中核心的專利和技術(shù)及其重要的發(fā)明人,該領(lǐng)域技術(shù)的發(fā)展歷程等,對(duì)于企業(yè)創(chuàng)新技術(shù)、網(wǎng)羅人才、確定戰(zhàn)略方向等有重要的價(jià)值。
基于引用關(guān)系的文本可視化技術(shù)其可視化的重點(diǎn)是揭示網(wǎng)絡(luò)關(guān)系,因此,網(wǎng)絡(luò)可視化是其中最常用到的可視化技術(shù)。筆者認(rèn)為在可視化研究領(lǐng)域,網(wǎng)絡(luò)可視化是與文本可視化處于平等地位的重要分支,相關(guān)的技術(shù)也非常多而復(fù)雜。鑒于其不是本文研究的重點(diǎn),在此只就其在文本可視化中的應(yīng)用作簡(jiǎn)單闡述。
在分析主題的基礎(chǔ)上對(duì)文本間的引用進(jìn)行網(wǎng)絡(luò)分析,可以通過(guò)計(jì)算關(guān)聯(lián)主題數(shù)量的方法識(shí)別主題網(wǎng)絡(luò)中的核心主題和次要主題,關(guān)聯(lián)主題數(shù)量最多的為核心主題,其他為次要主題。
4、結(jié)論
網(wǎng)絡(luò)時(shí)代帶來(lái)的是競(jìng)爭(zhēng)的全球化和對(duì)競(jìng)爭(zhēng)響應(yīng)的高效化,讓人類擁有從來(lái)也沒有過(guò)的豐富信息資源,同時(shí)也給人們從中汲取有用情報(bào)帶來(lái)了困難。
雖然把可視化技術(shù)應(yīng)用于文本研究的時(shí)間并不長(zhǎng),但目前已取得一些卓有成效的成果,如已有不少國(guó)外圖書館采用可視化的檢索和搜索;主題地圖文本可視化方式已成為多個(gè)可視化專利分析軟件的重要組成部分,成為揭示技術(shù)研究熱點(diǎn)、空白點(diǎn)、技術(shù)變遷的重要分析工具;字云技術(shù)目前更是已經(jīng)成為很多需要快速揭示大量文本內(nèi)容信息的重要手段之一。
受中文自然語(yǔ)言處理技術(shù)的影響,文本可視化技術(shù)全面應(yīng)用于中文競(jìng)爭(zhēng)情報(bào)文本的分析受一定局限,但通過(guò)本文的論述仍可看到文本可視化對(duì)競(jìng)爭(zhēng)情報(bào)的價(jià)值。在快速響應(yīng)的網(wǎng)絡(luò)時(shí)代,傳統(tǒng)人工閱讀的方式已經(jīng)根本無(wú)法適應(yīng),自動(dòng)摘要等文本處理技術(shù)也還存在很多不足。文本可視化在競(jìng)爭(zhēng)情報(bào)中的應(yīng)用可以使知識(shí)發(fā)現(xiàn)的分析結(jié)果為更多、更廣泛的人群所理解,可以局部解決信息過(guò)載問(wèn)題,在競(jìng)爭(zhēng)情報(bào)研究、決策支持等相關(guān)領(lǐng)域發(fā)揮出巨大作用。相信解決中文文本處理只是時(shí)問(wèn)的問(wèn)題。
相關(guān)熱詞搜索:可視化 文本 競(jìng)爭(zhēng)情報(bào) 文本可視化技術(shù)與競(jìng)爭(zhēng)情報(bào) 技術(shù)先進(jìn)的競(jìng)爭(zhēng)情報(bào)分析 競(jìng)爭(zhēng)情報(bào)分析的技術(shù)優(yōu)勢(shì)
熱點(diǎn)文章閱讀