文本可視化在新聞事件演變中的應(yīng)用_什么是信息可視化
發(fā)布時(shí)間:2020-03-10 來源: 短文摘抄 點(diǎn)擊:
[摘要]介紹對(duì)Web空間和現(xiàn)實(shí)社會(huì)空間中的新聞事件演變進(jìn)行可視化是一個(gè)新的研究熱點(diǎn)?偨Y(jié)歸納文本可視化基本方法,并且結(jié)合成功的應(yīng)用,提出應(yīng)用在單個(gè)新聞事件、同時(shí)發(fā)生的新聞事件和先后發(fā)生的新聞事件上的新聞事件演變的可視化形式。指出綜合利用基于詞頻、語義、聚類、時(shí)間序列的可視化技術(shù)是對(duì)新聞事件演變過程進(jìn)行可視化展示的關(guān)鍵。
[關(guān)鍵詞]事件演變 文本可視化 新聞報(bào)道
[分類號(hào)]G353.1
1 引言
近年來,很多社會(huì)事件經(jīng)過網(wǎng)民和新聞媒體等網(wǎng)絡(luò)傳播主體的推動(dòng)后,便以驚人的速度成為了網(wǎng)絡(luò)熱點(diǎn),并影響著現(xiàn)實(shí)事件的發(fā)展,例如“周老虎”、“艷照門”、“躲貓貓”事件等。在互聯(lián)網(wǎng)時(shí)代,這些熱點(diǎn)問題同時(shí)置身于兩個(gè)空間之內(nèi):現(xiàn)實(shí)社會(huì)空間及Web空間。Web空間中的網(wǎng)絡(luò)傳播對(duì)現(xiàn)實(shí)社會(huì)空間的熱點(diǎn)問題形成及發(fā)展有著巨大的推動(dòng),人們不得不去思考和分析這種現(xiàn)象背后隱藏的復(fù)雜因素。在研究過程中往往多以新聞、博客、論壇等文本作為研究對(duì)象。
新聞是一個(gè)特別有趣的分析領(lǐng)域,它對(duì)分析者和新聞讀者都有啟示和意義。新聞報(bào)道是在各個(gè)時(shí)間點(diǎn)上形成的、反映重要社會(huì)事件的文本。隨著互聯(lián)網(wǎng)的飛速發(fā)展,在網(wǎng)絡(luò)上獲取新聞報(bào)道已成為現(xiàn)代人的家常便飯,然而,隨著海量信息的不斷涌現(xiàn),人們利用傳統(tǒng)的檢索和閱讀方式理解大量、復(fù)雜信息的難度日益增大。更重要的是,只閱讀個(gè)別新聞,甚至一組新聞報(bào)道,人們無法看到新聞背景的整體面貌。閱讀報(bào)紙上的一篇文章只能得到少量信息,而人們想知道的是更關(guān)鍵的、相關(guān)的信息:該新聞的相關(guān)事件是怎樣隨時(shí)間而演變的;事件演變過程中受到哪些因素的影響;受眾對(duì)該新聞是如何回應(yīng)的,等等。
然而,面對(duì)海量的新聞報(bào)道,如今還沒有一個(gè)完善的機(jī)制能夠協(xié)助人們?cè)诙虝r(shí)間內(nèi)可視化地回顧某話題中許多事件的演變過程。同時(shí),讀者對(duì)新聞的回應(yīng)也有助于人們了解信息的來龍去脈,而博客、論壇等正是最容易獲得這類信息的平臺(tái),并且正以飛快的速度在網(wǎng)絡(luò)社區(qū)中突起。因此可以通過研究博客等社會(huì)媒體來跟蹤人們對(duì)新聞報(bào)道的注意力,發(fā)現(xiàn)重要的事件,并測(cè)量這些新聞報(bào)道的社會(huì)相關(guān)性。
網(wǎng)絡(luò)信息資源規(guī)模龐大,且新聞報(bào)道、博客文章和論壇帖子等文本都是網(wǎng)絡(luò)上主要的非結(jié)構(gòu)化數(shù)據(jù),分析這些非結(jié)構(gòu)化的文本流是可視化分析研究的長(zhǎng)期挑戰(zhàn)。為了迎接這個(gè)挑戰(zhàn),在文本可視化方法的基礎(chǔ)上,探索事件演變和發(fā)展的可視化方法、技術(shù)和系統(tǒng)越來越受到人們的關(guān)注。
2 文本可視化的基本形式
文本可視化方法在空間上將文本信息轉(zhuǎn)化成另一種視覺表示方式,并揭示出文本之間的主題模式或關(guān)系;谠~匯的文本可視化以詞頻統(tǒng)計(jì)為基礎(chǔ),基于篇章內(nèi)容的文本可視化致力于發(fā)現(xiàn)文章中隱含的特定的語義關(guān)系,基于主題領(lǐng)域的文本可視化主要利用聚類和自然語言處理技術(shù)來獲取主題,基于時(shí)間序列的文本可視化正是利用了時(shí)間這個(gè)非常重要的屬性。
2.1 基于詞頻的文本可視化
文本可視化最簡(jiǎn)單的思路是將文本看作詞的集合,針對(duì)一篇或多篇文本中的詞匯,以詞頻統(tǒng)計(jì)方法為基礎(chǔ),以發(fā)現(xiàn)特定的詞頻模式(如高頻詞、異常詞頻)為目的,通過對(duì)于詞匯的不同呈現(xiàn)來展現(xiàn)文本的特征。
基于詞頻的文本可視化方法主要有以下特點(diǎn):①更多方法是基于命名實(shí)體,而不是基于所有簡(jiǎn)單的詞匯;②反映詞匯在文本中的分布情況和程度;③靈活利用顏色標(biāo)識(shí)來高亮特定的詞頻模式。
典型的應(yīng)用有Document Contrast Diagrams、TagCloud、Contexter、TileBars等,實(shí)際應(yīng)用中一般都不能忽略詞頻這個(gè)重要屬性,但是這類系統(tǒng)更注重于追求可視化的炫麗效果,單獨(dú)采用這種方法的應(yīng)用在事件演變研究中并不常見。
2.2 基于語義的文本可視化
基于語義的文本可視化的對(duì)象不僅僅是文本中的詞匯,還需要大量高度標(biāo)注的文本,并通過計(jì)算、統(tǒng)計(jì)、推斷等技術(shù)手段,發(fā)現(xiàn)文本中隱含的特定的語義關(guān)系,使用戶更有效地閱讀和理解文本內(nèi)容,其主要面向大規(guī)模的文本集。
基于語義的文本可視化方法主要有以下特點(diǎn):①表現(xiàn)文本的主題和核心內(nèi)容;②展示文本內(nèi)容的敘述思路;③反映詞組在文本中的分布關(guān)系;④更適用于演講和辯論類文本的可視化。
典型的應(yīng)用有Document Arc Diagrams、DirectedSentence Diagrams、Word Tree、Transcript Analysis、NLP-Win等,該類系統(tǒng)的表現(xiàn)形式多種多樣、形態(tài)各異,除了運(yùn)用自然語言處理和語義分析的技術(shù)外,還需要大量的標(biāo)注,實(shí)際應(yīng)用的難度和工作量都比較大。
2.3 基于聚類的文本可視化
基于聚類的文本可視化也是針對(duì)大規(guī)模文本集的一種常見模式,其目的是從大規(guī)模文本中發(fā)現(xiàn)特定的主題領(lǐng)域。它不是簡(jiǎn)單地考慮詞頻或語義,而是利用文本中出現(xiàn)的詞語比較文本的相似性,從而產(chǎn)生聚類結(jié)果。
基于聚類的文本可視化方法主要有以下特點(diǎn):①反映主題領(lǐng)域及其主題之間的關(guān)系,并展示主題領(lǐng)域的關(guān)鍵命名實(shí)體或詞組;②采用二維或三維視角,靈活運(yùn)用形狀來表示特定的主題模式;③多應(yīng)用在信息檢索、網(wǎng)頁的鏈接關(guān)系分析、主題探測(cè)、學(xué)科熱點(diǎn)、話題演變、新興趨勢(shì)發(fā)現(xiàn)等領(lǐng)域。
典型的應(yīng)用有Lighthouse、Event Organizer、News-Junkie、Topic Tracking Visualisation Tool、Topic Islands等,該類系統(tǒng)的成功應(yīng)用取決于合適的聚類算法,高維的文本數(shù)據(jù)給聚類算法帶來了不小的挑戰(zhàn)。
2.4 基于時(shí)間序列的文本可視化
為了研究某些領(lǐng)域的發(fā)展趨勢(shì)、演變規(guī)律,基于時(shí)間序列的文本可視化方法利用了時(shí)間這個(gè)最重要的維度來完成特定的分析任務(wù)。以上三種文本可視化方法一般都結(jié)合文本的時(shí)間關(guān)系進(jìn)行可視化,其可視化的主要對(duì)象一般是大規(guī)模文本集。
基于時(shí)間序列的文本可視化方法主要有以下特點(diǎn):①時(shí)間軸是該類系統(tǒng)的最佳特征,它提供了一個(gè)有效的展示形式,用戶可以快速地對(duì)語料庫(kù)中所包含的信息進(jìn)行生動(dòng)地瀏覽;②常結(jié)合基于詞頻、聚類的可視化方法一起使用,著眼于主題如何隨著時(shí)間而變化;③靈活利用流體形狀反映特定的時(shí)間模式。
典型的應(yīng)用有TimeMines、NameVoyager、ThemeRiver、Theme Mountain、History Flow等。選取合適的時(shí)間片段是事件演變研究中的關(guān)鍵環(huán)節(jié)。30新聞事件演變的可視化形式
基于以上4種基本的文本可視化方法的綜合運(yùn)用,已經(jīng)出現(xiàn)了一些面向新聞報(bào)道、博客文章和論壇帖子等大規(guī)模文本數(shù)據(jù),以探索新聞事件演變?yōu)槟繕?biāo)的可視化技術(shù)和系統(tǒng)。
3.1 單個(gè)新聞事件的內(nèi)容演變可視化
某些話題只包含單獨(dú)的新聞事件,事件本身的內(nèi)容演變過程是值得人們關(guān)注的,比如一場(chǎng)交通事故發(fā)生之后的調(diào)查、取證、開庭、審判的發(fā)展過程。分析某 話題下的單一事件,如今典型的系統(tǒng)一般使用聚類方法識(shí)別話題,再結(jié)合基于詞頻和時(shí)間序列的方法,隨著時(shí)間的推移發(fā)現(xiàn)各時(shí)間點(diǎn)上人們對(duì)某事件關(guān)注程度的變化,從而推理出事件內(nèi)容的演變。
Ievent是一個(gè)交互式話題檢測(cè)與跟蹤系統(tǒng)的構(gòu)想,針對(duì)單一事件的內(nèi)容演變進(jìn)行分析。它強(qiáng)調(diào)用戶的交互,將命名實(shí)體、聚類和時(shí)間序列等方法有效地結(jié)合起來,支持用戶識(shí)別新聞事件并且隨時(shí)間推移在新聞流中跟蹤查看事件內(nèi)容的連續(xù)性演變。Ievent從Event Organizer中吸收了時(shí)間軸的思想,繼承了Lighthouse中的聚類可視化的思想,并考慮簇的大小和密度。Ievent主要由3個(gè)視圖構(gòu)成:聚類視圖、文檔視圖和命名實(shí)體視圖,如圖1所示:
在聚類視圖中,一個(gè)大尺寸和高密度的簇表示在短時(shí)間內(nèi)擁有大量的文本,因此,如果代表某個(gè)車禍?zhǔn)录木垲惷芏群苄、尺寸很大,則表示該事件在長(zhǎng)時(shí)間內(nèi)擁有大量的文本。對(duì)其對(duì)應(yīng)文檔視圖進(jìn)行分析,在圖2中我們可以發(fā)現(xiàn),某起車禍?zhǔn)录?月份有了新聞報(bào)道;經(jīng)過大約1個(gè)月后該事件有了調(diào)查結(jié)果,網(wǎng)絡(luò)和社會(huì)上對(duì)該事件進(jìn)行了廣泛的討論;3月份的文本對(duì)該事件的調(diào)查涉及了對(duì)法律訴訟程序的談?wù)摚蛔罱K,4月和5月的文本可能包括了輿論對(duì)案件審理以及審判結(jié)果的討論。然而,Ievent只是一個(gè)初步構(gòu)想,需要人工去分析事件的演變過程。
3.2 并行新聞事件相關(guān)性可視化
某些話題包含多個(gè)同時(shí)進(jìn)行的新聞事件,而且多個(gè)事件之間是相關(guān)的(可以稱為“并行新聞事件”)。比如某次總統(tǒng)競(jìng)選話題,每個(gè)候選人參與競(jìng)選是同時(shí)進(jìn)行的不同事件,它們之間的相互關(guān)系會(huì)影響著競(jìng)選過程的發(fā)展。分析某話題下的相關(guān)性事件,如今典型的系統(tǒng)一般使用聚類方法定位話題,再結(jié)合詞頻識(shí)別出不同的事件,最后利用基于時(shí)間序列的方法,分析各事件在時(shí)間軸上的演變過程的相關(guān)性,從而結(jié)合事件結(jié)果發(fā)現(xiàn)隱藏的模式。
Narratives是由微軟Live Labs開發(fā)的基于社會(huì)流(Social Streams)體系結(jié)構(gòu)的平臺(tái),其目的是幫助用戶了解相關(guān)話題是如何隨時(shí)間變化的。用戶可以查看特定新聞事件的話題關(guān)鍵詞,并通過時(shí)間對(duì)文章進(jìn)行關(guān)聯(lián)。Narratives借鑒TimeMines和In-Spire等系統(tǒng),結(jié)合時(shí)間序列和聚類技術(shù),展示了一種隨著時(shí)間推移查看話題演變的獨(dú)特方式。
在Narratives中,一篇新聞報(bào)道被定義為包含多個(gè)關(guān)鍵詞的單一事件,通過查看對(duì)新聞報(bào)道的每個(gè)回應(yīng),Narratives可以將關(guān)鍵詞的序列可視化為一系列簡(jiǎn)單但相關(guān)的線圖。過去的許多研究在很大程度上強(qiáng)調(diào)一個(gè)單一變量隨時(shí)問而變化,而Narratives特殊的挑戰(zhàn)是能查看多種可能有關(guān)的變量。Narratives希望隨時(shí)間推移能查看話題連續(xù)性的同時(shí),發(fā)現(xiàn)話題之間的相關(guān)性。
Narratives的語料庫(kù)由談?wù)撔侣剤?bào)道的博客文章組成,因此它們反映了關(guān)于某一話題的文章和對(duì)這些文章發(fā)表評(píng)論的博客。如圖3所示:
圖3中的Narratives界面比較了在2008年的3個(gè)月內(nèi)4位美國(guó)總統(tǒng)候選人的命運(yùn)。從圖中可以看出,每條折線圖都基于相同的時(shí)間軸,并分別反映了網(wǎng)絡(luò)上談及4位總統(tǒng)候選人的程度,這不但可以讓人們回顧4位總統(tǒng)候選人在選舉期的3個(gè)月內(nèi)受人們關(guān)注的程度,還進(jìn)一步反映出民意支持率的走勢(shì)。最終,奧巴馬脫穎而出的事實(shí)除了憑借他個(gè)人的才能之外,在一定程度上也受了網(wǎng)絡(luò)和社會(huì)輿論的影響。在下一屆總統(tǒng)選舉過程中,分析者可借助該模式并利用輿論數(shù)據(jù)來預(yù)測(cè)未來的總統(tǒng)。
3.3 串行新聞事件相互關(guān)系演變可視化
一般的話題都包含了多個(gè)新聞事件,而且更多事件的發(fā)生時(shí)間是有先后順序的(可以稱為“串行新聞事件”),本質(zhì)上它們之間是相互影響、推動(dòng)和演變的。比如對(duì)于恐怖襲擊話題,每次恐怖襲擊事件的發(fā)生有著隱藏的關(guān)系,不同恐怖事件之間進(jìn)行著時(shí)間和內(nèi)容上演變。分析某話題下不同事件之間相互關(guān)系的演變,如今典型的系統(tǒng)除了使用聚類、詞頻等方法外,重點(diǎn)結(jié)合時(shí)間序列和語義等方法,發(fā)現(xiàn)不同事件之間隱藏的結(jié)構(gòu),從而分析出事件演變的過程。
自2001年9月11日紐約的恐怖襲擊事件開始,世界各地遭受恐怖襲擊的頻率不斷增漲,并受到了公眾的更多關(guān)注。人們雖然可以很容易地從網(wǎng)絡(luò)上獲取成百上千個(gè)關(guān)于恐怖襲擊事件的新聞報(bào)道,但對(duì)人們來說信息量太大,無法捕獲所需要的信息。TDT等信息檢索技術(shù)能夠通過給定恐怖襲擊這個(gè)話題,幫助人們根據(jù)恐怖襲擊事件來組織新聞報(bào)道。但是,它們沒有能力展示各事件之間復(fù)雜的發(fā)展關(guān)系。
作為情報(bào)人員,甚至普通老百姓,人們感興趣的是:哪些是一次恐怖襲擊中的主要事件?在該話題下它們是如何發(fā)展的?這就需要確定起始事件、結(jié)束事件、種子事件以及這些事件的演變。香港中文大學(xué)的Christopher c,Yang利用時(shí)間關(guān)系、事件相似性、時(shí)間接近和文檔分布接近等來識(shí)別在恐怖襲擊中事件發(fā)展和演變的關(guān)系。在這項(xiàng)工作中,Yang針對(duì)恐怖襲擊事件提出用事件演變圖(Event Evolution Graph)來展示不同事件之間隱藏的結(jié)構(gòu)(見圖4)。
圖4表示了車臣恐怖分子占領(lǐng)別斯蘭學(xué)校的恐怖襲擊的事件演變圖,其中一共有8個(gè)事件和11個(gè)演變關(guān)系。事件2“特別工作隊(duì)攻擊恐怖分析和數(shù)百人質(zhì)死亡”在圖中有最多的4個(gè)出鏈數(shù),因此可以被認(rèn)為是核心事件,并導(dǎo)致了一系列后續(xù)事件序列。事件6“別斯蘭學(xué)校在人質(zhì)被釋放后恢復(fù)了上課”和事件8“俄羅斯在反恐上成功的努力”成為了結(jié)束事件,被認(rèn)為是這一系列恐怖襲擊事件的結(jié)局。
臺(tái)灣學(xué)者提出了一個(gè)新聞話題回顧系統(tǒng),目的是透過事件主軸的摘要機(jī)制,更有效地協(xié)助新聞讀者在短時(shí)間內(nèi),了解事件演變的過程。它采用的機(jī)制是檢測(cè)話題中的事件并建構(gòu)之間的相互關(guān)系,再以此關(guān)系摘要成一篇話題回顧的報(bào)導(dǎo),作為新聞讀者快速了解事件發(fā)展的文本。
此機(jī)制主要包括三部分:事件界定、建構(gòu)話題主軸、主軸式摘要。建構(gòu)出的話題主軸可以提供話題發(fā)展脈絡(luò)的主干,并將相關(guān)性較低的事件排除。通過找出具有代表性的語句,并以話題發(fā)展主軸為模板依據(jù),進(jìn)而構(gòu)成的摘要,除了可以提供足夠的信息了解話題發(fā)展,也可以作為索引,協(xié)助用戶找到更多更詳細(xì)的信息(見圖5)。該系統(tǒng)非常全面地展示了從新聞報(bào)道中檢測(cè)與給定話題相關(guān)的事件,并通過對(duì)文本的分析,建構(gòu)出惠普并購(gòu)康柏話題中的各事件發(fā)展脈絡(luò),并對(duì)每個(gè)事件生成摘要。
然而,上述系統(tǒng)都只考慮了某話題的新聞報(bào)道中所涉及的事件,而沒有深入探索Web空間的網(wǎng)絡(luò)傳播對(duì)現(xiàn)實(shí)社會(huì)空間中事件的推動(dòng)和影響。
4 總結(jié)
隨著新聞讀者日常面對(duì)的新聞報(bào)道信息量不斷增大,分析者有必要探索綜合利用文本可視化方法來回顧某話題中各事件的演變過程,以便讀者了解新聞背景的整體面貌。本文在總結(jié)歸納文本可視化基本方法的基礎(chǔ)上,結(jié)合成功的應(yīng)用,提出了應(yīng)用在新聞事件演變上的可視化形式。面對(duì)不同發(fā)生情況的新聞事件,分析web空間上的新聞報(bào)道等文本數(shù)據(jù),都可以從以上三種不同的新聞事件可視化形式中找到解決方案來可視化現(xiàn)實(shí)社會(huì)空間中的事件演變過程。
相關(guān)熱詞搜索:可視化 演變 文本 文本可視化在新聞事件演變中的應(yīng)用 文本可視化研究 文本可視分析
熱點(diǎn)文章閱讀