MNPOS:軍事網(wǎng)絡輿情分析系統(tǒng)研究|輿情分析系統(tǒng)
發(fā)布時間:2020-03-10 來源: 感恩親情 點擊:
[摘要]軍事網(wǎng)絡輿情作為一種特殊的公開情報吸引了眾多軍事網(wǎng)民。比較國內(nèi)一些典型的網(wǎng)絡輿情系統(tǒng),論述軍事網(wǎng)絡輿情分析系統(tǒng)(MNPOS)的特點、功能及體系架構;研究一個基于,NET Framework平臺和XML交換格式的MNPOS,對軍事網(wǎng)絡輿情的信息采集與抽取、輿情分類與敏點標注、傾向性分析等技術作研究改進,推進MN―POS理論和方法研究的深化。
[關鍵詞]互聯(lián)網(wǎng) 軍事輿情 信息技術 輿情分析
[分類號]G250
1
引言
在軍事情報搜集和處理中,公開情報資料搜集是一個很重要的方面。美國中央情報局80%的情報來源于公開材料,德國新聞情報局每天將搜集和處理后的公開情報資料匯總成《每日新聞簡報》呈送,以色列情報機關公開承認其所獲情報65%來自報刊、廣播、電視和學術研究論文等公開渠道,其他許多國家也設立了專門的公開情報搜集機構。網(wǎng)絡輿情作為一種新形式的公開情報資料,由于其開放性、及時性以及便捷性等特點,越來越受到情報工作者的重視,甚至很多情報工作者紛紛將網(wǎng)絡輿情作為其公開情報資料搜集的第一來源。
軍事網(wǎng)絡輿情主要是指國內(nèi)外互聯(lián)網(wǎng)絡媒體中關于軍事事件的評論和觀點。軍事網(wǎng)絡輿情作為一種特殊的網(wǎng)絡輿情,除了網(wǎng)絡輿情所擁有的特點外,還有其自身特殊性。評論和觀點往往都集中在一些敏感和焦點問題上,例如中國軍費問題、中國軍事威脅等。在進行輿情分析與監(jiān)控時,軍事網(wǎng)絡輿情將會是最為重要的部分。同時,由于國外一些媒體往往對其民眾進行錯誤引導,軍事網(wǎng)絡輿情中的許多看法可能偏向負面,在進行分析和監(jiān)控時就必須注重對這一部分輿情的判別,這對于做好軍事情報分析工作至關重要。本文以開發(fā)軍事網(wǎng)絡輿情分析系統(tǒng)MNPOS(NetworkPublic Opinion System in Militaty)為背景,在分析國內(nèi)主要輿情系統(tǒng)基礎上,研究輿情采集、輿情處理和輿情服務的系統(tǒng)架構及其關鍵技術的實現(xiàn)方法。
2 網(wǎng)絡輿情系統(tǒng)比較及軍事網(wǎng)絡輿情系統(tǒng)特點
2.1
國內(nèi)輿情系統(tǒng)的主要功能與應用
網(wǎng)絡輿情系統(tǒng)中的關鍵技術,一方面與信息分析的具體功能和解決方案密切相關;另一方面又隨網(wǎng)絡輿情內(nèi)容、范圍和傳播應用不斷推陳出新。這些技術包括各種信息采集、特征抽取、數(shù)據(jù)挖掘、文本分析、自動分類、自動聚類、自動摘要、智能檢索等技術。當前的新形態(tài)信息交互模式有網(wǎng)絡新聞、論壇、博客、維基等,其信息采集技術從早期的靜態(tài)頁面信息獲取發(fā)展到動態(tài)數(shù)據(jù)庫數(shù)據(jù)獲取,從傳統(tǒng)的網(wǎng)絡蜘蛛發(fā)展到可自主調(diào)整的高效搜索,從字符串匹配的檢索實現(xiàn)發(fā)展到知識環(huán)境下的智能檢索;相應的信息運用多元統(tǒng)計等方法進行分析,其基礎聚類分析方法有概念語義空間與相似度、基于支持向量機與無監(jiān)督聚類相結合的網(wǎng)頁分類等;技術上采用決策樹、神經(jīng)網(wǎng)絡、樸素貝葉斯、組合分類器、遺傳算法、粗糙集、最近鄰技術等多種分類方法。
國內(nèi)一些較典型的網(wǎng)絡輿情系統(tǒng)概述分析如下:
?谷尼國際Eoonie互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)。該系統(tǒng)通過對互聯(lián)網(wǎng)海量信息自動獲取、自動聚類、主題檢測和專題聚焦,實現(xiàn)用戶的網(wǎng)絡輿情監(jiān)測和新聞專題追蹤,形成簡報、分析報告等結果。運用內(nèi)容抽取識別、相似性去重等技術獲取網(wǎng)絡中的熱點和敏感話題,根據(jù)統(tǒng)計等策略分析不同時間內(nèi)的主題關注程度和預測發(fā)展趨勢。該系統(tǒng)在國內(nèi)的用戶有待進一步增加。
?中科點擊軍犬網(wǎng)絡輿情監(jiān)控系統(tǒng)。它使用強大的采集軟件對數(shù)千網(wǎng)站進行監(jiān)控,自動獲取輿情信息的熱度,并生成報表;同時可獲取熱點主題的瀏覽量、回復數(shù),并跟蹤發(fā)帖人,對輿情信息進行管理、標注和分類,并根據(jù)重要性對輿情信息進一步篩選和過濾。其采集性能比較好,但分析處理功能有待進一步提高。
?北京拓爾思TRS網(wǎng)絡輿情監(jiān)控系統(tǒng)。該系統(tǒng)采用多種技術,實現(xiàn)對輿情信息的精準和全面采集,同時綜合運用大規(guī)模文本智能挖掘技術,實現(xiàn)對海量輿情信息的準確、高效分析和管理。其輿情功能從用戶角度來看較為全面。
?北大方正智思網(wǎng)絡輿情監(jiān)控分析系統(tǒng)。該系統(tǒng)襤合互聯(lián)網(wǎng)搜索及信息智能處理等技術,通過對網(wǎng)絡信息自動抓取、自動分類聚類、主題檢測、專題聚焦等方法,實現(xiàn)網(wǎng)絡輿情監(jiān)控和新聞專題追蹤等功能。其開發(fā)比較早,應用也較多,但相關的更新功能相對較少。
2.2
軍事網(wǎng)絡輿情系統(tǒng)的特點和相關研究
相比較當前市場上通用的網(wǎng)絡輿情分析系統(tǒng),軍事網(wǎng)絡輿情系統(tǒng)MNPOS對軍事類突發(fā)事件的網(wǎng)絡輿情相關研究更為關注,快速的專題聚焦、敏點發(fā)現(xiàn)追蹤和傾向分析規(guī)則都具有新的特點。而目前的網(wǎng)絡輿情分析還沒有一個完整的解決模型,研究主要是獲取網(wǎng)絡輿情話題的一般信息和主題信息,注重獲取輿情話題的主題內(nèi)容,例如作者、發(fā)表時間、話題類型等,缺乏對話題評論焦點、情感傾向、事件關系等深層輿情信息的發(fā)現(xiàn),忽視從事軍事的群體對話題的情感、事件關系及變化趨勢的分析。
傳統(tǒng)研究方法沒有對大規(guī)模軍事網(wǎng)絡數(shù)據(jù)進行分析,使得網(wǎng)絡輿情系統(tǒng)無法適應網(wǎng)絡環(huán)境下海量軍事數(shù)據(jù)的特點;只利用簡單的統(tǒng)計方法給出話題變化趨勢直接作為預警信息,缺少基于知識的推理。存軍事領域,網(wǎng)絡輿情系統(tǒng)不提供完整的軍事類突發(fā)事件網(wǎng)絡輿情傳播理論,大都以管理者需求為牽引而采用具體針對性的技術進行解決,造成技術整體上不具有連續(xù)性和系統(tǒng)性,很難形成一套完整的軍事網(wǎng)絡輿情解決方案,勢必影響到軍事網(wǎng)絡輿情應對策略和方法的實用性、先進性和可靠性。因此,無論是社會科學領域還是工程技術領域,對軍事網(wǎng)絡輿情的基礎理論研究都處于起步階段,大多數(shù)研究成果屬于方法上的研究范疇,軍事網(wǎng)絡輿情的監(jiān)測與預警工作不夠全面和系統(tǒng)化,軍事網(wǎng)絡輿情的應對策略還不夠科學和規(guī)范。
3
軍事網(wǎng)絡輿情系統(tǒng)MNPoS功能及其體系架構
在MNPOS軍事網(wǎng)絡輿情分析系統(tǒng)中,運用軍事知識語料對網(wǎng)絡信息采集與提取,提高網(wǎng)絡輿情監(jiān)測分析的智能化程度,解決網(wǎng)頁的靈活性和復雜性、內(nèi)容的動態(tài)性和多態(tài)性、信息的龐雜性和不完整性所給系統(tǒng)提取軍事網(wǎng)絡輿情信息帶來的困難;運用軍事類話題發(fā)現(xiàn)與跟蹤技術識別出給定時間段內(nèi)上網(wǎng)媒體的熱門話題,分析熱門軍事話題在不同時段內(nèi)媒體所關注的程度,對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預測事件發(fā)展的趨勢,對涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報告,為網(wǎng)絡輿論引導提供支持;運用軍事知識傾向性分析技術挖掘出網(wǎng)絡文本內(nèi)容蘊含的深層軍事觀點、態(tài)度等信息,對媒體言論傾向進行符合軍情的分析;運用多文檔自動文摘技術對軍事網(wǎng)絡論壇等信息進行提煉概要。
本系統(tǒng)采用模塊化的軟件設計方法,共分為網(wǎng)絡輿情采集、網(wǎng)絡輿情處理和網(wǎng)絡輿情服務三個功能層面,系統(tǒng)體系架構見圖1。
3.1
網(wǎng)絡輿情采集
網(wǎng)絡輿情采集主要是利用網(wǎng)絡蜘蛛的原理進行網(wǎng) 頁采集,按照預先設定好的軍事主題和網(wǎng)址塒網(wǎng)絡上的軍事數(shù)據(jù)進行定點、定主題的抓取,例如新聞、論壇、博客等主題網(wǎng)站。最后將抓取的結果以XML文件格式保存在本地。網(wǎng)絡輿情采集是輿情分析處理和提供輿情服務的基礎,只有高質(zhì)量和高效率的網(wǎng)絡輿情采集才能保證數(shù)據(jù)的可靠性和及時性。
3.2 網(wǎng)絡輿情處理
網(wǎng)絡輿情處理是整個系統(tǒng)的核心,它對所有采集到的數(shù)據(jù)進行相關處理,主要由網(wǎng)頁智能抽取、關鍵詞自動提取、主題自動分類、輿情傾向性分析和敏點輿情標注等組成。首先,基于軍事主題和分類知識將采集模塊抓取到的XML文件中的主題、內(nèi)容、作者、發(fā)布時間、來源等存入網(wǎng)絡輿情信息庫,通過關鍵詞自動提取和主題自動分類將每條記錄的關鍵詞和主題分析出來,進行傾向性分析和敏點輿情標注,最后生成自動文摘。另外,在主題分類過程中,若文檔不屬于任何預設軍事主題則進行主題自動聚類處理,自動分析出新的軍事主題。
3.3 網(wǎng)絡輿情服務
分析結果進入網(wǎng)絡輿情服務,并最終展示,包括輿情報告的生成、熱點和敏點軍事主題的列表顯示、統(tǒng)計圖表等,供輿情部門的工作人員和決策部門的領導隨時進行軍事輿情的監(jiān)控。
MNPOS系統(tǒng)在設計和實現(xiàn)過程中遵循軟件工程原則,使用,NET Framework作為基礎類庫,在此基礎上綜合運用VB和c#以及ASP技術進行開發(fā),保證技術上的先進。另外,為保證系統(tǒng)的可靠性和可擴展性,采取數(shù)據(jù)層、事務層和表現(xiàn)層分離的模塊化設計原則,分為輿情采集、輿情處理和輿情服務子系統(tǒng)分別進行實現(xiàn)。
4 MNPOS系統(tǒng)中軍事輿情分析關鍵技術研究
MNPOS軍事網(wǎng)絡輿情分析是系統(tǒng)核心模塊,其質(zhì)量和效率直接影響到整個系統(tǒng)。
4.1
MNPOS軍事主題信息采集
MNPOS主題信息采集由下載器從互聯(lián)網(wǎng)上讀取軍事網(wǎng)頁并保存到本地,分析器運用軍事語料和相關正則表達式提取其中所有超鏈壓人一個URL隊列,之后從該隊列中順序讀取URL并下載,該過程循環(huán)進行直至將指定網(wǎng)站的網(wǎng)頁抓取完畢。程序關鍵在于多線程管理和鏈接地址的分析,目前C#提供了良好的多線程管理機制和對正則表達式的支持,為開發(fā)多線程程序提供了極大的方便。
MNPOS軍事網(wǎng)頁信息抽取,首先選擇相應的抽取規(guī)則進行智能抽取,將相應的內(nèi)容抽取出后進行數(shù)據(jù)清洗,去除重復記錄和信息,合并相同標題不同內(nèi)容的信息,最后將清洗后的數(shù)據(jù)存人軍事輿情數(shù)據(jù)庫。該處理過程包含在包裝器中,對于用戶來說是透明的。另外,在規(guī)則生成部分采用軍事專家模式,即對網(wǎng)頁的結構進行分析,然后手工進行規(guī)則的提取,因此,所生成的規(guī)則比較精確,對于相應軍事網(wǎng)頁的抽取質(zhì)量和精確度較高。
4.2 MNPOS軍事輿情分類和傾向分析
將處理后的信息分入預先設置好的軍事分類,對于網(wǎng)絡輿情服務具有至關重要的作用。分類模塊主要采用KNN和SVM分類法,其中的特征選擇結合了信息增益、互信息和a2統(tǒng)計等方法和軍事主題分類概念庫,采用目前分類質(zhì)量較高的一些開源程序進行改造,將其集成到系統(tǒng)中保證分類質(zhì)量。
MNPOS軍事輿情文本分類分為兩個過程:①訓練過程,決定分類機的質(zhì)量。首先由軍事專家完成訓練集的挑選,然后在預處理過程中進行參數(shù)選擇、訓練后進行參數(shù)調(diào)整等。②根據(jù)訓練過程所生成的分類機進行分類,其中最重要的是預處理和分類進程,預處理是對待分類文本進行數(shù)據(jù)清洗和特征表示的過程,本系統(tǒng)的訓練和分類進程采用SVMCLS 2.0開源程序。
輿情傾向性分析是根據(jù)輿情內(nèi)容判斷該輿情是正面還是負面的一個過程。常用的方法有基于機器學習和基于語義理解等,目前MNPOS系統(tǒng)采用基于機器學習的方法。系統(tǒng)中設計有六個類別(美國對臺軍售、中國反導試驗、中美軍事關系、中印關系、中國航天發(fā)展、中國武器裝備),以其中的“中美軍事關系”舉例,可以將該類的文本根據(jù)其內(nèi)容分為正面和負面兩類,然后再訓練出兩個分類器:“中美軍事關系正面”和“中美軍事關系負面”,六個類別即可生成12個分類器,然后對這些待分類文本進行分類,并且在數(shù)據(jù)庫相應字段內(nèi)用1和0來分別標注正面和負面信息。這種方法實現(xiàn)起來較為簡單,而且準確率較高,不足是在構建訓練集時需要大量軍事專家進行手工編制,實現(xiàn)中充分利用軍事信息管理學科的優(yōu)勢和成果來構建傾向性分類訓練集。
4.3 MNPOS軍事敏點輿情標注
軍事敏點輿情標注主要是根據(jù)軍用敏點詞表對輿情信息進行敏點識別。MNPOS系統(tǒng)主要采用了輿情關鍵詞和敏點詞表進行匹配的方法來實現(xiàn)。首先選擇敏點詞表,然后將數(shù)據(jù)庫中未進行敏點標注的輿情信息逐條讀取出來,之后用輿情的關鍵詞和敏點詞表中的詞匯進行逐條匹配判斷,若匹配則將該信息標注為軍事敏點信息,若沒有一個關鍵詞和敏點詞匯匹配,則繼續(xù)讀取下一條輿情信息,直到所有未標注的輿情信息都標注完成。該模塊中的關鍵就是軍用敏點詞表的構造,MNPOS系統(tǒng)中針對“中國軍費”、“中國威脅論”以及“西藏維穩(wěn)”等問題構造了專題敏點詞表,這樣就提高了軍事敏點輿情標注的準確性;并且將該軍用敏點詞表和軍事輿情動態(tài)分類庫進行交叉關聯(lián),能夠?qū)娛旅酎c輿情進行細分。
軍事網(wǎng)絡輿情是一種特殊的公開情報,人民網(wǎng)“強國論壇”、新華網(wǎng)“發(fā)展論壇”和中國軍網(wǎng)“國防論壇”等以其獨特的議程設置吸引了眾多軍事網(wǎng)民的眼球。針對軍事網(wǎng)絡輿情的特點,本文構建并實現(xiàn)了一個基于,NET Framework平臺、以XML為數(shù)據(jù)交換格式的MNPOS軍事網(wǎng)絡輿情分析系統(tǒng),對軍事網(wǎng)絡輿情的信息采集與抽取、輿情分類與敏點標注、傾向性分析等技術作了研究改進。下一步的工作包括:在話題檢測與追蹤中研究基于自然語言理解的增量文本聚類,在突發(fā)事件網(wǎng)絡輿情狀態(tài)分析中研究文本情感傾向性識別的軍用評測語料庫及輿情態(tài)勢知識庫,在軍事輿情預警中研究輿情分析的多級指標體系及預警等級評估方法。軍事網(wǎng)絡輿情分析監(jiān)控系統(tǒng)的開發(fā),必須遵循軟件工程的設計規(guī)范,實現(xiàn)過程中涉及的工作量大、技術復雜、適用性要求高,只有通過不斷的研發(fā)實踐,才能推進軍事網(wǎng)絡輿情分析系統(tǒng)理論和方法研究的深化。
相關熱詞搜索:輿情 分析 研究 MNPOS:軍事網(wǎng)絡輿情分析系統(tǒng)研究 網(wǎng)絡輿情分析系統(tǒng)研究 軍事網(wǎng)絡輿情分析系統(tǒng)研究
熱點文章閱讀