政府治理大數(shù)據(jù)共享和集成與融合
發(fā)布時(shí)間:2020-07-13 來(lái)源: 演講稿 點(diǎn)擊:
政府治理大數(shù)據(jù)的共享和集成與融合
摘要:為支持政府治理方法科學(xué)化、過(guò)程智能化、結(jié)果精細(xì)化,政府治理大數(shù)據(jù)共享、集成與融合不能局限于提供數(shù)據(jù)訪問(wèn)接口,而是要從語(yǔ)義層面發(fā)現(xiàn)實(shí)體、找出關(guān)聯(lián)關(guān)系以及演化過(guò)程。然而,政府治理大數(shù)據(jù)的多源、異構(gòu)、動(dòng)態(tài)、海量、孤島化特性卻使之面臨嚴(yán)峻挑戰(zhàn)。系統(tǒng)性回顧了大規(guī)模分布式異構(gòu)數(shù)據(jù)共享、集成、融合的基礎(chǔ)理論和方法,并指出了構(gòu)建面向政府治理大數(shù)據(jù)的高可信共享、高精準(zhǔn)集成、高效率融合技術(shù)的迫切性。
關(guān)鍵詞:政府治理 ; 數(shù)據(jù)共享 ; 數(shù)據(jù)融合 ; 數(shù)據(jù)集成
1 引言
政府治理是指政府行政系統(tǒng)與其他相關(guān)主體一道對(duì)社會(huì)公共事務(wù)的治理。政府治理是在堅(jiān)持中國(guó)特色社會(huì)主義制度的前提下,破除不適應(yīng)生產(chǎn)力發(fā)展的制度,釋放生產(chǎn)力和社會(huì)活力。傳統(tǒng)的政府管理模式強(qiáng)調(diào)政府基于科層制體系而形成的垂直型結(jié)構(gòu),政府作為單部門封閉式行政;而政府治理模式則強(qiáng)調(diào)政府與其他主體(包括企事業(yè)單位、行業(yè)協(xié)會(huì)等)之間緊密配合,協(xié)作式行政。參與治理的主體之間保持信息溝通順暢,能真實(shí)、客觀、全面地描述事態(tài)現(xiàn)狀,預(yù)測(cè)發(fā)展方向,從而使治理方法科學(xué)化、過(guò)程智能化、結(jié)果精細(xì)化。政府治理大數(shù)據(jù)泛指支持政府治理行為的所有數(shù)據(jù),而非單指政務(wù)大數(shù)據(jù)。政府治理大數(shù)據(jù)改變?nèi)藗兊乃季S方式和決策過(guò)程,為政府治理能力和治理體系現(xiàn)代化提供強(qiáng)大驅(qū)動(dòng)力。在過(guò)去相當(dāng)長(zhǎng)的時(shí)間內(nèi),政府部門在進(jìn)行決策時(shí)能夠
采用的數(shù)據(jù)相對(duì)有限,而且準(zhǔn)確度較低,因而在決策過(guò)程中會(huì)融入較多主觀因素,不夠精準(zhǔn)。進(jìn)入 21 世紀(jì)以來(lái),數(shù)據(jù)采集方式更加豐富,采集范圍更加廣闊,經(jīng)由各個(gè)渠道匯集而成的海量行為信息深刻而生動(dòng)地刻畫(huà)了治理對(duì)象。例如,城市的手機(jī)信令數(shù)據(jù)能夠反映出城市的整體交通狀況,特別是擁堵路段的位置,交通管理部門可據(jù)此優(yōu)化交通路線;再例如,我國(guó)不同地區(qū)的能源消耗總量以及工業(yè)用電、居民用電的占比能夠反映出該地區(qū)的工業(yè)和經(jīng)濟(jì)發(fā)展活力,為宏觀調(diào)控提供依據(jù)。這些行為數(shù)據(jù)規(guī)模宏大、到達(dá)速度快、類型多樣,基于這些數(shù)據(jù)的分析結(jié)果有助于決策者從多層面、多角度洞察和理解社會(huì)現(xiàn)象,以進(jìn)行科學(xué)決策。政府治理大數(shù)據(jù)的出現(xiàn)改變了以往認(rèn)為人類行為難以預(yù)測(cè)的舊觀點(diǎn),可以通過(guò)電子蹤跡監(jiān)測(cè)和預(yù)測(cè)人類的行為習(xí)慣,使政府能夠提前進(jìn)行科學(xué)決策,并為用戶提供便利、快捷、無(wú)縫集成的一體化服務(wù)。有效匯集不同來(lái)源的數(shù)據(jù)能幫助政府從不同維度審視治理對(duì)象。例如,當(dāng)人們衡量一個(gè)商圈的活力時(shí),需要了解該商圈的人流量(電信信令數(shù)據(jù))、消費(fèi)水平(支付寶、微信支付、銀聯(lián)刷卡數(shù)據(jù))、口碑(互聯(lián)網(wǎng)、社交媒體)等,而這些數(shù)據(jù)由不同機(jī)構(gòu)采集和維護(hù),并不隸屬于單一機(jī)構(gòu)。因此,政府治理過(guò)程是一個(gè)多治理主體共同參與的協(xié)作式治理。盡管眾多企事業(yè)單位已經(jīng)在過(guò)去幾十年的信息化建設(shè)中累積了大量數(shù)據(jù),但是由于行政管理和信息技術(shù)等方面的障礙,存在嚴(yán)重的信息孤島現(xiàn)象,大量數(shù)據(jù)無(wú)法被共享使用以支持政府治理。2016 年 5 月,李克強(qiáng)總理在全國(guó)推進(jìn)簡(jiǎn)政放權(quán)放管結(jié)合優(yōu)化服務(wù)改革電視電話會(huì)議上指出:“目前我國(guó)信息數(shù)據(jù)資源 80%以上掌握在各級(jí)政府部門手里,‘深藏閨中’是極大浪費(fèi)。”《廣東省“數(shù)字政府”建設(shè)總體規(guī)劃(2018—2020 年)》指出:省直單位現(xiàn)有政務(wù)信息系統(tǒng) 1 068 個(gè),其中省級(jí)垂直系統(tǒng) 475個(gè),建設(shè) 20 個(gè)以上系統(tǒng)的單位 21 個(gè),其中存在 37 個(gè)網(wǎng)絡(luò)孤島、44 個(gè)機(jī)房孤島和超過(guò) 4 000 類數(shù)據(jù)孤島。數(shù)據(jù)孤島意味著數(shù)據(jù)沒(méi)有被充分共享、難以有效集成、有待
深度融合。表 1 總結(jié)了數(shù)據(jù)孤島現(xiàn)象帶來(lái)的 3 個(gè)問(wèn)題以及擬達(dá)成的目標(biāo)。
。1)政府治理大數(shù)據(jù)沒(méi)有充分共享數(shù)據(jù)共享機(jī)制描述數(shù)據(jù)發(fā)布者、使用者(有些場(chǎng)景下還包括監(jiān)管者)之間的交互規(guī)則,使信息能夠順利流轉(zhuǎn)。常用的文件共享機(jī)制支持在不同實(shí)體之間以文件形式共享信息,但是忽視了各參與實(shí)體的其他訴求。例如,數(shù)據(jù)發(fā)布者想對(duì)數(shù)據(jù)進(jìn)行確權(quán),充分了解數(shù)據(jù)的傳播過(guò)程,并可在必要時(shí)限制數(shù)據(jù)傳播;數(shù)據(jù)使用者想確保所獲取的數(shù)據(jù)是真實(shí)、完整、一致的;而數(shù)據(jù)監(jiān)管者則期望能確保相關(guān)數(shù)據(jù)共享規(guī)章制度被嚴(yán)格貫徹、認(rèn)真遵循。當(dāng)前,由于數(shù)據(jù)未充分共享而造成的治理疏漏并不少見(jiàn)。例如,由于各省間的婚姻系統(tǒng)不聯(lián)網(wǎng),2019 年 1 月江蘇男子張某被曝分別與 3 位女士登記結(jié)婚。(2)政府治理大數(shù)據(jù)難以有效集成數(shù)據(jù)規(guī)模、來(lái)源和質(zhì)量均深刻影響著數(shù)據(jù)集成的難度。政府治理場(chǎng)景面向的治理對(duì)象涉及面廣,與之相關(guān)的數(shù)據(jù)規(guī)模宏大,來(lái)源廣泛。為了使場(chǎng)景描述更加準(zhǔn)確,部分政府治理場(chǎng)景使用互聯(lián)網(wǎng)上的開(kāi)放數(shù)據(jù),這使得信息來(lái)源更加復(fù)雜,數(shù)據(jù)源的挑選愈加困難;由于數(shù)據(jù)平臺(tái)構(gòu)建的歷史因素、數(shù)據(jù)采集設(shè)備的精度因素、人工錄入因素、不同業(yè)務(wù)領(lǐng)域?qū)е聰?shù)據(jù)標(biāo)準(zhǔn)存在差異,政府治理大數(shù)據(jù)的質(zhì)量不高、規(guī)格不一,有效集成的難度很大。(3)政府治理大數(shù)據(jù)有待深度融合將低價(jià)值密度的大數(shù)據(jù)通過(guò)數(shù)據(jù)融合轉(zhuǎn)換為高價(jià)值密度的知識(shí)是政府治理大數(shù)據(jù)管理的宗旨,而精準(zhǔn)發(fā)現(xiàn)大數(shù)據(jù)中的實(shí)體及其語(yǔ)義關(guān)聯(lián)是提升大數(shù)據(jù)價(jià)值特征的核心。例如,中國(guó)人民銀行為國(guó)內(nèi)的法人單位建立資信評(píng)級(jí)時(shí)需要融合多源信息,并挖掘深層的語(yǔ)義關(guān)系。行為數(shù)據(jù)會(huì)隨著時(shí)間增加而動(dòng)態(tài)變化,在某些場(chǎng)景下甚至?xí)眲∽兓。例如,信用評(píng)級(jí)機(jī)構(gòu)基于日常行為數(shù)據(jù)對(duì)法人(或自然人)評(píng)級(jí);但在極端情況下(例如經(jīng)營(yíng)不善等),法人(或自然人)可能會(huì)表現(xiàn)出與其當(dāng)前等級(jí)明顯不符的行為。例如,2019 年出現(xiàn)多起網(wǎng)貸平臺(tái)跑路事件,如果能預(yù)先將數(shù)據(jù)進(jìn)行深度融合,將能有效對(duì)網(wǎng)貸平臺(tái)的信用度進(jìn)行預(yù)警,從而防范
社會(huì)風(fēng)險(xiǎn)。近幾年來(lái),我國(guó)在加快數(shù)據(jù)開(kāi)放與共享、推進(jìn)政府治理創(chuàng)新方面已經(jīng)前進(jìn)了一大步。一方面,各地方政府積極推出便民平臺(tái),改進(jìn)工作流程,讓數(shù)據(jù)多跑路,讓群眾少跑腿,使得用戶只需要訪問(wèn)一個(gè)平臺(tái)就能夠辦理多項(xiàng)業(yè)務(wù),例如廣東省的“粵省事”、上海市的“一網(wǎng)通辦”、浙江省的“浙里辦”等 App 平臺(tái)。另一方面,各地積極基于大數(shù)據(jù)技術(shù)構(gòu)建智慧城市,提升城市治理的智能化水平。例如,浙江省“城市大腦”已經(jīng)形成了一批成熟應(yīng)用,整合多源信息,在交通等領(lǐng)域進(jìn)行了創(chuàng)新。可以看出,盡管政府治理大數(shù)據(jù)的共享與融合能夠顯著提升政府的治理水平,并且已經(jīng)在部分地區(qū)和領(lǐng)域中有了良好的示范效應(yīng),但是還需要努力克服存在的挑戰(zhàn),以深化政府治理體系和治理能力現(xiàn)代化建設(shè)。部分學(xué)者也已經(jīng)意識(shí)到大數(shù)據(jù)融合方面的問(wèn)題與挑戰(zhàn),本文聚焦政府治理領(lǐng)域的數(shù)據(jù)共享與融合。
2 數(shù)據(jù)共享 數(shù)據(jù)共享旨在破除不同治理實(shí)體之間的數(shù)字藩籬,搭建數(shù)據(jù)流通渠道,在共享過(guò)程中需要綜合考慮架構(gòu)、隱私、合規(guī)和溯源等因素。首先,不同數(shù)據(jù)共享架構(gòu)能夠支持的功能差異顯著,使用方需要結(jié)合應(yīng)用場(chǎng)景理性選取;其次,隱私保護(hù)是數(shù)據(jù)共享的基礎(chǔ)訴求之一,為了鼓勵(lì)用戶共享數(shù)據(jù)以推進(jìn)協(xié)作,必須要確保用戶隱私安全;再次,整個(gè)共享過(guò)程的合規(guī)化操作可避免其他主觀因素的影響,增強(qiáng)整體可信度;最后,溯源機(jī)制在多方參與的機(jī)制中起到事中監(jiān)管、事后追責(zé)的作用,維護(hù)整個(gè)過(guò)程正常推進(jìn)。
2.1 數(shù)據(jù)共享架構(gòu)
按照數(shù)據(jù)發(fā)布者和使用者構(gòu)成的網(wǎng)絡(luò)拓?fù)洳煌,可將?shù)據(jù)共享架構(gòu)劃分成 3 種。第一種也是最常用的數(shù)據(jù)共享架構(gòu)是集中式架構(gòu)。參與政府治理的所有主體之間預(yù)先約定
好一個(gè)公共服務(wù)器,繼而主動(dòng)將數(shù)據(jù)傳送到該服務(wù)器。服務(wù)器設(shè)定數(shù)據(jù)訪問(wèn)規(guī)則,允許參與治理的主體以不同權(quán)限訪問(wèn)服務(wù)器上的數(shù)據(jù),例如 Web 服務(wù)器或者文件傳輸協(xié)議(file transfer protocol,F(xiàn)TP)服務(wù)器。盡管這種架構(gòu)的結(jié)構(gòu)簡(jiǎn)單,但是仍然存在明顯的不足之處。首先,在網(wǎng)絡(luò)部署上可能引發(fā)爭(zhēng)議。若治理實(shí)體之間存在上下級(jí)關(guān)系,則上級(jí)實(shí)體可以通過(guò)行政手段決定網(wǎng)絡(luò)部署方式;而若治理實(shí)體之間是平級(jí)關(guān)系(無(wú)隸屬關(guān)系),則服務(wù)器由哪個(gè)單位進(jìn)行管理會(huì)成為焦點(diǎn)議題。其次,這種集中式架構(gòu)還存在單點(diǎn)故障和性能缺陷,一旦由于黑客攻擊、軟硬件故障等原因?qū)е路⻊?wù)器宕機(jī),則所有數(shù)據(jù)訪問(wèn)服務(wù)均會(huì)被迫中止,且整個(gè)系統(tǒng)的數(shù)據(jù)訪問(wèn)能力受限于服務(wù)器的性能,當(dāng)大量數(shù)據(jù)訪問(wèn)請(qǐng)求同時(shí)到達(dá)時(shí),系統(tǒng)性能會(huì)急劇降低。最后,這種架構(gòu)無(wú)法確保數(shù)據(jù)的可信性,具有管理員權(quán)限的治理實(shí)體成為強(qiáng)勢(shì)的一方,具備數(shù)據(jù)修改的能力,而不具備管理員權(quán)限的治理實(shí)體則處于相對(duì)弱勢(shì)的一方(通常不將管理員權(quán)限賦予所有實(shí)體,以保障系統(tǒng)安全性)。第二種架構(gòu)基于對(duì)等網(wǎng)絡(luò),將數(shù)據(jù)分散部署在整個(gè)網(wǎng)絡(luò)中,該網(wǎng)絡(luò)中沒(méi)有特定的服務(wù)器節(jié)點(diǎn),所有節(jié)點(diǎn)既可提供數(shù)據(jù),又可消費(fèi)數(shù)據(jù)。由于(多副本)數(shù)據(jù)分散在不同網(wǎng)絡(luò)節(jié)點(diǎn),而非單一節(jié)點(diǎn)上,因此可避免單點(diǎn)故障缺陷,且可擴(kuò)展性更強(qiáng)。對(duì)等網(wǎng)絡(luò)的共享方式包括非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)和結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò) 2 種。非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)較為簡(jiǎn)單,對(duì)節(jié)點(diǎn)之間的拓?fù)浣Y(jié)構(gòu)并無(wú)特別約定,只需要記錄鄰接節(jié)點(diǎn)信息,但是無(wú)法保證以低時(shí)間復(fù)雜度來(lái)處理數(shù)據(jù)查詢請(qǐng)求,典型系統(tǒng)如 Gnutella。結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)則對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行精心部署,使用分布式哈希表(distributed Hash table, DHT)來(lái)提升數(shù)據(jù)訪問(wèn)效率,典型的結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)包括 Chord。與第一種架構(gòu)相比,這種架構(gòu)的最大優(yōu)勢(shì)是能夠克服單點(diǎn)故障,然而這種架構(gòu)仍然無(wú)法確保數(shù)據(jù)的可信性,不排除數(shù)據(jù)在共享過(guò)程中被篡改的可能。第三種架構(gòu)通過(guò)區(qū)塊鏈來(lái)實(shí)現(xiàn)數(shù)據(jù)共享。區(qū)塊鏈技術(shù)利用共識(shí)機(jī)制在不可信網(wǎng)絡(luò)中為各參與方
構(gòu)建信任關(guān)系,確保數(shù)據(jù)不易被篡改。區(qū)塊鏈系統(tǒng)通常可以被劃分為公有鏈和許可鏈。公有鏈面向全網(wǎng)公開(kāi),無(wú)用戶授權(quán)機(jī)制,如比特幣、以太坊(Ethereum)
等;許可鏈有用戶授權(quán)機(jī)制,僅允許授權(quán)的用戶和節(jié)點(diǎn)加入,如超級(jí)賬本(Fabric)
等。由于現(xiàn)有區(qū)塊鏈系統(tǒng)的數(shù)據(jù)管理能力較弱,一些學(xué)者嘗試將區(qū)塊鏈與數(shù)據(jù)庫(kù)技術(shù)結(jié)合,提升數(shù)據(jù)管理性能,華東師范大學(xué)提出的師大鏈數(shù)據(jù)庫(kù)(semantics empowered blockchain database,SEBDB)就是構(gòu)建于許可鏈之上的區(qū)塊鏈數(shù)據(jù)庫(kù)系統(tǒng)。典型的共識(shí)協(xié)議包括工作量證明(proof of work, POW)、權(quán)益證明(proof of stake,POS)和實(shí)用拜占庭協(xié)議(practical Byzantine fault tolerance,PBFT)及其變種。工作量證明機(jī)制根據(jù)各節(jié)點(diǎn)的計(jì)算資源進(jìn)行投票,并要求可信節(jié)點(diǎn)控制的計(jì)算資源多于一半;權(quán)益證明機(jī)制根據(jù)各用戶擁有的權(quán)益比重進(jìn)行投票;實(shí)用拜占庭協(xié)議能夠在 n≥3f+1(n 是網(wǎng)絡(luò)節(jié)點(diǎn)數(shù),f 是不可信節(jié)點(diǎn)數(shù))的條件下解決拜占庭將軍問(wèn)題。表 2 列舉了 3 種數(shù)據(jù)共享架構(gòu)及其特點(diǎn)。
2.2 數(shù)據(jù)隱私保護(hù)
政府治理大數(shù)據(jù)共享必須重視隱私保護(hù)。我國(guó)早已立法明確政府信息公開(kāi)中“保護(hù)個(gè)人隱私”的原則!吨腥A人民共和國(guó)政府信息公開(kāi)條例》中第十四條規(guī)定:行政機(jī)關(guān)不得公開(kāi)涉及國(guó)家秘密、商業(yè)秘密、個(gè)人隱私的政府信息。但是,經(jīng)權(quán)利人同意公開(kāi)或者行政機(jī)關(guān)認(rèn)為不公開(kāi)可能對(duì)公共利益造成重大影響的涉及商業(yè)秘密、個(gè)人隱私的政府信息,可以予以公開(kāi)。由于用戶隱私泄露而造成負(fù)面社會(huì)效應(yīng)的案例屢見(jiàn)不鮮。在大數(shù)據(jù)背景下,當(dāng)來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)經(jīng)過(guò)整合之后,數(shù)據(jù)相互關(guān)聯(lián)就會(huì)揭示更多知識(shí)。例如,2006 年 8 月,美國(guó)在線(American Online,AOL)公布了大量舊的搜索查詢數(shù)據(jù)(數(shù)據(jù)已經(jīng)經(jīng)過(guò)脫敏處理,包括用戶名稱和地址等個(gè)人信息),《紐約時(shí)報(bào)》在幾天內(nèi)綜合分析“60 歲的單身男性”“有益健康的茶葉”“利爾本的園丁”等搜
索記錄之后,發(fā)現(xiàn)第 4417749 號(hào)代表是佐治亞州利爾本的一位 62 歲的寡婦塞爾瑪·阿諾德。典型的隱私保護(hù)技術(shù)包括匿名化、加密處理和多方隱私技術(shù)等。匿名化技術(shù)將數(shù)據(jù)的關(guān)鍵部分模糊化處理,從而保護(hù)用戶隱私,例如,k-匿名技術(shù)就是將當(dāng)前數(shù)據(jù)項(xiàng)與其他至少 k-1 個(gè)數(shù)據(jù)項(xiàng)進(jìn)行模糊化處理,使得這 k 個(gè)數(shù)據(jù)項(xiàng)之間不可區(qū)分。加密處理將明文轉(zhuǎn)化為密文,以保護(hù)私密信息。多方隱私保護(hù)下的數(shù)據(jù)集成技術(shù)(或稱多方 PPRL)還處于起步階段,主要支持精確匹配,例如將各個(gè)數(shù)據(jù)源的記錄編碼,然后傳入另一方進(jìn)行對(duì)比。參考文獻(xiàn)提出了一種基于安全多方計(jì)算的精確匹配方法,參考文獻(xiàn)提出一種基于 k-匿名的支持多約束條件的隱私保護(hù)方法。除了上述以軟件和算法的方式來(lái)保護(hù)用戶隱私之外,還可以通過(guò)構(gòu)建細(xì)粒度的訪問(wèn)控制以及基于可信執(zhí)行環(huán)境(trusted execution environment,TEE)來(lái)保障數(shù)據(jù)隱私。鑒于政府治理大數(shù)據(jù)分別屬于不同治理實(shí)體,且不同治理實(shí)體的訪問(wèn)權(quán)限不同,可以借鑒面向?qū)ο笤O(shè)計(jì)(objectoriented design,OOD)的思想,設(shè)定多層級(jí)訪問(wèn)權(quán)限,包括開(kāi)放可訪問(wèn)、敏感不可訪問(wèn)、部分用戶可訪問(wèn)等。通過(guò)分級(jí)權(quán)限來(lái)限制對(duì)數(shù)據(jù)的訪問(wèn)。TEE 可保護(hù)敏感而又無(wú)法脫敏的數(shù)據(jù)。軟件防護(hù)擴(kuò)展(software guard extensions,SGX)是典型的 TEE,它將敏感數(shù)據(jù)和操作轉(zhuǎn)移至 Enclave(即 SGX 的可信內(nèi)存)中進(jìn)行處理,而數(shù)據(jù)和操作在其他地方以密文的方式存在。借助于可信硬件的數(shù)據(jù)保護(hù)方式比同態(tài)加密、零知識(shí)證明等傳統(tǒng)密碼學(xué)方法更靈活和高效。
2.3 共享流程合規(guī)化
數(shù)據(jù)共享流程由多個(gè)治理主體共同參與,并遵循特定管理制度。程序透明增強(qiáng)了共享流程的公平性。為確保整個(gè)流程自動(dòng)化執(zhí)行,避免人為干預(yù),可將相關(guān)規(guī)章制度預(yù)先
編制成可自動(dòng)運(yùn)行的程序。當(dāng)外部條件滿足時(shí),該程序自動(dòng)被觸發(fā)運(yùn)行,整體上流程不需要人工介入。智能合約就是一段自動(dòng)運(yùn)行、可驗(yàn)證的程序,以數(shù)字化方式讓各參與方履行特定承諾。在基于智能合約的數(shù)據(jù)共享流程自動(dòng)化機(jī)制中,行政部門將數(shù)據(jù)共享的管理制度轉(zhuǎn)化為智能合約代碼,采用形式化方式嚴(yán)格定義各參與主體的義務(wù),明確每條義務(wù)的實(shí)施主體、前提條件、具體內(nèi)容以及完成期限;同時(shí),定義一項(xiàng)義務(wù)的各種狀態(tài),如激活、就緒、滿足、過(guò)期以及違約等,并分析各狀態(tài)之間的轉(zhuǎn)換條件。當(dāng)某個(gè)參與主體未及時(shí)履行預(yù)先約定的義務(wù)時(shí),管理部門作為實(shí)施主體對(duì)該參與主體進(jìn)行處罰。管理制度的運(yùn)行實(shí)例可等價(jià)為一個(gè)有窮狀態(tài)機(jī),其運(yùn)行機(jī)制由組成此制度的所有義務(wù)共同決定。管理部門可使用圖形化建模工具來(lái)制定制度,將規(guī)章制度自動(dòng)生成對(duì)應(yīng)的狀態(tài)機(jī),并展現(xiàn)制度的運(yùn)行過(guò)程,自動(dòng)分析并顯示異常的運(yùn)行狀態(tài),為管理部門對(duì)制度改進(jìn)提供決策支持。
2.4 數(shù)據(jù)溯源
施政效果評(píng)估和責(zé)任追究是政府治理的重要內(nèi)容;谡卫硇袨榇髷(shù)據(jù)開(kāi)展溯源分析,能夠評(píng)估施政效果和責(zé)任認(rèn)定。數(shù)據(jù)溯源是指數(shù)據(jù)產(chǎn)生并隨時(shí)間推移而演變的過(guò)程。2017 年,國(guó)家食品藥品監(jiān)督管理總局發(fā)布了《關(guān)于食品生產(chǎn)經(jīng)營(yíng)企業(yè)建立食品安全追溯體系的若干規(guī)定》,推動(dòng)食品生產(chǎn)經(jīng)營(yíng)企業(yè)建立食品安全追溯體系;陉P(guān)系數(shù)據(jù)庫(kù)的溯源系統(tǒng)有 DBNotes、Perm、Trio 等。DBNotes 系統(tǒng)基于關(guān)系數(shù)據(jù)庫(kù)對(duì)溯源標(biāo)注信息進(jìn)行管理。Perm 系統(tǒng)利用查詢重寫(xiě)規(guī)則改寫(xiě) SQL 查詢,以追蹤數(shù)據(jù)溯源信息。Trio 系統(tǒng)是一個(gè)不確定數(shù)據(jù)庫(kù)上的數(shù)據(jù)世系管理系統(tǒng),將數(shù)據(jù)不確定性和溯源信息緊密整合在一起。區(qū)塊鏈系統(tǒng)將所有操作按照時(shí)間順序進(jìn)行存儲(chǔ),難以篡
改,且新數(shù)據(jù)只能以添加的方式加入?yún)^(qū)塊鏈系統(tǒng)之中,能有效提供數(shù)據(jù)溯源功能。參考文獻(xiàn)[17]研究了如何基于區(qū)塊鏈設(shè)計(jì)食品安全溯源體系。
3 數(shù)據(jù)集成 政府治理大數(shù)據(jù)來(lái)源豐富、領(lǐng)域多樣、發(fā)展歷程迥異,因而不同來(lái)源的數(shù)據(jù)格式不一,且存在質(zhì)量問(wèn)題。數(shù)據(jù)集成旨在以統(tǒng)一模式訪問(wèn)不同數(shù)據(jù),包括數(shù)據(jù)源選擇和數(shù)據(jù)模式匹配 2 個(gè)方面。
3.1 數(shù)據(jù)源選擇
精準(zhǔn)選擇數(shù)據(jù)源是實(shí)現(xiàn)數(shù)據(jù)集成結(jié)果準(zhǔn)確的前提。當(dāng)數(shù)據(jù)源數(shù)量較少時(shí),使用人工方式就能夠較為有效地篩選出合適的數(shù)據(jù)源。而當(dāng)數(shù)據(jù)來(lái)源較多時(shí),難以借助人工方式有效地挑選出合適的數(shù)據(jù)源。特別地,如果嘗試結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行治理,則數(shù)據(jù)源的數(shù)量就急劇增多,需要設(shè)計(jì)算法來(lái)高效、精準(zhǔn)地選擇數(shù)據(jù)源,以解決應(yīng)用需求。由于政府治理大數(shù)據(jù)包含大量行為數(shù)據(jù),在選擇數(shù)據(jù)源時(shí)不僅需要考慮更加廣泛的質(zhì)量維度,以解決面向?qū)嶓w和行為數(shù)據(jù)的集成,還要根據(jù)目標(biāo)模式自動(dòng)構(gòu)建候選模式集成處理路徑。數(shù)據(jù)源選擇方法可分為按需驅(qū)動(dòng)的選擇方法和基于多質(zhì)量維度的選擇方法2 種。(1)按需驅(qū)動(dòng)的數(shù)據(jù)源選擇方法這種方法在目標(biāo)模式和數(shù)據(jù)源模式之間匹配關(guān)聯(lián)信息,反向構(gòu)建出包含多個(gè)模式集成處理路徑的候選集合,并最終找出滿足集成需求的數(shù)據(jù)源模式結(jié)構(gòu)與集成方式。目標(biāo)模式通常是一個(gè)以實(shí)體為核心的關(guān)聯(lián)數(shù)據(jù)整體,其結(jié)構(gòu)可以映射到共享數(shù)據(jù)的模式關(guān)聯(lián)圖上。首先,基于共享數(shù)據(jù)生成模式關(guān)聯(lián)
圖,采用基于圖結(jié)構(gòu)的查詢方法尋找與目標(biāo)模式匹配的候選模式集合。然后,基于候選數(shù)據(jù)模式間的匹配關(guān)系,利用數(shù)據(jù)集成算子創(chuàng)建由集成操作構(gòu)成的有向無(wú)環(huán)圖集合。最后,進(jìn)一步提出約簡(jiǎn)策略,以減少不必要的操作,降低數(shù)據(jù)集成的運(yùn)算代價(jià)。(2)基于多質(zhì)量維度的數(shù)據(jù)源選擇方法這種方法通過(guò)面向數(shù)據(jù)質(zhì)量的數(shù)據(jù)源選擇策略管理參與數(shù)據(jù)集成的數(shù)據(jù)源,從而保證集成結(jié)果在完整性、精確性和時(shí)效性等維度上的質(zhì)量需求。首先,從數(shù)據(jù)源的多質(zhì)量維度(同一性、完備性、精確性、時(shí)效性以及綜合質(zhì)量)構(gòu)建數(shù)據(jù)源質(zhì)量評(píng)價(jià)模型,用于獨(dú)立評(píng)價(jià)數(shù)據(jù)源的各維度質(zhì)量;其次,定義多維度的綜合評(píng)價(jià)模型和數(shù)據(jù)源集成代價(jià)評(píng)估模型;最后,構(gòu)建利益代價(jià)模型,并以此選擇集成數(shù)據(jù)源。參考文獻(xiàn)[18]意識(shí)到數(shù)據(jù)準(zhǔn)確性的重要性,提出了面向數(shù)據(jù)融合的數(shù)據(jù)源選擇方法,從數(shù)據(jù)質(zhì)量和集成代價(jià)的平衡上選擇數(shù)據(jù)源。參考文獻(xiàn)進(jìn)一步提出了融合覆蓋率、新鮮性和準(zhǔn)確性質(zhì)量等多個(gè)維度的數(shù)據(jù)源選擇方法,并在此基礎(chǔ)上實(shí)現(xiàn)了數(shù)據(jù)源選擇系統(tǒng) SourceSight。
3.2 數(shù)據(jù)模式匹配
數(shù)據(jù)模式匹配內(nèi)容豐富,包括基于實(shí)例的匹配、基于模式信息的匹配、混合匹配等。近期有部分工作采用機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)來(lái)提高模式匹配的效果,包括采用概率推理方法從所有候選模式中找出最優(yōu)結(jié)果。數(shù)據(jù)模式匹配的一個(gè)難點(diǎn)在于部分?jǐn)?shù)據(jù)源質(zhì)量低下、缺乏表頭信息、規(guī)模龐大且增長(zhǎng)迅速,無(wú)法精確匹配模式。在此情況下,可以采用概率模式匹配方法篩選出潛在的匹配模式,并評(píng)估其可信度。當(dāng)數(shù)據(jù)源的數(shù)目較多時(shí),簡(jiǎn)單羅列出所有潛在的模式匹配組合及其發(fā)生概率的計(jì)算開(kāi)銷太大,需要靈活運(yùn)用剪枝策略縮小搜索空間,構(gòu)造出一個(gè)包含少量模式匹配組合的候選集合,并
最終生成概率模式。參考文獻(xiàn)提出了一種基于概率模型的全局?jǐn)?shù)據(jù)模式生成方法。另外,為解決開(kāi)放數(shù)據(jù)規(guī)模龐大的問(wèn)題,還可以劃分原始數(shù)據(jù),將任務(wù)分?jǐn)偟讲煌?jié)點(diǎn)之中,采用分布式架構(gòu)提升效率。例如,以 Spark 為代表的通用并行處理框架具備良好的水平擴(kuò)展能力,可支持海量開(kāi)放數(shù)據(jù)的模式匹配。
4 數(shù)據(jù)融合 數(shù)據(jù)融合指將來(lái)自政府治理中不同數(shù)據(jù)源的同一實(shí)體(如企業(yè)、個(gè)人)的不同表象融合成單一表象,消除潛在的數(shù)據(jù)沖突。數(shù)據(jù)融合包括實(shí)體匹配、實(shí)體鏈接與關(guān)聯(lián)、動(dòng)態(tài)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián) 3 個(gè)方面。首先,通過(guò)實(shí)體匹配在多個(gè)數(shù)據(jù)源中找出指向同一實(shí)體的記錄;其次,需要明確實(shí)體之間的鏈接與關(guān)聯(lián)關(guān)系;最后,實(shí)體本身以及實(shí)體之間的關(guān)聯(lián)關(guān)系都會(huì)隨著時(shí)間推移而不斷演化。
4.1 實(shí)體匹配
實(shí)體匹配也被稱為記錄連接、重復(fù)數(shù)據(jù)刪除,旨在找出存在于多個(gè)數(shù)據(jù)源中但指向同一實(shí)體的記錄集合。例如,同一企業(yè)對(duì)應(yīng)的地址信息在政府的不同數(shù)據(jù)源中,往往存在多種表述方式。通過(guò)實(shí)體匹配不僅可以減少數(shù)據(jù)的冗余,而且拼接碎片化數(shù)據(jù)可以提高數(shù)據(jù)質(zhì)量。當(dāng)前基于實(shí)體局部結(jié)構(gòu)特性(實(shí)體屬性或?qū)嶓w間關(guān)系)進(jìn)行匹配的方法具有復(fù)雜性較高的缺點(diǎn)。此外,還可以充分利用數(shù)據(jù)間豐富的關(guān)聯(lián)關(guān)系從以下 3 個(gè)方面提升實(shí)體匹配的準(zhǔn)確性和效率。其一,利用圖能夠有效表示數(shù)據(jù)對(duì)象間拓?fù)潢P(guān)系的能力,可以將共享集成的結(jié)構(gòu)化數(shù)據(jù)集構(gòu)建為數(shù)據(jù)對(duì)象關(guān)系圖,再基于圖迭代進(jìn)行
實(shí)體匹配;對(duì)象之間的相似度可以綜合屬性相似度、結(jié)構(gòu)相似度、語(yǔ)義路徑相似度來(lái)計(jì)算;針對(duì)復(fù)雜數(shù)據(jù)記錄匹配,可以依據(jù)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系構(gòu)建有向依賴圖,按依賴關(guān)系確定匹配順序,減少匹配次數(shù)。其二,可以綜合采用哈希方法和位計(jì)算提高匹配準(zhǔn)確性和效率。針對(duì)快速到來(lái)的時(shí)序數(shù)據(jù),采用哈希方法對(duì)數(shù)據(jù)記錄進(jìn)行快速分塊,不僅具有高效率和高準(zhǔn)確性,且不需要進(jìn)行全局?jǐn)?shù)據(jù)排序?蓛(yōu)先選擇識(shí)別度高的屬性進(jìn)行哈希處理,提高分塊中候選匹配對(duì)的數(shù)量,對(duì)于塊可匹配估計(jì)方法,可以結(jié)合哈希計(jì)算和位計(jì)算提高塊中可匹配候選對(duì)的準(zhǔn)確性和效率。優(yōu)先選擇塊匹配冗余度高的分塊進(jìn)行實(shí)體匹配,從而在最短時(shí)間內(nèi)獲得更多的匹配對(duì)。其三,可以通過(guò)分布式架構(gòu)提高實(shí)體匹配的效率。在利用分布式并行處理平臺(tái)的同時(shí),盡量減少通信代價(jià),可以采用多屬性哈希實(shí)現(xiàn)更精準(zhǔn)的分塊;均衡分布節(jié)點(diǎn)上的處理任務(wù),降低總匹配時(shí)間,可以通過(guò)構(gòu)建分層的分塊模型和優(yōu)化組合來(lái)均衡不同處理節(jié)點(diǎn)上的匹配任務(wù)。
4.2 實(shí)體鏈接與關(guān)聯(lián)
政府治理中的同一實(shí)體通常并不僅僅在一個(gè)系統(tǒng)中出現(xiàn),而是存在于多個(gè)系統(tǒng)中,且互相鏈接與關(guān)聯(lián)。例如,同一企業(yè)法人的信息既有來(lái)自工商管理部門系統(tǒng)的基本信息,又有蘊(yùn)含于開(kāi)放的互聯(lián)網(wǎng)中的大量交互行為信息。為了更全面地刻畫(huà)企業(yè)的誠(chéng)信特征,需要將互聯(lián)網(wǎng)中的多個(gè)記錄與工商管理部門知識(shí)庫(kù)中的該實(shí)體鏈接起來(lái)。實(shí)體鏈接技術(shù)通過(guò)基于屬性的模型和基于關(guān)系的模型在不同系統(tǒng)中找出針對(duì)同一實(shí)體的描述記錄,從而形成更加全面的實(shí)體信息,其中,涉及實(shí)體鏈接、消除實(shí)體歧義和復(fù)雜數(shù)據(jù)之間實(shí)體關(guān)聯(lián)。實(shí)體鏈接與關(guān)聯(lián)通過(guò)建立知識(shí)庫(kù)中的知識(shí)條目與待消歧實(shí)體的對(duì)應(yīng)關(guān)系實(shí)現(xiàn)消歧,它包含 2 個(gè)步驟:候選集生成、候選實(shí)體消歧。候選集生成的方法主要有基于信息檢索的方法、基于查詢表述上下文的方法等。參考文獻(xiàn)提出了一種減
少候選集規(guī)模的方法。候選實(shí)體消岐方法大致有 2 類:基于相似度計(jì)算的實(shí)體鏈接方法、基于有監(jiān)督學(xué)習(xí)的實(shí)體鏈接方法。其中,基于有監(jiān)督學(xué)習(xí)的實(shí)體鏈接方法在性能上有進(jìn)一步改進(jìn)。由于實(shí)體語(yǔ)義模糊和異構(gòu)網(wǎng)絡(luò)知識(shí)有限,Shen W 等人考慮了實(shí)體的流行度,提出了基于概率鏈接模型的知識(shí)流行度算法,將鏈接模型以高可靠性映射到上下文信息,迭代豐富網(wǎng)絡(luò)實(shí)體,從而提高鏈接性能。為了提升實(shí)體鏈接和關(guān)聯(lián)的效率,可以從以下 3 個(gè)方面進(jìn)行改進(jìn)。其一,考慮政府領(lǐng)域、跨系統(tǒng)語(yǔ)料變化和社交媒體短文本等特點(diǎn),基于用戶行為特征進(jìn)行實(shí)體關(guān)聯(lián),即將用戶行為特征抽象為時(shí)間、地點(diǎn)和主題三維模型,通過(guò)學(xué)習(xí)訓(xùn)練用戶行為數(shù)據(jù)的多維度特征,聚類用戶的三維行為特征,完善用戶的行為模式;再構(gòu)建基于用戶行為聚類特征的相似度度量模型,改善基于用戶行為特征的用戶匹配準(zhǔn)確性。其二,為克服復(fù)雜文本、噪聲數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn),可以通過(guò)深度學(xué)習(xí)方法研究跨系統(tǒng)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間實(shí)體關(guān)聯(lián)技術(shù),提高實(shí)體關(guān)聯(lián)模型的魯棒性和擴(kuò)展性。其三,利用政府治理領(lǐng)域知識(shí)和機(jī)器學(xué)習(xí)方法、結(jié)構(gòu)化數(shù)據(jù)相似性判別技術(shù),聚類同一實(shí)體的所有記錄,保證高內(nèi)聚、低歧義。在跨系統(tǒng)實(shí)體鏈接和關(guān)聯(lián)過(guò)程中存在數(shù)據(jù)沖突,可基于各系統(tǒng)的數(shù)據(jù)源質(zhì)量解決沖突問(wèn)題。
4.3 動(dòng)態(tài)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)
在政府治理場(chǎng)景中,實(shí)體會(huì)隨著時(shí)間推移而變化,需要準(zhǔn)確關(guān)聯(lián)用戶行為,以捕獲序列事件的演化規(guī)律。例如,一個(gè)法人(用戶)的信用會(huì)隨著時(shí)間的推移而發(fā)生改變,盡快檢測(cè)到語(yǔ)義變化有助于及時(shí)制定應(yīng)對(duì)措施。實(shí)體的屬性值會(huì)隨時(shí)間變化,同一實(shí)體對(duì)應(yīng)的多條記錄會(huì)出現(xiàn)不一致的情況,為了發(fā)掘動(dòng)態(tài)數(shù)據(jù)中的語(yǔ)義關(guān)聯(lián),需要細(xì)粒度地分析變化。文本詞語(yǔ)會(huì)隨著時(shí)間發(fā)生語(yǔ)義變化,參考文獻(xiàn)提出了動(dòng)態(tài)統(tǒng)計(jì)模型以
學(xué)習(xí)時(shí)間感知的詞語(yǔ)表示,獲取動(dòng)態(tài)數(shù)據(jù)中語(yǔ)義關(guān)聯(lián)。尤其是隨著移動(dòng)社交網(wǎng)絡(luò)的發(fā)展,同一實(shí)體在空間和時(shí)間上會(huì)有多樣記錄,參考文獻(xiàn)提出了基于 K-L 散度的關(guān)聯(lián)模型鏈接兩類數(shù)據(jù)源中的時(shí)空記錄,并通過(guò)時(shí)間和空間過(guò)濾機(jī)制降低匹配的搜索空間。針對(duì)高動(dòng)態(tài)性及實(shí)效敏感的數(shù)據(jù)源,參考文獻(xiàn)提出了擴(kuò)散隨機(jī)梯度下降算法,對(duì)不同樣本分配實(shí)效感知權(quán)重,增強(qiáng)模型對(duì)動(dòng)態(tài)數(shù)據(jù)的處理能力。在非結(jié)構(gòu)化數(shù)據(jù)中,傳統(tǒng)詞嵌入方法無(wú)法表征語(yǔ)料信息的變化歷史,參考文獻(xiàn)提出了時(shí)態(tài)詞向量法,可以有效分析實(shí)體的演化過(guò)程。為提升動(dòng)態(tài)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)效率,可以從以下 3 個(gè)方面進(jìn)行改進(jìn)。首先,可以面向演化數(shù)據(jù)對(duì)實(shí)體進(jìn)行關(guān)聯(lián),為精準(zhǔn)關(guān)聯(lián)具有演化特性的同一實(shí)體,可定義精準(zhǔn)的時(shí)間模型和相應(yīng)的相似度計(jì)算算法,并通過(guò)基于深度學(xué)習(xí)的動(dòng)態(tài)分布表示法刻畫(huà)語(yǔ)義遷移和涌現(xiàn),提高關(guān)聯(lián)演化實(shí)體的準(zhǔn)確性。其次,針對(duì)實(shí)體關(guān)聯(lián)關(guān)系的實(shí)時(shí)演化技術(shù),為結(jié)合行為數(shù)據(jù)準(zhǔn)確關(guān)聯(lián)用戶或事件的演化規(guī)律,克服由于實(shí)體名稱改變或隱匿造成的實(shí)體重復(fù)副本,可定義結(jié)合實(shí)體語(yǔ)義相關(guān)性、實(shí)體關(guān)聯(lián)性和實(shí)體的時(shí)序特征的事件演化模型,為每個(gè)實(shí)體構(gòu)建時(shí)間活動(dòng)路徑,通過(guò)路徑相似度判別潛在相同實(shí)體。最后,為解決現(xiàn)有實(shí)體關(guān)聯(lián)預(yù)測(cè)技術(shù)大多針對(duì)靜態(tài)數(shù)據(jù)的問(wèn)題,可以考慮增量式的動(dòng)態(tài)語(yǔ)義關(guān)聯(lián)維護(hù)技術(shù),通過(guò)結(jié)合已有匹配結(jié)果實(shí)現(xiàn)快速計(jì)算,從而捕獲用戶的演化特性。
5 案例分析 本文成稿之時(shí),正逢新型冠狀病毒引發(fā)的肺炎疫情在我國(guó)肆虐,疫情兇猛。截至 2020年 3 月 1 日 24 時(shí),據(jù) 31 個(gè)。ㄗ灾螀^(qū)、直轄市)和新疆生產(chǎn)建設(shè)兵團(tuán)報(bào)告,累積報(bào)告確診病例 80 026 例,確診病例遠(yuǎn)超 17 年前的非典疫情。全國(guó)上下眾志成城、萬(wàn)眾一心,以極大的努力和決心投入抗擊疫情的工作之中。作為數(shù)據(jù)科學(xué)研究人員,
筆者也在深入反思這次抗擊疫情過(guò)程中暴露出來(lái)的問(wèn)題是否能夠以更高效的方式解決。以下是政府治理大數(shù)據(jù)的共享、集成與融合方面面臨的一些實(shí)際挑戰(zhàn)。(1)信息孤島現(xiàn)象依然存在科學(xué)應(yīng)對(duì)疫情的前提是能夠準(zhǔn)確了解與疫情相關(guān)的關(guān)鍵性數(shù)據(jù)。但是在對(duì)抗疫情的過(guò)程中,一些關(guān)鍵性的數(shù)字掌握得不夠及時(shí)、準(zhǔn)確,例如當(dāng)?shù)蒯t(yī)療物資的儲(chǔ)備和消耗情況、區(qū)域內(nèi)的醫(yī)療物資的生產(chǎn)能力和調(diào)撥能力等。相關(guān)信息的互聯(lián)互通有助于統(tǒng)一決策、統(tǒng)一規(guī)劃,以充分利用有限的資源抗擊疫情。(2)確保共享數(shù)據(jù)的真實(shí)性疫情暴發(fā)之后,網(wǎng)上謠言滿天飛,并且通過(guò)社交工具迅速傳播。造謠一張嘴,辟謠跑斷腿。數(shù)據(jù)的真實(shí)性非常重要。如何通過(guò)技術(shù)手段識(shí)別信息的真?zhèn),如何及時(shí)發(fā)現(xiàn)并切斷虛假的甚至是惡意的信息傳播,如何分析謠言傳播的路徑等,都非常值得進(jìn)一步探討。(3)確保共享數(shù)據(jù)可追溯,提升可信性由于疫情暴發(fā)具有突然性,這使得醫(yī)療物資(例如口罩)成為緊俏物資,不少?gòu)S商紛紛加大生產(chǎn)力度,支援抗疫一線。但是在這種緊急情況下,仍然有不法商家生產(chǎn)假冒偽劣產(chǎn)品,借以牟利,造成了惡劣的社會(huì)影響。在此,如果能夠構(gòu)建基于區(qū)塊鏈技術(shù)的物資數(shù)據(jù)可溯源平臺(tái),則能夠排除偽劣產(chǎn)品,保障物資安全。另外,在本次疫情中,世界各地的愛(ài)心人士捐款捐物,非常踴躍。捐贈(zèng)系統(tǒng)中數(shù)據(jù)的透明性和可信性能夠極大地影響捐贈(zèng)熱忱。(4)綜合多個(gè)數(shù)據(jù)來(lái)源的數(shù)據(jù)集成將不同來(lái)源的數(shù)據(jù)集成起來(lái)能夠增加對(duì)整體事件的透視性。在抗擊疫情過(guò)程中,數(shù)據(jù)來(lái)源眾多,及時(shí)集成相關(guān)數(shù)據(jù)才可客觀評(píng)判事態(tài)發(fā)展。在 2020 年 1 月 29 日中央指導(dǎo)組派出督查組趕赴黃岡市進(jìn)行督查核查時(shí),黃岡市衛(wèi)生健康委員會(huì)主任對(duì)黃岡市定點(diǎn)醫(yī)院收治能力、核酸檢測(cè)能力的明確數(shù)據(jù)等均不了解。推而廣之,在政府治理過(guò)程中實(shí)時(shí)匯聚多源數(shù)據(jù),可以輔助領(lǐng)導(dǎo)層快速應(yīng)對(duì)突發(fā)事件。(5)實(shí)體關(guān)聯(lián)與融合提升服務(wù)民眾疫情暴發(fā)以來(lái),各地政府和機(jī)構(gòu)通過(guò)不同渠道發(fā)布疫情通報(bào),不僅有病例數(shù)據(jù)、密切接觸者尋找通知,也有關(guān)于公共交通車次
的調(diào)整信息。這些信息來(lái)源雜、數(shù)量大、增長(zhǎng)快。如果能夠從實(shí)體層級(jí)匯聚多源信息,并且找出不同實(shí)體之間的關(guān)聯(lián)關(guān)系,則能夠更加清晰地表明疫情發(fā)展情況。(6)動(dòng)態(tài)數(shù)據(jù)的實(shí)時(shí)演化疫情的發(fā)展隨時(shí)間變化而不斷演變,從疫情暴發(fā)以來(lái),騰訊、新浪等門戶網(wǎng)站每日實(shí)時(shí)發(fā)布疫情地圖,顯示不同地域確診案例、疑似案例、重癥案例等關(guān)鍵信息的變化軌跡。分析動(dòng)態(tài)數(shù)據(jù)的實(shí)時(shí)演化過(guò)程能夠讓人們更加清晰地了解疫情發(fā)展的整個(gè)過(guò)程以及各項(xiàng)措施所取得的成效,從而不斷調(diào)整應(yīng)對(duì)方案。
6 結(jié)束語(yǔ) 綜上所述,政府治理大數(shù)據(jù)的共享、集成與融合需要從理論、機(jī)制、實(shí)踐等方面進(jìn)行深入的研究,F(xiàn)有的方法都存在一些不足。為了構(gòu)建面向政府治理大數(shù)據(jù)的高可信共享模型、高精準(zhǔn)集成機(jī)制、高效率融合機(jī)理,還需要從以下 3 個(gè)方面進(jìn)行努力。首先,研究政府治理大數(shù)據(jù)高可靠共享技術(shù),包括可確保所共享數(shù)據(jù)可信、可驗(yàn)證的數(shù)據(jù)證明機(jī)制,可復(fù)現(xiàn)數(shù)據(jù)演化過(guò)程的數(shù)據(jù)溯源技術(shù),可確保數(shù)據(jù)管理制度自動(dòng)實(shí)施的流程合約化機(jī)制等。其次,研究政府治理大數(shù)據(jù)高精度集成技術(shù),包括在數(shù)據(jù)抽取過(guò)程中的持續(xù)閉環(huán)迭代能力、在數(shù)據(jù)源選擇過(guò)程中基于目標(biāo)約束的自動(dòng)優(yōu)選能力、在模式匹配過(guò)程中的劣質(zhì)數(shù)據(jù)容忍能力等。最后,研究政府治理大數(shù)據(jù)高效率融合技術(shù),包括在實(shí)體識(shí)別階段采用分布式計(jì)算機(jī)系統(tǒng)提升可擴(kuò)展性、在跨系統(tǒng)實(shí)體鏈接與關(guān)聯(lián)階段充分結(jié)合用戶行為數(shù)據(jù)提升效率、在實(shí)體演化分析方面采用增量式策略提升處理效率等。
熱點(diǎn)文章閱讀