大數(shù)據(jù)背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量影響因素分析
發(fā)布時(shí)間:2018-06-25 來源: 幽默笑話 點(diǎn)擊:
摘要:隨著云計(jì)算技術(shù)概念的提出和逐步發(fā)展,社會(huì)經(jīng)濟(jì)正在進(jìn)入大數(shù)據(jù)應(yīng)用時(shí)代。大數(shù)據(jù)背景下,統(tǒng)計(jì)工作必須緊緊著眼于用戶需求,提升統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,更好地發(fā)揮統(tǒng)計(jì)數(shù)據(jù)的價(jià)值。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)統(tǒng)計(jì);影響因素
大數(shù)據(jù)的技術(shù)應(yīng)用正在向各個(gè)行業(yè)滲透,未來的數(shù)據(jù)將會(huì)像石油一樣成為重要的資源,推動(dòng)社會(huì)的進(jìn)步和發(fā)展。統(tǒng)計(jì)數(shù)據(jù)只有可靠,準(zhǔn)確,及時(shí)才能為決策者提供合理的依據(jù),因此保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,在今天大數(shù)據(jù)時(shí)代顯得尤為重要。大數(shù)據(jù)越來越呈現(xiàn)出海量,非結(jié)構(gòu)化,實(shí)時(shí),電子化處理和多元等特點(diǎn),在數(shù)據(jù)的處理上帶來了難度,數(shù)據(jù)質(zhì)量上一些細(xì)微的問題將會(huì)通過大數(shù)據(jù)海量的樣本被放大,導(dǎo)致嚴(yán)重的問題,這是當(dāng)下大數(shù)據(jù)最需要解決的問題。
一、統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量
。ㄒ唬┙y(tǒng)計(jì)數(shù)據(jù)核心的轉(zhuǎn)變
在大數(shù)據(jù)的背景下,數(shù)據(jù)統(tǒng)計(jì)的核心正發(fā)生著變化。傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)對于數(shù)據(jù)的核心要求是“準(zhǔn)確性”,統(tǒng)計(jì)數(shù)據(jù)要能真實(shí)反映發(fā)生的問題。而今天的數(shù)據(jù)統(tǒng)計(jì)最終是要向消費(fèi)者服務(wù)的,數(shù)據(jù)統(tǒng)計(jì)的核心要求是“客戶需求”。
。ǘ┙y(tǒng)計(jì)數(shù)據(jù)的質(zhì)量要求
針對目前的大數(shù)據(jù)發(fā)展情況,馬建光認(rèn)為統(tǒng)計(jì)工作面臨的最大挑戰(zhàn)是海量的,多樣的大數(shù)據(jù)獲取和處理問題,它們決定著大數(shù)據(jù)的質(zhì)量。如何解決這種問題,有關(guān)專家學(xué)者提出:要從技術(shù),流程和管理三個(gè)方面入手進(jìn)行相關(guān)問題探討,而且對統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量評估也要進(jìn)行多維度的驗(yàn)證,主要從邏輯規(guī)則檢驗(yàn)、核算數(shù)據(jù)重估、計(jì)量模型分析、統(tǒng)計(jì)分布驗(yàn)證、調(diào)查偏差評估、多維評估延伸六個(gè)角度。
大數(shù)據(jù)背景下,在統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量研究上國內(nèi)外學(xué)者形成了共識:非技術(shù)因素中人為因素和環(huán)境因素是兩大影響因素,非技術(shù)性因素在統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量上應(yīng)該得到更多關(guān)注。大數(shù)據(jù)背景下,統(tǒng)計(jì)數(shù)據(jù)所呈現(xiàn)出來的特點(diǎn)使得統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題極為復(fù)雜,這里面既有技術(shù)因素也存在非技術(shù)因素的作用。為了保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,需要及時(shí)發(fā)現(xiàn)各種影響因素,并通過科學(xué)的方法將影響降到最低。
二、影響因素分析
美國麻省理工學(xué)院的Richard Y.Wang教授提出了全面數(shù)據(jù)質(zhì)量管理理論,他認(rèn)為影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的主要影響因素是流程,技術(shù)和管理三個(gè)方面。圖1展示了這種理論概念模型。
。ㄒ唬┝鞒叹S度的影響
從該維度對數(shù)據(jù)進(jìn)行分析,主要從數(shù)據(jù)收集,數(shù)據(jù)存儲,數(shù)據(jù)使用三個(gè)階段來進(jìn)行,這是數(shù)據(jù)的整個(gè)生命周期在不同階段的處理功能。
1. 數(shù)據(jù)收集階段
在數(shù)據(jù)收集的方式和統(tǒng)計(jì)標(biāo)準(zhǔn)上,大數(shù)據(jù)時(shí)代因?yàn)橹悄茉O(shè)備,傳感器以及社交協(xié)作技術(shù)的應(yīng)用和普及,使得數(shù)據(jù)的來源發(fā)生了很大的變化。
如今網(wǎng)頁,搜索引擎,社交媒體論壇,主動(dòng)和被動(dòng)系統(tǒng)傳感器成為大數(shù)據(jù)的產(chǎn)生來源,海量數(shù)據(jù)的產(chǎn)生,讓統(tǒng)計(jì)數(shù)據(jù)在廣度上無限接近“總體”,這樣的大數(shù)據(jù)收集明顯地優(yōu)勢就是會(huì)增加統(tǒng)計(jì)的準(zhǔn)確性,但是數(shù)據(jù)接觸范圍的擴(kuò)大會(huì)帶來許多以前未曾出現(xiàn)的問題。另一方面數(shù)據(jù)的時(shí)效性比以前大大縮短,而有效的數(shù)據(jù)收集,才能保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,這也是一種新的挑戰(zhàn)。
2. 數(shù)據(jù)存儲階段
傳統(tǒng)的數(shù)據(jù)存儲結(jié)構(gòu)已經(jīng)無法滿足大數(shù)據(jù)存儲的要求,大容量及高擴(kuò)展性,高可用性,高性能和訪問接口的多樣性都要求改變單一的數(shù)據(jù)存儲結(jié)構(gòu)。
現(xiàn)在的數(shù)據(jù)存在著大量視頻,圖片等非機(jī)構(gòu)化數(shù)據(jù),使用以往的存儲要經(jīng)過復(fù)雜的轉(zhuǎn)換過程,將其轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),但是這個(gè)過程不可避免地會(huì)出現(xiàn)轉(zhuǎn)化方式不合適,直接導(dǎo)致數(shù)據(jù)的完整性和準(zhǔn)確性。實(shí)現(xiàn)大數(shù)據(jù)效益的最大化就必須將這些非結(jié)構(gòu)化的數(shù)據(jù)與結(jié)構(gòu)化的數(shù)據(jù)有機(jī)結(jié)合,建設(shè)新型的數(shù)據(jù)庫。
3. 數(shù)據(jù)使用階段
大數(shù)據(jù)時(shí)代數(shù)據(jù)成為一種共享的資源,不再由某一個(gè)人或者某一個(gè)部門單獨(dú)使用。數(shù)據(jù)的提取和更新愈加頻繁,這中間的任何失誤都將造成數(shù)據(jù)質(zhì)量的下降。社會(huì)信息化的發(fā)展使得數(shù)據(jù)的產(chǎn)生和傳播加快,許多事情的產(chǎn)生都是瞬息萬變的,因此對數(shù)據(jù)進(jìn)行及時(shí)處理分析,才能保證數(shù)據(jù)的價(jià)值不過期,作為決策者才能做出合適的決策。
。ǘ┘夹g(shù)維度的影響
大數(shù)據(jù)技術(shù)包含數(shù)據(jù)庫技術(shù),數(shù)據(jù)質(zhì)量檢測識別和數(shù)據(jù)分析技術(shù)這三個(gè)方面,它是準(zhǔn)確預(yù)測未來的保障,體現(xiàn)了數(shù)據(jù)分析的真正價(jià)值。
1. 數(shù)據(jù)庫技術(shù)
企業(yè)數(shù)據(jù)在大數(shù)據(jù)時(shí)代最明顯的特征就是數(shù)據(jù)量的增加,這種增加的速度是以往難以想象的,呈現(xiàn)出了指數(shù)級的增長。增長的內(nèi)容既有信息量的增長,也有數(shù)據(jù)結(jié)構(gòu)的增長,因此數(shù)據(jù)的統(tǒng)計(jì)越來越復(fù)雜。
傳統(tǒng)的數(shù)據(jù)檢測技術(shù)在檢測結(jié)構(gòu)化的數(shù)據(jù)時(shí)很方便,但是非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)使得傳統(tǒng)的檢測技術(shù)出現(xiàn)了難以應(yīng)對的情況。數(shù)據(jù)中錯(cuò)誤,缺失,無效或延遲的情況時(shí)有發(fā)生,這極大地增加了檢測的時(shí)間成本。企業(yè)需要配備更高端的檢測設(shè)備,引進(jìn)或者研發(fā)新技術(shù)來處理大數(shù)據(jù),保證數(shù)據(jù)質(zhì)量。
2. 數(shù)據(jù)質(zhì)量檢測和識別技術(shù)
數(shù)據(jù)質(zhì)量的準(zhǔn)確性,適用性和及時(shí)性檢測依靠人工判斷,會(huì)越來越難,必須引進(jìn)有效的數(shù)據(jù)檢測技術(shù),及時(shí)發(fā)現(xiàn)數(shù)據(jù)存在的不足和缺陷,同時(shí)在實(shí)踐中完善數(shù)據(jù)質(zhì)量檢測技術(shù),滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)檢測的要求。
3. 大數(shù)據(jù)分析技術(shù)
數(shù)據(jù)收集之后,經(jīng)過分析才能得出數(shù)據(jù)的價(jià)值?梢暬治龀蔀槟壳按髷(shù)據(jù)分析技術(shù)中的主流,數(shù)據(jù)挖掘算法可以有效處理不同類型和格式的數(shù)據(jù),對傳統(tǒng)的數(shù)據(jù)分析進(jìn)行完善和促進(jìn)這些都是數(shù)據(jù)分析能力的提升。
。ㄈ┕芾砭S度的影響
數(shù)據(jù)管理作為數(shù)據(jù)質(zhì)量保證的重要一環(huán),人在其中起到了決定性的作用。在這個(gè)維度中企業(yè)管理者的認(rèn)識,專業(yè)數(shù)據(jù)庫管理人員的配備,政府統(tǒng)計(jì)制度和統(tǒng)計(jì)數(shù)據(jù)標(biāo)準(zhǔn)是影響數(shù)據(jù)質(zhì)量的四個(gè)重要因素。
1. 管理者的認(rèn)識
重視首先需要認(rèn)識其重要性。企業(yè)的管理者要充分認(rèn)識到大數(shù)據(jù)對于企業(yè)發(fā)展的重要性,支持和重視大數(shù)據(jù)的建設(shè),讓大數(shù)據(jù)的應(yīng)用有效落實(shí)到企業(yè)工作中,真正發(fā)揮大數(shù)據(jù)在企業(yè)決策中的作用,為企業(yè)提供正確地的發(fā)展方向。
相關(guān)熱詞搜索:統(tǒng)計(jì)數(shù)據(jù) 因素 質(zhì)量 影響 分析
熱點(diǎn)文章閱讀