大數據背景下的統計學新需求
大數據時代的迅猛發展,在全球范圍內掀起了前所未有的浪潮。這股浪潮不僅是對統計學產生了沖擊,甚至連政府的統計需求也受到了不小的影響。
對政府統計而言,大數據采用多種數據收集方式、整合多種數據來源,并采用現代信息技術和架構高速處理及挖掘數據,具有高度應用價值和決策支持功能。一方面,統計調查主體的多元化發展趨勢和電子商務等領域的迅速發展,給統計數據的生產方式帶來了很大的挑戰,不斷沖擊著政府統計管理體系與統計理念。另一方面,計算機技術、網絡技術和空間信息技術的巨大進步,為提高統計生產力提供了廣闊空間。海量的電子化、非結構化數據,極大地豐富了統計數據的來源。
種類繁多的“大數據”,正日益成為官方統計部門研究應用的方向。在這樣的背景下,探索大數據在政府統計中的應用,把握這一促進政府統計改革發展的機遇,對政府統計有著劃時代的意義。盡管近代統計學已經發展了上百年,但是大數據時代的到來依然暴露出了統計學已有方法的缺陷,從抽樣調查和設計、數據管理和存儲到統計分析和計算,海量數據分析的需求都部分地顛覆了傳統的統計方法,這對統計學和統計學家是嚴峻的挑戰。
來自喬治·華盛頓大學的胡善慶教授依托豐富的政府實踐經歷,提出了支持現代治理的統計學2.0的概念。相對于統計學2.0,胡善慶教授稱近代統計學是1.0時代,其特點是,統計數據來自普查或隨機抽樣,而非隨機收集的數據是無研究價值的。在20世紀這個統計學的黃金時代,統計學是作為一門應用科學而存在的,統計學作為國際語言在政府、社會、經濟和科學中幫助解決了許多實際問題。
以美國為例,美國政府廣泛采用隨機抽樣調查的方式,各行各業統計應用普遍化,小樣本亦可產生大量數據,計算機商業化帶來了計算方法的創新,統計軟件支持數據收集與分析,數據文化深入到美國社會的各個層面。但是在21世紀統計學面臨很大挑戰,過去是有問題才收集數據,然后建立合適的統計模型來揭示觀測到的數據,大數據時代則不同,需要從泥沙俱下的大數據中提煉出有價值的知識和信息,而這些有價值的知識和信息顯然是非預期的。
中國目前的很多追蹤調查項目都存在耗時過長的問題,中國的城鎮化、智慧城市建設、政府簡政放權、推進監管、國家統計局四大工程項目等都面臨諸多統計上的挑戰和需求,海量縱向數據的應用,多種數據來源的整合,快速以及簡便的呈現結果,嚴格保護數據和系統安全,提高精度和可靠性等都是對統計的新要求。無論美國還是中國,使用20世紀的統計方法都不能解決21世紀的治理需求。如果我們可以用同樣的效率和成本收集數據,實時分析總體,還需要隨機抽樣嗎?過去80年的數理統計何去何從?
大數據時代的重要意義在于大部分數據已經數字化,易于批量存儲和處理,并且數據來源多樣化、快速化,舊數據也可以有新用途。統計學2.0時代包含一個動態的框架,要求有能力提供實時的結果和動態的分析報告,動態的框架可以提供更科學、更高精度、更能跟蹤、更快速的隨機抽樣。
基于此,胡善慶教授展望了2020年人口信息管理制度的整個框架,提出了統計學創新的一些獨到觀點,比如,大數據需要統計設計、數據清洗和信息數據提煉才可能有價值或達到信息挖掘的最佳效果,統計學專長于分辨數據質量和抽取最優化信息,國際隊伍建設需要專業人才、完善的教育系統、悠長歷史、優良信譽和扎實嚴謹的思維、理論和應用基礎等。動態框架不但保留了框架原本的目的,即為普查以及隨機抽樣提供結構基礎,還有其他方面巨大的應用潛力,這完全取決于統計學界的想象力和創新精神。統計學家應該欣然歡迎大數據時代的到來,并把它看作是統計學本身的一個大變革,帶動統計學在運用數據研究社會和人類知識的實踐中達到一個新的高度。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
5月20日立即參評>> 【評選】維科杯•OFweek 2026中國智能制造行業年度評選
-
5月29日立即下載>> 【白皮書】工業視覺AI實戰白皮書合集
-
5月30日立即報名>> 2026激光行業應用創新發展藍皮書火熱招編中!
-
5月31日立即下載>> 【白皮書】村田室內外定位解決方案
-
即日-5.31立即申報>>> 維科杯·OFweek 2026光學行業年度評選
-
5月31日立即申報>>> 維科杯•OFweek 2026激光行業年度評選


分享









