大數據應用
按照數據開發應用深入程度的不同,可將眾多的大數據應用分為三個層次。
第二層,預測性分析應用,是指從大數據中分析事物之間的關聯關系、發展模式等,并據此對事物發展的趨勢進行預測。如微軟公司紐約研究院研究員David Rothschild通過收集和分析賭博市場、證券交易所、社交媒體用戶發布的帖子等大量公開數據,建立預測模型,對多屆奧斯卡獎項的歸屬進行預測。2014和2015年,均準確預測了奧斯卡共24個獎項中的21個。
當前,在大數據應用的實踐中,描述性、預測性分析應用多,決策指導性等更深層次分析應用偏少。一般而言,人們做出決策的流程通常包括:認知現狀、預測未來和選擇策略這三個基本步驟。這些步驟也對應了上述大數據分析應用的三個不同層次。不同層次的應用意味著人類和計算機在決策流程中不同的分工和協作。例如:第一層次的描述性分析中,計算機僅負責將與現狀相關的信息和知識展現給人類專家,而對未來態勢的判斷及對最優策略的選擇仍然由人類專家完成。應用層次越深,計算機承擔的任務越多、越復雜,效率提升也越大,價值也越大。然而,隨著研究應用的不斷深入,人們逐漸意識到前期在大數據分析應用中大放異彩的深度神經網絡尚存在基礎理論不完善、模型不具可解釋性、魯棒性較差等問題。因此,雖然應用層次最深的決策指導性應用,當前已在人機博弈等非關鍵性領域取得較好應用效果,但是,在自動駕駛、政府決策、軍事指揮、醫療健康等應用價值更高,且與人類生命、財產、發展和安全緊密關聯的領域,要真正獲得有效應用,仍面臨一系列待解決的重大基礎理論和核心技術挑戰,大數據應用仍處于初級階段。
大數據治理
隨著大數據作為戰略資源的地位日益凸顯,人們越來越強烈地意識到制約大數據發展最大的短板之一就是:數據治理體系遠未形成,如數據資產地位的確立尚未達成共識,數據的確權、流通和管控面臨多重挑戰;數據壁壘廣泛存在,阻礙了數據的共享和開放;法律法規發展滯后,導致大數據應用存在安全與隱私風險等。
一方面,數據共享開放的需求十分迫切。近年來人工智能應用取得的重要進展,主要源于對海量、高質量數據資源的分析和挖掘。而對于單一組織機構而言,往往靠自身的積累難以聚集足夠的高質量數據。
然而,另一方面,數據的無序流通與共享,又可能導致隱私保護和數據安全方面的重大風險,必須對其加以規范和限制。例如,鑒于互聯網公司頻發的、由于對個人數據的不正當使用而導致的隱私安全問題,歐盟制定了“史上最嚴格的”數據安全管理法規《通用數據保護條例》。2020年1月1日,被稱為美國“最嚴厲、最全面的個人隱私保護法案”——《加利福利亞消費者隱私法案》(CCPA)正式生效。在我國,2019年中央網信辦發布了《數據安全管理辦法(征求意見稿)》,向社會公開征求意見,明確了個人信息和重要數據的收集、處理、使用和安全監督管理的相關標準和規范。
一是大數據治理概念的使用相對“狹義”,研究和實踐大都以企業組織為對象,僅從個體組織的角度考慮大數據治理的相關問題,這與大數據跨界流動的迫切需求存在矛盾,限制了大數據價值的發揮。
三是大數據治理相關的研究實踐多條線索并行,關聯性、完整性和一致性不足。諸如,國家層面的政策法規和法律制定等較少被納入大數據治理的視角;數據作為一種資產的地位仍未通過法律法規予以確立,難以進行有效的管理和應用;大數據管理已有不少可用技術與產品,但還缺乏完善的多層級管理體制和高效管理機制;如何有機結合技術與標準,建立良好的大數據共享與開放環境仍需要進一步探索。
數據規模高速增長,現有技術體系難以滿足大數據應用的需求,大數據理論與技術遠未成熟,未來信息技術體系將需要顛覆式創新和變革。
當前,需要處理的數據量已經大大超過處理能力的上限,從而導致大量數據因無法或來不及處理,而處于未被利用、價值不明的狀態,這些數據被稱為“暗數據”。據國際商業機器公司(IBM)的研究報告估計,大多數企業僅對其所有數據的1%進行了分析應用。
首先,大數據定義雖已達成初步共識,但許多本質問題仍存在爭議,例如:數據驅動與規則驅動的對立統一、“關聯”與“因果”的辯證關系、“全數據”的時空相對性、分析模型的可解釋性與魯棒性等;
其三,應用超前于理論和技術發展,數據分析的結論往往缺乏堅實的理論基礎,對這些結論的使用仍需保持謹慎態度。
在此背景下,大數據現象倒逼技術變革,將使得信息技術體系進行一次重構,這也帶來了顛覆式發展的機遇。
文章來源:《中國工業和信息化》雜志2021年5月刊總第34期