美林數據技術專家團隊 | 隱私計算帶動數據安全應用
2021-08-06 19:04:17
次
你有沒有聽到這樣的事情:經常上熱搜的“大數據殺熟”、手機好像在監聽消費者的喜好、外賣小哥被困在算法里停不下來……
仿佛有一雙眼睛在無時無刻的盯著我們的一舉一動,其實這些都是隱私泄露。不管是對個人也好,對企業也好,泄露隱私都會讓我們感到毛骨悚然。
近年來,數據安全事件頻繁發生,數據安全威脅日益嚴峻。而這一切的根本原因在于,數據所帶來的巨大潛在利益,促使不法之徒肆無忌憚的收集和使用我們的隱私數據。
2021年9月起,正式施行的《中華人民共和國數據安全法》就是為了規范數據處理活動,保障數據安全,促進數據開發利用,保護個人、組織的合法權益,維護國家主權、安全和發展利益而制定的專項法律。
數據作為數字經濟下最重要的生產要素,在保證數據安全的同時,更要發展數據。該如何兼顧發展與安全,平衡效益與風險,在保障數據安全的前提下,挖掘數據價值?
數據可用不可見
由于競爭及政策等原因,“數據孤島”現象明顯
眾多企業在開展業務的過程中積累了大量的數據,但由于物理和邏輯上的孤立性、合規監管以及隱私保護等方面的原因,海量數據被獨立存儲在不同區域、企業中,彼此間互不相通,形成數據孤島,限制了數據價值的釋放。
數據隱私問題日益嚴峻,用戶信任度逐步下降
隨著各類技術的不斷發展,基于位置跟蹤、行為偏好記錄、智能推薦的各種定向精準化服務在給我們提供諸多便利的同時,也產生了越來越多的數據隱私問題。2018年,Google被爆出50萬Google+賬戶資料外泄,先后為此付出總計高達90億美元的罰款。頻發的數據泄露問題削弱了對科技公司隱私保護能力的信任。
隱私計算助力數據融合,釋放數據價值
隨著競爭形勢的日益嚴峻,為了提高自身競爭力,越來越多的企業希望能夠與產業上下游公司、政府等數據主體進行數據共享,實現深入合作。針對“數據孤島”問題,一種叫做“數據可用不可見“的合作新模式被提了出來。借助以聯邦學習、多方安全計算等為代表的隱私計算技術,數據合作主體可以實現原始數據不出庫,僅數據“價值”和“知識”出庫,從而完成數據融合的目標。
例如疫情期間,通過聯邦學習平臺可以進行協作建模,在原始數據“足不出庫”的前提下,完成了對小微企業的精準畫像,實現了企業信用評估、銀行授信以及政府貼息全閉環流程。
隱私計算技術實現“數據可用不可見”
在大數據、人工智能、“互聯網+”背景下,“個人信息保護”重要性進一步提升。隱私計算技術幫助數據合作方不需要得到真實的數據就可以實現想要的作用,從而實現了不共享數據,卻又共享數據的目的。
數字經濟時代來臨,數據要素市場化配置逐漸上升為國家政策。通過政策的支持和技術的完善,隱私計算最終能夠完美實現數據的“可用不可見”,達到數據安全的保護目的。
利刃出鞘:隱私計算
隱私計算技術為實現“數據可用不可見”提供了解決方案。具體什么是隱私計算?隱私計算是在實現保護數據擁有者的權益安全及個人隱私的前提下,實現數據的流通及深度挖掘數據價值的一種重要方法。
隱私計算通常一種由兩個或多個參與方聯合計算的技術和系統,參與方在不泄露各自數據的前提下,通過協作對他們的數據進行聯合機器學習和聯合分析。參與方既可以是同一機構的不同部門,也可以是不同的機構。
隱私計算技術主要包括基于密碼學的多方安全計算、基于可信硬件的可信執行環境以及新興的聯邦學習技術。
√ 多方安全計算主要適用于統計分析、判斷決策、查詢
√ 可信計算需要硬件廠商授權,適用于數據保護要求較低的應用場景
√ 聯邦學習則適用于機器學習、數據建模和數據預測分析
其中聯邦學習作為后起之秀,在數據安全中得到了廣泛的探索與發展。聯邦學習的本質上是一種分布式的機器學習技術,各個參與者不需要把數據整體移動到一個可信計算環境中,而是在本地使用本地的數據訓練一個本地的模型,并通過場景使用半同態加密、秘密分享等隱私計算技術的方式來同步模型參數,從而進行模型的迭代訓練。從而做到數據可用不可見,數據不動模型動,實現極高的安全性,合規性。
他山之石:應用場景
各領域均存在數據合規流通的需求,隱私計算用武之地眾多。盡管隱私計算行業尚處早期,但已在人工智能、金融、醫療等許多場景中實現應用落地。
金融領域:構建反欺詐模型,打通信用信息流通
金融交易線上業務占比不斷擴大,金融聯合反欺詐勢在必行。單一來源數據構建的反欺詐模型效果較差,因此各金融機構具有很強的反欺詐合作意愿。但在具體合作過程中又往往擔心用戶的隱私數據和機構的商業機密遭到泄露,造成重大不利影響。金融數據涉及商業機密,“供應鏈金融”信用信息流通受阻,金融反欺詐也難以得到有效解決。
解決思路:各機構可基于隱私計算技術,利用多維度數據建立聯合金融反欺詐模型,共享黑名單。數據可以沒有離開各自本地的情況下,融合多方特征使得反欺詐模型達到最佳效果。“區塊鏈+隱私計算”的解決方案能夠將企業的信息形成不可篡改的數據記錄,并實現實時信息共享。其他參與者無法獲知具體經營信息,但可以利用其進行信用評估計算。
醫療領域:提升數據挖掘效率,實現資源多方共享
醫院的醫療數據涉及患者隱私,數據壁壘難以打破。一方面,我國醫院體系內部醫療數據缺乏結構化規劃;另一方面,醫院體系外部機構從醫院獲取數據的成本越來越高,造成大量醫療數據資源浪費,嚴重阻礙了科研開展及醫療行業的發展。如何在防止“信息泄露”的基礎上,實現多方醫療數據共享,提高醫療數據挖掘效率,是當前醫療領域面臨的巨大挑戰。
解決思路:在利用數據脫敏等技術保證各醫療機構數據不被泄露的基礎上,由政府牽頭,構建安全數據開發平臺,獲得授權的使用者可在數據平臺上通過第三方應用或者自己開發的程序對原始數據進行挖掘,最后由平臺輸出數據的使用價值和結果,大幅度的提升醫療數據的利用價值,促進科研開展和醫療行業發展。
可以攻玉:美林能力
美林數據多年在能源行業有著豐富的數據治理及挖掘經驗,結合強大的云邊能力,在隱私計算技術上深耕挖掘,通過云邊協同等新型技術賦能,研究隱私計算技術解決多領域數據安全問題。
能源領域:構建能源反竊模型,保障數據共享安全
能源行業作為關乎國計民生的基礎行業,具有巨大的數據挖掘價值,但也由于其具備天然的敏感性,此類數據直接匯聚到統一的平臺非常困難。水、電、氣、熱等能源數據天然形成了數據孤島,數據無法貫通嚴重阻礙了能源AI應用落地。如何打破數據壁壘,解決“最后一公里”問題?
解決思路:以聯邦學習、安全多方計算等數據安全與隱私保護技術為核心的分布式計算平臺,產品針對機器學習算法進行定制化的隱私保護改造,保證數據不出本地即可完成模型訓練,最大化各個合作企業在數據安全的基礎上的數據價值,很好地解決了業界數據孤島的難題。
稅務領域:推動涉稅數據與電力數據共享合作
稅收數據和電力數據在宏觀上能有效反映經濟運行現狀及變動趨勢,在微觀上能夠反映社會主體經營狀況,在服務經濟分析、精準施政等方面,具備覆蓋面廣、數據質量好、采集頻率高、顆粒度細等特點。然而,稅務與電力數據因數據隱私泄露的問題,對部分資源在涉電及涉稅數據的相關分析中出現阻礙。
解決思路:借助隱私計算,共享并融合稅務與電力數據,提升稅務與電力數據的含金量,實現隱私保護下的高質量數據協作。同時通過隱私計算平臺,促進稅務和電力的數據協作,實現政企數據融合應用。
引玉之磚:未來發展
隱私計算技術日益完善,未來有望邁入快車道
2020年10月20日,隱私計算入選Gartner2021年九大重要科技趨勢。根據Gartner預測,2025年將有一半的大型企業機構在不受信任的環境和多方數據分析用例中使用隱私增強計算處理數據,隱私計算技術將在2-5年內走向成熟。
大鵬一日同風起,扶搖直上九萬里。美林數據多年來深耕行業應用,不斷沉淀總結技術與業務的最佳結合點,在大數據與人工智能時代積累了豐富的行業級算法庫及強大的算法能力。通過云邊等新型技術賦能,積極發展隱私計算能力,美林數據正昂首挺胸,踐行以客戶為中心,為用戶提供安全可靠的大數據技術服務,為傳統企業數字化轉型提供美林力量!