CCF最新分享:數據隱私保護下,AI大數據應如何發展?
3月24日,由CCF主辦,微眾銀行及深圳大學微眾金融科技研究院協辦的“CCFTF14期研討會”在深圳大學舉辦,此次會議的主題為“聯邦學習技術及數據隱私保護”。
隨著國際國內數據隱私保護成為新趨勢,數據共享變得更加困難,如何在保護數據隱私前提下開展AI大數據研究?“聯邦學習”可以打破“數據孤島”具體應用在AI領域。聚焦“聯邦學習技術及數據隱私保護”,CCFTF 14期研討會邀請國際人工智能學會理事長、微眾銀行首席人工智能官楊強、南洋理工大學于涵教授、微眾銀行人工智能部高級研究員劉洋、京東城市計算事業部AI平臺部負責人張鈞波、北京觀韜中茂(上海)律師事務所合伙人王渝偉、第四范式聯合創始人、首席研究科學家陳雨強、微眾銀行人工智能部副總經理陳天健與大家現場互動交流。
AI大數據面臨挑戰,技術向善與遷移學習
我們知道,AI與各行業緊密結合,必將顯著改善社會生活,這是一種比較理想的狀態,然而現實是AI系統仍有許多不盡如人意的地方。另外,社會對隱私保護和數據安全提出了更高的要求,這也給大數據研究及共享提出了新的挑戰。
競爭、安全及數據壁壘等因素造成所謂的“數據孤島”問題。在此背景下,遷移學習幫助更多領域建模,就像在數據集之間建立朋友圈,數據孤島問題得到有效解決。
AI向善與系統短板
AI向善,它能在普惠金融、普惠教育、普惠醫療、智慧城市、災難營救、扶貧及農業等領域發揮重要作用。
楊強教授表示:“AI向善(AI for good),這在國外很早就被提出來的概念。這個概念不僅僅是計算機領域的發展,也是社會的需求,最近大家比較關心的一個議題就是AI和社會的結合。AI作為一種工具,就像以前互聯網作為一種工具,加上一些傳統的只能少數人享受的領域,然后通過AI的手段對廣大的社會傳播,能夠讓普通人也能享受過去VIP享受的那一些特殊服務,包括金融,所以這樣就產生了AI和普惠金融;AI和普惠教育,例如大學的高等教育,能不能讓所有人都能享受到。另外還有AI和普惠醫療、智慧城市、災難營救,AI扶貧和農業等方面。”
AI若能與各行業緊密結合,必將顯著改善社會生活,這是一種比較理想的狀態,然而現實是AI系統仍有許多不盡如人意的地方,例如AI系統的有偏性和AI系統與人類合作方面的問題。
“AI系統有偏性,根據我們交給AI系統的數據,AI系統可以建立模型,但如果這個數據是有偏的,那么這個模型就會有偏性。另一個是AI系統和人類合作的問題,最近一個很大的事情是波音飛機自動駕駛系統和人類飛行員搶奪控制權,不幸的是系統贏了,導致飛機墜毀,現在波音飛機停飛。這給我們一個很大的啟示,自動系統如果不能和人類有一個很好的交互,沒有以人為中心的設計,這個系統會是一個災難。”楊強教授表示。
遷移學習解決“數據孤島”問題
目前,除AI系統自身的一些問題外,重視隱私保護和數據安全的新趨勢也給數據研究及共享帶來新的挑戰。
近年來,國際國內對于隱私保護和數據安全的重視已成為重要趨勢。歐盟去年5月通過最新法案《通用數據保護條例》(General Data Protection Regulation, GDPR),對數據保護采取更嚴格的態度。同時,我國也在緊跟這些領域的法律和規范,自2017年《網絡安全法》通過以后,目前我國個人信息保護法已納入立法規劃,有望在2020年通過,這些都反映出數據保護與隱私安全越來越受到重視。
隨著隱私保護和重視數據安全成為新趨勢,數據研究及共享面臨更多問題。首先,由于競爭關系、安全問題、審批流程等因素,數據共享難度高。其次,數據在不同擁有方、云和端以及物聯網節點之間的流通存在著難以打破的壁壘,形成所謂的“數據孤島”問題。此外,即便不同行業之間有意愿交換數據,也可能遭遇政策問責和競爭保護,AI的大數據面臨重重挑戰。
雖然AI的大數據面臨重重挑戰,但數據孤島并非不可解決。“遷移學習就是很好的解決方案。遷移學習是用一個成熟領域的數據和模型,通過知識遷移,幫助完成一個小數據建模。這樣通過關聯領域間的相似性,幫助更多領域建模,這就像在數據集之間建立朋友圈,數據孤島也能得到有效解決。”楊強教授表示。
數據共享與安全,聯邦學習的優越性
此外,解決數據壁壘、“數據孤島”等問題的方法除遷移學習外,還有一個重要方法——“聯邦學習”。
谷歌公司率先提出了基于個人終端設備的“聯邦學習” (Federated Learning)算法框架。“聯邦機器學習”(Federated Machine Learning)實際上是一種加密的分布式機器學習技術,參與各方可以在不披露底層數據和底層數據的加密(混淆)形態的前提下共建模型。它可以實現各個企業的自有數據不出本地,通過加密機制下的參數交換方式,就能在不違反數據隱私法規情況下,建立一個虛擬的共有模型。在這樣一個機制下,參與各方的身份和地位相同,成功實現了打通“數據孤島”走向“共同發展”的目標。
聯邦學習分為橫向聯邦和縱向聯邦,橫向聯邦數據方特征維度相同,縱向聯邦數據方樣本ID相同。縱向聯邦學習的目標是A方與B方聯合建立模型,并且假設只有一方有標簽Y,兩方均不暴露數據,但可能遇到的挑戰是只有X的一方沒有辦法建立模型,雙方不能交換共享數據,最終要達到的預期為雙方俊獲得數據保護且模型無損失。
“通過縱向聯邦學習,各方在隱私保護下進行樣本ID匹配,每個參與方并不知道另一方的數據和特征,每個參與方只得到自己的自己側的模型參數(半參數),即滿足隱私保護的要求,又滿足數據遷移學習的目標。聯邦學習希望在安全合規的基礎上達到防御攻擊、提高算法效率的目標。”劉洋博士表示。
基于此,微眾銀行AI團隊提出了基于“聯邦學習”的系統性的通用解決方案,可以解決個人(to C)和公司間(to B)聯合建模的問題。此前,微眾銀行在城市管理的視覺應用方面,與極視角聯合推出了聯邦視覺項目。
“傳統城市管理面臨標簽數量少、數據分散,集中管理成本很高且模型更新和反饋存在離線延遲情況,聯邦視覺項目通過聯邦學習對模型提升率為15%,且模型效果無損失,這是聯邦學習應用在物聯網領域的一大優勢。” 劉洋表示。
物聯網(IoT)是基于互聯網、傳統電信網等信息傳輸渠道,讓所有具備通信功能的獨立物體實現互聯互通的網絡。物聯網的應用之一,是透過收集多個節點的小數據,聚集成大數據來建立應用模型。
而邊緣計算(Edge Computing)則致力于通過依靠集網絡、計算、存儲、應用核心能力為一體的開放平臺,就近提供最近端服務,從而產生更快的網絡服務響應,滿足不同行業的實時業務需求。
物聯網、邊緣計算和與人工智能 (AI) 的有機結合離不開分布式大數據的安全、合法的管理,聯邦學習助力IoT,實現大規模用戶在保護數據隱私下的協同學習。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













