AI基礎設施革命: 關于數據隱私保護和價值挖掘的實踐思考

數據隱私的保護貫穿數據流通過程,是一種動態的數據安全;數據隱私保護與價值挖掘并不矛盾,數據隱私保護的落地長久來看會推動新的數據使用范式誕生,而規范數據使用可以促進數據流通更順暢,在匯聚更多數據的基礎上迎來價值挖掘的下一個爆發點,帶動AI的基礎設施革命。
但隱私計算行業目前仍處于早期階段,數牘科技創始人宋一民將在本文與大家分享他對數據使用的思考,以及平衡隱私保護和價值挖掘常見的技術實踐。
本文的分享提綱如下:1、數據流動的合理性和必然性2、流動鏈條中的數據歸類3、數據隱私和價值挖掘的平衡:給予數據擁有方控制力4、數據擁有者的控制力如何賦予?5、數據控制力管理的技術實踐

數據的流動性
一個數據從生成開始的整個生命周期中,可能會在多個機構或節點間流轉,在節點間進行流轉的過程使得數據形成了一個網絡,就像許多企業內部存在數據流動的data pipeline,在更宏觀的層面也存在類似的data flow。
在客觀現實中,數據流動存在它的合理性和必然性。一方面,對于任何一個個體,他的數據會在不同的場景中產生和被采集。比如使用打車軟件會產生位置移動的信息,住酒店會產生住宿信息,在淘寶買東西會產生購物信息等,很難想象會有一個實體掌握關于這個個體的全部數據;另一方面,挖掘數據的過程也存在專業性的問題,在不同場景中根據不同需求,挖掘可能很難完全由同一個實體來完成。因此往往為了充分的挖掘數據價值,需要盡可能的將多個數據產生的源頭,經過多個節點進行匯聚,加工處理和使用。
從產業的角度來看,我們常形容互聯網和AI的關系是“連接產生數據,數據產生智能”,在連接和智能決策的過程,其實也是數據流動匯集、價值挖掘的過程。更豐富的數據維度和更好的數據覆蓋對于模型的質量也是至關重要的。數據作為AI的原料,其流動性也是讓AI更好發揮價值的基石。流動中的數據
數據的流動性具有合理性和必要性,而流動過程中的數據在實踐中通常是被如何被歸類和定位的?
數據在經過不同節點的過程中,會在不同的上下文環境中被提及:比如數據的收集,存儲,使用,以及對應的前述行為的轉讓。收集主要對應原始數據的采集或者形成結構化數據的過程,比如將用戶操作 App 的動作形成日志傳回服務器端,或者比如將用戶產生的評論進行匯總。存儲和使用一般都是按字面意思對數據進行保存或者處理。
為了進行數據的聚合或者借助外來力量對數據進行挖掘,可能會涉及將這些數據的存儲或者使用權轉讓給其它方的過程。
另外考慮到這些和個人數據相關的不同上下文,普通用戶在簽數據授權的時候也可以額外關注一下授權協議是否清晰的定義了這些不同的范疇,比如某 App 本身,對什么數據、進行不超過多長時間的存儲,并且這個存儲權不會轉讓給除某 App 本身的其它實體。
一般收集或采集到數據的一方被稱為第一方數據,第一方數據為了更好地用數據服務使用者,往往會在授權中要求更多的權限。比如在數據使用權里可能會要求通過數據對個人用戶的信息流進行更好的匹配,這里面可能就包含了使用原始數據(如用戶對哪些帖子進行了點贊)所進行的優化,也可能包含了將一個用戶的信息用于另一個或一些用戶。
之前提到,完全由一個實體從頭到尾閉環能完成的事情非常有限,因此這里面會涉及到將用戶的一些信息(可能是原始信息,可能是聚合或者泛化信息)轉讓給其它實體協助完成的情況。這些從第一方數據所得數據的實體被稱為第二方數據。
受限于數據本身商業價值或相應法律或PR風險的考慮,在這個數據轉移的過程中第一方會希望盡量控制減少數據本身的泄露。一般通過協議的角度可能是規定數據使用的范疇,規定數據可以被存儲的時間等。通過技術的角度可能是去除個人識別標識,做一些預處理比如泛化(將給定的位置從一個具體的位置變成處于某一個圓的范圍內)等,后面會對這些方法做一個簡單的描述。
除第二方數據以外,還會存在一些根據某些特定目的而將大量原始數據進行匯聚的實體,目的可能是比如進行某些統計分析的研究(比如所有人的存貸比,比如所有人的年齡分布等),也可能是某些特定研究(比如某類藥的安全使用范圍)等,這樣的實體可以被稱為第三方數據。
除了這三方的數據以外,還存在公開數據這個范疇。公開數據的定義很難做到清晰,不過一般認為是任何一方可以通過爬蟲直接從互聯網獲得的數據(沒有經過數據擁有者的直接授權)。但在現實情況中,判斷公開數據的流通是否有風險往往也和公開數據被獲取的一方對于這種獲取行為如何看待相關。
注意這里所指的公開數據被獲取方并不一定是數據的擁有者,因此也會出現在談及數據的收集,存儲,使用之外的另一個上下文:公開。即第一第二或者第三方實體是否獲得了公開該數據的授權。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













