0
| 本文作者: 李尊 | 2016-08-30 18:30 |
聯合編譯:Blake、高斐
編者注:Michael I. Jordan教授是加州大學伯克利分校(University of California, Berkeley)電子工程系、計算機科學系以及統計系的杰出教授。他在亞利桑那州立大學(Arizona State University)獲得了數學碩士學位,并且在1985年從加利福尼亞大學圣地亞哥分校(University of California, San Diego)獲得了認知科學博士學位。自1988年到1998年,Michael I. Jordan在麻省理工學院(MIT)任教授,他的研究方向包括了計算學、統計學、認知及生物科學,最近幾年集中在貝葉斯非參數分析、概率圖模型,譜方法、分布式計算系統中內核機及其應用問題、自然語言處理、信號處理和統計遺傳學等問題上(幾乎涵蓋了大部分機器學習中的內容)。

Michael I. Jordan教授是美國科學院院士(National Academyof Sciences)、美國工程院(National Academy of Engineering)院士和美國藝術和科學學院(American Academy of Arts and Sciences)院士。他被數理統計研究所任命為Neyman Lecturer 和Medallion Lecturer。在2016年,他獲得了IJCAI卓越研究獎。之前的2015年,他獲得了David E. Rumelhart獎;在2009年,他獲得了ACM/AAAI的Allen Newell獎。同時,他是AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA和SIAM的成員。
曾在Michael I. Jordan教授學習過的不少學生已有不少成長為領域中的大牛,包括深度學習中的大神、蒙特利爾大學教授Yoshua Bengio,現任百度美國研究員首席科學家、斯坦福大學教授Andrew Ng(吳恩達),還有學界大牛斯坦福大學教授Percy Liang等人。本文是Michael I. Jordan教授在UC Berkeley有關計算思維、推理思維還有數據科學的演講內容整理。


Michael I Jordan
加州大學伯克利分校(University of California, Berkeley)

如果你是一名來自伯克利的畢業生,當你畢業之后去硅谷可能會遇到的需求。
老板:“我需要一個大數據系統,使用個性化的服務來替換原來的經典服務。”
“這個系統對于任何一個人來說都要良好運行,我可以接受一點點錯誤但是不能有那些會讓我們尷尬的愚蠢錯誤。”
Michael I Jordan:這意味著要將你的錯誤率降到特別低的程度,如果正確率有99%,那另外1%的用戶遇到那些錯誤也是相當龐大的一個數字。
“它應該和原來的經典服務運行的一樣快。”
Michael I Jordan:不能比原來的服務慢,而且還要在適當的預算中。
“當我們收集到更多的數據時它只能變快,特別是不能變慢。”
Michael I Jordan:當數據量增加時,錯誤率也會相應的增大,不一定數據越多速度會越快。
“在這個方面會有很多人關注嚴隱私層面的問題,這些人里面包含很多不同的客戶。”

數據科學十分要求計算思維和推理思維的完全融合(推理思維出現才300年左右,已經開始擁抱各種思想,可以互相融合)
計算思維意味著什么
抽象、模塊化、可擴展性、魯棒性等
推理思維意味著什么
在數據背后考慮真實世界的現象問題
考慮到產生數據的采樣模式
開發程序將從數據“向后”反推到底層現象

計算科學與統計中的核心理論是分別發展的,存在一個油與水的問題(互不相容的因素)
核心統計理論中沒有運行時間和其它計算資源的位置
核心計算理論中沒有統計風險的位置



人們一般不愿意他們的個人數據在不受控制的情形下被使用,同時會擔心他們的隱私將會損失多少。
“隱私損失”能夠進行量化
我們想要將隱私損失與我們能從“數據分析”中所得的價值進行交易
問題就變成了將這些價值進行量化并將其與隱私損失并列在一起

疑問——數據庫——私人數據庫
計算思維,但不是推理思維(舉例:數據給出的是人們的年紀、身高、體重以及血壓,是否應該他們藥物治療,他們還能活多久?)

將兩者融合起來
隱私碰上推理問題

讓n來表示數據點的量,d來表示參數空間的維度,a表示不同的隱私參數
原理:如果我們將n替換成有效地樣本大小,隱私意識極大極小風險與經典的極大極小風險相同

舉例:患者上醫院的估計原因
藥物濫用入院治療的患者
對引發患病率不同的物質預估


非隱私觀察:人們有時不想分享一些隱私數據,對此,我們應當通過什么辦法進行隱私數據分析?
觀點1:增加重尾噪音,以獨立噪音(例如,拉普拉斯機制)為例,通過這種途徑,便能夠獲得一手數據

從集合{0,1}中統一提取隨機向量v

統一從集合{0,1}中提取v
當概率為 時,其中α為微分隱私參數,選擇接近X的v和1-v
否則,選擇遠離X的v和1-v

額外數據為綠色曲線,對應對數刻度的藍色曲線反映了該優化機制。綠色曲線和藍色曲線的走勢顯示出額外數據與優化數據之間明顯的差異。
估計由于不同原因進出急診室的比例
數據源:濫用藥物預警網絡


大數據現象使分布式存儲數據具有必要性(因而,Michael在數據分析系統中對數據添加一定的限制,即壓縮(compression))。
獨立數據收集(例如,醫院)
隱私
設置:每一個m智能體的樣本數量為n
信息傳輸到融合中心
問題:溝通與統計效用之間的權衡?

驗證模式的科學(例如,粒子物理學)
推理問題:存在大量干擾性變量
解釋模式的科學(例如,天文學,基因組學)
推理問題:存在大量的假說
衡量人類活動,尤其是在線活動,將產生大型數據集,這些數據集可用于個性化或用于開拓市場
推理問題:許多不為人知的取樣框架(具有多樣性),復合式損失函數
存在計算方面的問題
最為顯著的是,計算方面的問題與推理方面的問題相互影響。

將be 限制在B比特范圍內
B約束范圍內溝通的最大最小風險如上圖所示。

在正態局部集θ中計算平均估計值
原理:當每一個智能體的樣本數量為n時,最大最小率如上圖所示。

原理:當每一個智能體的樣本數量為n時,B約束范圍內溝通的最大最小率如上圖所示。

在處理數據科學問題中出現了許多概念和數學上的挑戰
面臨這些挑戰要求在“計算思維”和“推理思維”中建立良好的聯系
在計算和推理領域的基礎層面建立聯系
相關閱讀
深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督二脈
秒懂!何凱明的深度殘差網絡PPT是這樣的|ICML2016 tutorial
PS : 本文由雷鋒網獨家編譯,未經許可拒絕轉載!
via Michael I. Jordan
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。