0
雷鋒網 AI科技評論按,日前,Kaggle官網發布了一份關于數據科學和機器學習的調查報告,他們通過分析超過16000份相關用戶的問卷調查,給出了數據科學行業從業人員的基本概況,大家在工作中使用比較多的方法以及對初入該行業的人的建議。
雷鋒網 AI科技評論核心內容編譯如下:
為了建立對數據科學和機器學習的全面認識,Kaggle在今年首次開展了一項覆蓋多個行業的調查研究。
他們收到了超過16000份回復,了解到該行業很多的相關信息,例如數據科學從業者的概括、機器學習領域的前沿研究,以及新手數據科學家如何能最好地進入這個領域。
在下面的報告中,他們分享了一些主要發現,這里面包括一些交互式可視化圖,這樣大家可以輕松地找到自己想知道的內容。以下是一些例子:
雖然Python從整體上來說或許是最常使用的工具,不過我們的報告發現統計學家中用R語言的更多。
數據科學家的平均年齡在30歲左右,但不同國家之間又略有不同。例如印度受訪者的平均年齡比澳大利亞受訪者要小9歲。
受訪者中擁有碩士學位的人占比最高,但是在薪水最高(15萬美元以上)的人中,擁有博士學位的人最多。
他們在Kaggle上分享了這些完整的匿名數據集,大家可以下載、進行探索。
下載地址:https://www.kaggle.com/kaggle/kaggle-survey-2017
大家可以參與進來研究這些數據,分享自己的思路和代碼,一起推進數據科學和機器學習的研究。與此同時,甚至可以贏得現金獎勵。
數據科學家概況
分析這些數據科學從業人員概況的方法有很多,他們通過與這些數據科學家的工作和背景相關的統計信息入手:
年齡
調查對象的平均年齡在30歲左右,但不同國家之間又略有不同。例如印度受訪者的平均年齡比澳大利亞受訪者要小9歲。
在職情況
從圖中可以看到全職的人最多。

職位
雖然大家經常將“數據科學家”定義為使用代碼來分析數據的人,但在調查中發現大量的職位都屬于數據科學領域。例如,在伊朗和馬來西亞,數據科學研究領域最常見的的職位是“科學家或研究員”。 
全職年薪
雖然在此次調查中,“薪酬和福利”的重要性不如“職業發展機會”,但大家最好還是要了解到合理的薪酬范圍。在美國,機器學習工程師平均工資最高。

最高學歷
一般來說,在從事數據科學研究的人中,研究生占比最高。但是在收入最高(15萬美元—20萬美元,20萬美元以上)的人群中,擁有博士學位的人占比最多。 
這次調查顯示,年齡為30歲,擁有碩士學位,年收入約為5.5萬美元的數據科學家處于平均水平。不過每個人之間的差異也很大,上面只是從表面上給出了Kaggle上數據科學社群在年齡、性別、國家、職位、薪水、工作經驗和教育上的不同。
數據科學家的日常工作
數據科學家被定義為“寫代碼來分析數據”的人。Kaggle也調查了他們每天的工作生活情況,下面是調查中他們發現的一些亮點:
在工作中使用什么數據科學方法?
調查顯示,工作中,在軍事/安全領域,神經網絡用的稍微多一點。除了這兩個領域,Logistic回歸是大家使用頻率最高的數據科學方法。

使用的工作工具是什么?
Python是調查中大家最常用的數據分析工具,但從小的類別來看,統計學家使用最多的仍然是R語言。

大家使用的數據類型都是什么?
關系數據是在所有行業(除了學術和軍事/安全領域)中最常使用的數據類型,學術和軍事/安全領域中最常使用的數據類型是文本數據。

大家都是如何分享代碼的呢?
受訪者中使用Git分享代碼的人占比最高,但在大公司(員工人數超過10000)使用電子郵件等方式分享代碼的人更多,大家不怎么用云端傳輸,而小型公司(員工數少于10人)在云上分享會更靈活。

工作中面臨的障礙
一般來說,臟數據是在數據科學領域中最常見的問題,不過對一絲不茍的數據庫工程師來說,這不是他們最頭疼的問題。其實,排在臟數據之后,公司政治問題、缺乏管理/缺少財務支持才是最讓大家頭疼的。

如果大家點擊篩選鍵,就可能會注意到許多行業的受訪者都表示他們缺乏數據科學天賦。繼續看下去,就可以看到這些調查對象是如何逐步上手的了,大家可以學到他們的經驗。
新手數據科學家如何才能進入這個領域?
當你開始新的職業生涯時,從別人的成功經驗中學習是很有幫助的。在這次調查中,Kaggle也詢問了在數據科學行業工作的人,問到他們是如何成功進入這個領域的。以下是一些他們認為應該分享的建議:
你會推薦新手數據科學家先學習什么語言?
每個數據科學家都對應該先學什么語言都有自己的看法。事實證明,那些只使用Python或R的人認為自己似乎做出了正確的選擇。但是,如果你詢問同時使用R和Python的人,他們推薦Python的比例是R語言的兩倍。

你用的什么數據科學學習資源?
數據科學是一個快速變化的領域,有很多可以幫助你學習、讓你時刻保持在行業前沿的有價值的資源,這樣你在找工作時競爭力會很顯著。
那些已經在數據科學領域工作的人為了時刻知道最新動態,比正在入行的人使用Stack Overflow問答、會議和播客的頻率更高。
如果你正在制作內容或開源軟件,請記住,正在進入該領域的人更常看的是官方文件和觀看YouTube視頻。

從哪里找到開放數據?
沒有數據就沒有數據科學。當談到學習數據科學的經驗,知道如何找到干凈的公開數據集來用于實踐和項目是非常有價值的。從下圖可以看到,數據集聚合平臺(比如Kaggle數據集)是被數據科學社群的成員使用得最頻繁的工具。

你是怎么找到工作的呢?
當你在找工作的時候,你可能會試圖在公司官網或技術類招聘平臺上找,但是根據數據科學領域工作人員的說法,那是最沒用的方法。為了進入這個領域,你應該試著聯系招聘人員或者建立你自己的關系網。

想要知道更多詳細的信息,可以訪問 https://www.kaggle.com/surveys/2017 了解。
雷鋒網 AI科技評論編輯整理。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。