成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能開發(fā)者 正文
    發(fā)私信給AI研習(xí)社
    發(fā)送

    1

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    本文作者: AI研習(xí)社 編輯:賈智龍 2017-09-18 15:24
    導(dǎo)語:水平怎么樣,一測就知道!

    雷鋒網(wǎng)按:本文由北郵 @愛可可 - 愛生活 老師推薦,阿里云云棲社區(qū)組織翻譯。文章原標(biāo)題《Solutions for Skilltest Machine Learning : Revealed》,作者:Ankit Gupta 等人。

    引言

    人類對于自動化和智能化的追求一直推動著技術(shù)的進步,而機器學(xué)習(xí)這類型的技術(shù)對各個領(lǐng)域都起到了巨大的作用。隨著時間的推移,我們將看到機器學(xué)習(xí)無處不在,從移動個人助理到電子商務(wù)網(wǎng)站的推薦系統(tǒng)。即使作為一個外行,你也不能忽視機器學(xué)習(xí)對你生活的影響。

    本次測試是面向?qū)C器學(xué)習(xí)有一定了解的人。參加測試之后,參與者會對自己的機器學(xué)習(xí)方面知識有更深刻的認知。

    目前,總共有 1793 個參與者參與到了測試中。一個專門為機器學(xué)習(xí)做的測試是很有挑戰(zhàn)性的,我相信你們都已經(jīng)躍躍欲試,所以,請繼續(xù)讀下去。

    那些錯過測試的人,你們錯過了一個極好的檢驗自己的機會。但是,你也可以閱讀本文,看看能否解答下面問題的答案,這樣你也能收獲不少。

    下圖表示的是參與測試人的成績分布,這也許會幫助你評估你的測試成績。

    總體結(jié)果

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    你可以點擊這里來獲取所有得分。我們有超過 600 人參與到了技能測試中,最高分是 28 分,這里還有一些其他統(tǒng)計量。

    平均數(shù) 14.42

    中位數(shù) 16

    眾數(shù) 17

    另外,您的得分可能和通告欄上的不一樣,因為我們移除了有錯誤的問題,并且對每個人都重新打分了。

    機器學(xué)習(xí)參考文獻

    1. Machine Learning basics for a newbie

    2. 16 New Must Watch Tutorials, Courses on Machine Learning

    3. Essentials of Machine Learning Algorithms


    答題開始!

    問題 1

    在 n 維空間中,以下哪一個方法最適用于異常點檢測?

    A. 正態(tài)概率圖

    B. 盒圖

    C.Mahalonobis 距離

    D. 散點圖

    答案:C

    Mahalonobis 距離是基于卡方分布的多變量異常的程度的統(tǒng)計量。更多內(nèi)容點擊此處。


    問題 2

    線性回歸在以下哪些方面和多元回歸不一樣?

    A. 它是專門用來預(yù)測一個事件的概率

    B. 擬合優(yōu)度指數(shù)

    C. 在回歸系數(shù)的估計方面

    D. 以上所有

    答案:D

    A:線性回歸用來解決分類問題,我們可以計算出事件發(fā)生的概率

    B:總體來說,擬合優(yōu)度測試是用來測量數(shù)據(jù)與模型的一致性,我們用邏輯回歸來檢驗?zāi)P蛿M合程度。

    C:擬合邏輯回歸模型之后,我們可以以他們的系數(shù)為目標(biāo),觀察獨立特征之間的關(guān)系(正相關(guān)或負相關(guān))。


    問題 3

    引導(dǎo)數(shù)據(jù)的意義是什么?

    A. 從 M 個總體中有放回的抽樣出 m 個特征

    B. 從 M 個總體中無放回的抽樣出 m 個特征

    C. 從 N 個總體中有放回的抽取 n 個樣本

    D. 從 N 個總體中無有放回的抽取 n 個樣本

    答案:C

    如果我們沒有足夠的數(shù)據(jù)來訓(xùn)練我們的算法,我們就可以從訓(xùn)練集中有放回的隨機重復(fù)一些數(shù)據(jù)項。


    問題 4

    “過擬合只是監(jiān)督學(xué)習(xí)中的問題,對于無監(jiān)督學(xué)習(xí)影響不大” 這句話是正確還是錯誤

    A. 正確

    B. 錯誤

    答案:B

    我們可以使用無監(jiān)督矩陣來評估一個無監(jiān)督機器學(xué)習(xí)算法。舉個例子,我們可以用 “調(diào)整蘭德系數(shù)” 來評估聚類模型。


    問題 5

    關(guān)于選擇 k 層交叉檢驗中 “k” 的值,以下說法正確的是?

    A.k 并不是越大越好,更大的 k 會減慢檢驗結(jié)果的過程

    B. 選擇更大的 k 會導(dǎo)致降低向真實期望錯誤的傾斜

    C. 選擇總是能最小化交叉驗證中的方差的 k

    D. 以上所有

    答案:D

    更大的 k 會減少過高估計了真正的預(yù)期誤差的情況(因為訓(xùn)練層更接近總體數(shù)據(jù)集),但是會帶來更長的運行時間(因為這樣會接近留一交叉的極限情況),當(dāng)選擇 k 的時候,我們也要考慮 k 層精度之間的方差。


    問題 6

    回歸模型具有多重共線性效應(yīng),在不損失太多信息的情況下如何應(yīng)對這種情況?

    1. 去除所有共線變量 1. 去除所有共線變量

    2. 去除一個變量而不是都去掉

    3. 我們可以計算 VIF(方差膨脹因子)來檢驗多重共線性效應(yīng),然后根據(jù)情況處理

    4. 去除相關(guān)的變量可能會導(dǎo)致信息的丟失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。

    以上那些是正確的?

    A. 1

    B. 2

    C. 2 和 3

    D. 2,3 和 4

    答案:D

    為了檢查多重共線性,我們可以創(chuàng)建一個相關(guān)矩陣來識別和刪除具有 75% 相關(guān)性的變量(閾值的選擇是主觀的)。此外,我們使用 VIF(方差膨脹因子)來檢查多重共線性,如果 VIF 小于 4 表示沒有多重共線性,如果大于 10 則表示嚴重的多重共線性。我們也可以使用一個寬容量作為多重共線性的指數(shù)。

    但是,移除相關(guān)變量會導(dǎo)致信息的損失。為了保證數(shù)據(jù)的完整性,我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。我們也可以在變量中增加隨機噪聲,這樣數(shù)據(jù)會變得不一樣。但是這種方法會降低預(yù)測的準(zhǔn)確性,所以要慎用。


    問題 7

    評估完模型后,我們發(fā)現(xiàn)模型中有很高的偏差。我們怎樣來減少這個偏差?

    A. 減少模型中特征的數(shù)量

    B. 增加模型中特征的數(shù)量

    C. 增加模型中的數(shù)據(jù)點

    D.B 和 C

    E. 以上所有

    答案:B

    如果模型偏差大,說明模型相對過于簡單。我們可以在特征空間中增加更多的特征來提高模型的魯棒性。增加數(shù)據(jù)點也會減少方差。


    問題 8

    當(dāng)我們建立基于決策樹的模型時,我們將有最高信息增益的節(jié)點分離出來作為屬性, 在下圖中,哪一個屬性有最高的信息增益?

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    A. Outlook

    B. Humidity

    C. Windy

    D. Temperature

    答案:A

    信息增益隨子集平均純度的增加而增加。要了解信息增益的計算,點這里閱讀。你也可以查看這張幻燈片。


    問題 9

    在決策樹中,當(dāng)一個節(jié)點分叉的時候,以下關(guān)于 “信息增益” 正確的是?

    1. 不純的節(jié)點越少,越需要更多的信息來描述種群

    2. 信息增益可以用熵作為 “1-Entropy” 來推導(dǎo)

    3. 信息增益偏向于數(shù)值大的屬性

    A. 1

    B. 2

    C. 2 和 3

    D. 都正確

    答案:C

    想了解詳情,請閱讀這篇文章和這個幻燈片


    問題 10

    使用 SVM 模型遇到了欠擬合的問題,以下哪個選項能提高模型性能?

    A. 增加懲罰參數(shù) “C”

    B. 減少懲罰參數(shù)

    C. 減少核系數(shù)(gamma 的值)

    答案:A

    如果是欠擬合情況,我們需要增加模型的復(fù)雜性,如果我們增大 C,則意味著決策邊界變復(fù)雜,所以 A 是正確答案。


    問題 11

    假如我們已經(jīng)畫出 SVM 算法中的不同點的 gamma 值(Kernel coefficient)。但由于一些原因,我們沒有在可視化界面中顯示出來。在這種情況下,以下哪個選項最好的解釋了三張圖的 gamma 值關(guān)系(圖中從左向右分別是圖 1,、圖 2、圖 3,對應(yīng)的 gamma 值分別是 g1,、g2、g3)。

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    A. g1 > g2 > g3

    B. g1 = g2 = g3

    C. g1 < g2 < g3

    D. g1 >= g2 >= g3

    E. g1 <= g2 <= g3

    答案:C

    如果 gamma 值高,則會盡全力去擬合數(shù)據(jù)集中的每一條數(shù)據(jù),會帶來過擬合問題。所以最合適的選項是 C。


    問題 12

    我們在解決一個分類問題(二值分類預(yù)測)。然而,我們并不是要得到 0 或 1 的真實結(jié)果,而是要獲取每一個類的概率?,F(xiàn)在假設(shè)我有一個概率模型,并且使用一個 0.5 的閾值來預(yù)測結(jié)果,如果概率大于等于 0.5,則認為是 1,如果小于 0.5,我們則認為是 0。如果我們使用一個比 0.5 高的閾值,一下哪條最合適?

    1. 增加閾值那么分類器會有相同或者更低的查對率

    2. 增加閾值分類器會有更高的查對率

    3. 增加閾值會有相同或者更高的準(zhǔn)確率

    4. 增加閾值會有更低的準(zhǔn)確率

    A. 1

    B. 2

    C. 1 和 3

    D. 2 和 4

    E. 無

    答案:C

    想了解調(diào)整閾值對查對率和準(zhǔn)確率的影響,請參考這篇文章。


    問題 13

    當(dāng)使用比例失調(diào)的數(shù)據(jù)(數(shù)據(jù)集中 99% 的 negative class 和 1% 的 positive class)進行 “點擊率” 預(yù)測的時候,假如我們的準(zhǔn)確率是 99%,那么我們的結(jié)論是?

    準(zhǔn)確率很高,我們不用再做任何工作。

    B. 準(zhǔn)確率不夠好,我們需要嘗試構(gòu)建一個更好的模型

    C. 無法判斷這個模型

    D. 以上都不正確

    答案: B

    當(dāng)使用不平衡數(shù)據(jù)集的時候,準(zhǔn)確率不能作為性能的指標(biāo),因為 99%(正如上文提到的)可能只是預(yù)測多數(shù)類別正確,但是往往重要的是少數(shù)的類(1%)。因此,對于這樣的模型,我們應(yīng)該使用敏感性和特異性來描述分類器的性能。如果占少數(shù)的類別預(yù)測不準(zhǔn)的話,我們需要采取一些必要的措施。更多不平衡分類問題,可以參考這篇文章。


    問題 14

    比方說,我們使用 KNN 訓(xùn)練觀測數(shù)據(jù)較少的模型(以下是訓(xùn)練數(shù)據(jù)的快照,x 和 y 分別表示兩個屬性,“+”“o” 分別表示兩種標(biāo)簽)。已知 k=1,leave one out 交叉驗證的錯誤率會是多少。

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    A. 0%

    B. 100%

    C. 從 0 到 100%

    D. 以上沒有

    答案:B

    在 Leave-One-Out 交叉驗證中,我們選取 n-1 條觀測量作為訓(xùn)練集,1 條觀測量用來驗證。如果把每個點作為交叉驗證點并找到最近的點總會得到相反的類別。所以錯誤率是 100%。


    問題 15

    當(dāng)我們使用大數(shù)據(jù)集進行決策樹訓(xùn)練的時候,一下哪個選項可以用來減少訓(xùn)練時間?

    1. 增加樹的深度

    2. 增加學(xué)習(xí)率

    3. 減少樹的深度

    4. 減少樹的數(shù)量

    A. 2

    B. 1 and 2

    C. 3

    D. 3 和 4

    E. 2 和 3

    F. 2, 3 和 4

    答案:C

    如果決策樹的參數(shù)是固定的話,我們可以考慮以下的選項。

    增加深度會導(dǎo)致所有節(jié)點擴張,因此增加深度會導(dǎo)致時間變長。

    在單一決策樹種,學(xué)習(xí)率是不能作為一個可調(diào)整的參數(shù)的。

    使用決策樹時,我們只會建一顆樹。


    問題 16

    關(guān)于神經(jīng)網(wǎng)絡(luò),一下那種說法是正確的?

    1. 在測試數(shù)據(jù)中增加層數(shù)可能會增加分類錯誤

    2. 在測試數(shù)據(jù)中減少層數(shù)總會減少分類錯誤

    3. 在測試數(shù)據(jù)中增加層數(shù)總會減少分類錯誤

    A.1

    B.1 和 3

    C.1 和 2

    D. 2

    答案:A

    通常來說,增加層數(shù)會讓模型更加一般化,所以它將會在訓(xùn)練集和測試集上都表現(xiàn)更優(yōu)異。但這個不是真理,在這篇文章中,筆者發(fā)現(xiàn)深層的網(wǎng)絡(luò)比淺層的網(wǎng)絡(luò)有更高的錯誤率。所以選項 2 和 3 都是錯誤的,因為這個假設(shè)不總是正確的,而 1 只是說可能是正確的。


    問題 17

    假設(shè)我們使用原始的非線性可分離 SVM 最優(yōu)化目標(biāo)函數(shù),我們做什么可以保證結(jié)果是線性可分的?

    A. C = 1

    B. C = 0

    C. C = 無窮大

    D. 以上沒有正確答案

    答案 C:

    如果我們使用原始的非線性可分離 SVM 最優(yōu)化目標(biāo)函數(shù),我們需要將 C 設(shè)置成無窮大來保證結(jié)果是線性可分的。因此 C 是正確答案。


    問題 18

    訓(xùn)練完 SVM 之后,我們可以丟掉所以不支持向量的樣本而不影響對新的樣本進行分類。

    A. 正確

    B. 錯誤

    答案:A

    這是正確的,因為只有支持向量會影響邊界。


    問題 19

    以下哪些算法可以借助神經(jīng)網(wǎng)絡(luò)來構(gòu)建?

    1.K-NN

    2. 線性回歸

    3. 邏輯回歸

    A.1 和 2

    B.2 和 3

    C.1, 2 和 3

    D. 無

    答案:B

    1.KNN 是一個機遇實例的學(xué)習(xí)方法,它沒有用來訓(xùn)練的參數(shù),所以它不能用神經(jīng)網(wǎng)絡(luò)來構(gòu)建

    2. 神經(jīng)網(wǎng)絡(luò)的最簡單形式就是最小二乘回歸。

    3. 神經(jīng)網(wǎng)絡(luò)和邏輯回歸有關(guān)。主要在于,我們可以把邏輯回歸看成一層神經(jīng)網(wǎng)絡(luò)。


    問題 20

    請選擇可以用來實施隱馬爾可夫模型的數(shù)據(jù)集。

    A. 基因序列數(shù)據(jù)集

    B. 電影評論數(shù)據(jù)集

    C. 股票價格數(shù)據(jù)集

    D. 以上所有

    答案 D:

    以上所有的數(shù)據(jù)集都可以用隱馬爾可夫模型。


    問題 21

    我們想在在一個百萬級的數(shù)據(jù)集上構(gòu)建機器學(xué)習(xí)模型,每條數(shù)據(jù)有 5000 個特征??墒怯?xùn)練這么大量的數(shù)據(jù)集會有很多困難,一下哪些步驟可以有效地訓(xùn)練模型?

    A. 我們可以從數(shù)據(jù)集中隨機選取一些樣本,在樣本上構(gòu)建模型

    B. 我們可以嘗試聯(lián)機機器學(xué)習(xí)算法

    C. 我們可以用主成分分析來減少特征

    D.B 和 C

    E.A 和 B

    F. 以上所有

    答案: F

    在一個內(nèi)存有限的機器上處理高維數(shù)據(jù)是一項非常費力的工作。以下的方法可以用來應(yīng)對這樣的情況。

    我們可以采取隨機采樣的方式,這意味著我們創(chuàng)建一個更小的數(shù)據(jù)集。舉個例子來說,我們可以抽取 300000 條數(shù)據(jù),每條有 1000 個特征然后再進行計算。

    我們可以使用展示在 Vowpal Wabbit 中的聯(lián)機學(xué)習(xí)算法

    我們可以使用主成分析來選取能反映最大方差的部分。

    因此所有的都是正確的。


    問題 22

    我們想減少數(shù)據(jù)的特征,以下哪些做法是合適的?

    1. 使用預(yù)選的方式

    2. 使用向后消除的方式

    3. 首先使用所有特征來計算模型的準(zhǔn)確度。我們選擇一個特征,然后將測試集的該特征的數(shù)值都打亂,然后對打亂過的數(shù)據(jù)集進行預(yù)測。經(jīng)過對預(yù)測模型的分析,如果模型準(zhǔn)確率提高,則刪掉這個屬性

    4. 查找關(guān)聯(lián)性表,關(guān)聯(lián)性高的特征就可以去掉

    A. 1 和 2

    B. 2, 3 和 4

    C. 1, 2 和 4

    D. 以上所有

    答案:D

    l 預(yù)選和向后消除是特征選擇的兩個常用的主要方法。

    l 如果不用上面的兩種方法,我們也可以選擇 3 中所說的方法,這種方法應(yīng)對大數(shù)據(jù)量時非常有效。

    l 我們也可以使用基于特征選擇的關(guān)聯(lián)分析,然后去除共線性特征。


    問題 23

    關(guān)于隨機森林和梯度提升樹,請選擇正確的選項。

    1. 在隨機森林中,中間樹互相不獨立,而在梯度回歸樹中,中間樹相互獨立。

    2. 他們都使用隨機特征子集來構(gòu)建中間樹。

    3. 在梯度提升樹的情況下我們可以生成并行樹,因為樹互相獨立。

    4. 梯度提升樹在任何數(shù)據(jù)集上都比隨機森林要好。

    A. 2

    B. 1 和 2

    C. 1, 3 和 4

    D. 2 和 4

    答案 A:

    1. 隨機森林是基于 bagging 而梯度提升是基于 boosting

    2. 這兩種算法都使用隨機特征子集來構(gòu)建中間樹

    3. 由于隨機森林的中間樹互相獨立,因此算法可以并行,而梯度提升樹則不可能。

    4. 這個不是絕對的,不同數(shù)據(jù)結(jié)果不同。


    問題 24

    對于主成分析轉(zhuǎn)換的特征,樸素貝葉斯的基本假設(shè)是成立的,因為主成都是正交的,因此是無關(guān)的。這句話正確么?

    A. 正確

    B. 錯誤

    答案:B

    這句話是錯誤的。首先,不相關(guān)不等同于獨立。第二,轉(zhuǎn)換過的特征也不一定是不相關(guān)的。


    問題 25

    以下關(guān)于主成分析哪些是正確的?

    1. 在 PCA 前必須將數(shù)據(jù)標(biāo)準(zhǔn)化

    2. 我們應(yīng)該選擇說明最高方差的主成分

    3. 我們應(yīng)該選擇說明最低方差的主成分

    4. 我們可以用 PCA 來可視化低維數(shù)據(jù)

    A. 1, 2 和 4

    B. 2 和 4

    C. 3 和 4

    D. 1 和 3

    E. 1, 3 和 4

    答案: A

    lPCA 對數(shù)據(jù)中變量的大小是敏感的,所以在 PCA 之前必須要對數(shù)據(jù)進行標(biāo)準(zhǔn)化。舉個例子,如果我們將一個變量的單位從 km 改成 cm,該變量可能會從影響很小一躍成為主成分。

    l 第二條是正確的,因為我們總是選擇最大方差的主成分。

    l 有時候用低維來畫出數(shù)據(jù)是十分有效地。我們可以選擇前二的主成分,然后用散點圖來描繪數(shù)據(jù)。


    問題 26

    在下圖中的主成分的最佳數(shù)目是多少?

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    A. 7

    B. 30

    C. 35

    D. 不確定

    答案:B

    在上圖中,成分數(shù)為 30 時候就達到了最大的方差,所以選擇 B


    問題 27

    數(shù)據(jù)科學(xué)家經(jīng)常使用混合算法來做預(yù)測,然后將混合算法的結(jié)果合并(也叫集成學(xué)習(xí))。這些混合算法的輸出更加健壯且具有一般性,而且比任何一種單一模型都要準(zhǔn)確。以下哪些選項是正確的?

    A. 基礎(chǔ)模型有更高的相關(guān)性

    B. 基礎(chǔ)模型有更低的相關(guān)性

    C. 使用平均加權(quán)而不是投票的方式來集成

    D. 基礎(chǔ)模型源自相同的算法

    答案 B:

    請參閱下面的集成指南來了解細節(jié)

    Basics of Ensemble Learning Explained in Simple English

    Kaggle Ensemble Guide

    Easy questions on Ensemble Modeling everyone should know


    問題 28

    我們?nèi)绾卧诒O(jiān)督的機器學(xué)習(xí)挑戰(zhàn)使用聚類方法?

    1. 我們可以先創(chuàng)建簇,然后在不同簇中分別使用監(jiān)督機器學(xué)習(xí)算法。

    2. 我們在使用監(jiān)督機器學(xué)習(xí)算法之前可以把簇的 id 作為特征空間中額外的特征。

    3. 我們無法在使用監(jiān)督機器學(xué)習(xí)算法之前創(chuàng)建簇。

    4. 我們在使用監(jiān)督機器學(xué)習(xí)算法之前不能把簇的 id 作為特征空間中額外的特征。

    A. 2 和 4

    B. 1 和 2

    C. 3 和 4

    D. 1 和 3

    答案:B

    l 我們可以在不同的簇中使用不同的機器學(xué)習(xí)模型,這樣一來,預(yù)測的準(zhǔn)確性可能會提高。

    l 增加簇的 id 可以提高預(yù)測的準(zhǔn)確性,因為 id 是對數(shù)據(jù)很好的概括。

    因此 B 是正確的。


    問題 29

    以下的說法哪些是正確的?

    1. 一個機器學(xué)習(xí)模型如果能得到很高的 準(zhǔn)確率,則說明這是個好的分類器。

    2. 如果增加一個模型的復(fù)雜度,測試錯誤總會增加。

    3. 如果增加一個模型的復(fù)雜度,訓(xùn)練錯誤總會增加。

    A. 1

    B. 2

    C. 3

    D. 1 和 3

    答案 C:

    當(dāng)類不平衡的時候,準(zhǔn)確率不是一個很好的評價指標(biāo)。而 precision 和 recall 是最好的評價方式。

    增加一個模型的復(fù)雜度可能會導(dǎo)致過擬合。而過擬合會引起訓(xùn)練錯誤的減少和測試錯誤的增加。


    問題 30

    以下有關(guān)于梯度回歸樹算法的說法正確的是?

    當(dāng)我們增加用于分割的最小樣本數(shù)時,我們總是試圖得到不會過擬合數(shù)據(jù)的算法。

    當(dāng)我們增加用于分割的最小樣本數(shù)時, 數(shù)據(jù)會過擬合。

    當(dāng)我們減少用于擬合各個基本學(xué)習(xí)者的樣本的分數(shù)時,我們總是希望減少方差。

    當(dāng)我們減少用于擬合各個基本學(xué)習(xí)者的樣本的分數(shù)時,我們總是希望減少偏差。

    A. 2 和 4

    B. 2 和 3

    C. 1 和 3

    D. 1 和 4

    答案: C

    最小化樣本的數(shù)量,在分裂節(jié)點的地方用于控制過擬合, 太高的數(shù)值會導(dǎo)致欠擬合因此應(yīng)該用 CV 來進行調(diào)整.

    每棵樹選擇觀測值的分數(shù)是通過隨機采樣的方式來做的。如果數(shù)值比 1 小一點點則會使模型健壯,而且方差也會減小。典型的數(shù)值是 0.8,當(dāng)然,也要根據(jù)實際情況微調(diào)。

    問題 31

    以下哪個是 KNN 算法的決策邊界?(下圖從左到右分別是 A,B,C,D)

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    A) B

    B) A

    C) D

    D) C

    E) 不確定

    答案:B

    KNN 算法的原理是為觀測變量尋找 K 個最近鄰居,將鄰居中的多數(shù)的標(biāo)簽賦給觀測變量。所以決策邊界不會是線性的。因此,選擇 B。


    問題 32

    如果一個機器學(xué)習(xí)模型在測試集上獲得的 100% 的準(zhǔn)確性,是否意味著在新的測試集上也能獲得 100% 的準(zhǔn)確性。

    A. 是的,因為這個模型足夠一般,可以適用于所有類型的數(shù)據(jù)

    B. 不是,仍然有模型不能控制的因素,比如噪聲。

    答案:B

    答案選擇 B,因為實際數(shù)據(jù)不可能沒有噪聲,所以不可能得到 100% 的準(zhǔn)確性。


    問題 33

    以下是交叉驗證的常見方法:

    i. Bootstrap with replacement.

    ii. Leave one out cross validation.

    iii. 5 Fold cross validation.

    iv. 2 repeats of 5 Fold cross validation

    如果樣本的數(shù)量是 1000,那么這這四種方法執(zhí)行時間的排序是?

    A. i > ii > iii > iv

    B. ii > iv > iii > i

    C. iv > i > ii > iii

    D. ii > iii > iv > i

    答案:B

    Bootstrapping 是一個統(tǒng)計的技術(shù),屬于廣泛的重采樣的范疇,所以只有 1 個驗證集使用了隨機采樣。

    Leave-One-Out cross validation 的時間最長,因為我們要 n 次訓(xùn)練模型(n 是觀測值的數(shù)量)

    5 Fold cross validation 會訓(xùn)練五個模型,而訓(xùn)練時間和觀測值數(shù)量無關(guān)。

    2 repeats of 5 Fold cross validation 則是訓(xùn)練 10 個模型。

    因此答案選擇 B。


    問題 34

    已取消


    問題 35

    變量選擇旨在選擇預(yù)測變量的 “最佳” 子集。當(dāng)我們選擇變量的時候,考慮到系統(tǒng)的性能,我們需要注意些什么?

    1. 類似的多個變量

    2. 模型的可解釋性

    3. 特征信息

    4. 交叉檢驗

    A. 1 和 4

    B. 1, 2 和 3

    C. 1,3 和 4

    D. 以上所有

    答案:C

    如果幾個變量具有很高的 xiang s,則會展現(xiàn)出共線性。

    相對于模型的性能,我們不需要關(guān)注模型的可解釋性。

    如果特征有很高的信息,則會為模型帶來價值。

    我們需要使用交叉檢驗來驗證模型的普遍性。

    因此 C 是正確答案。


    問題 36

    線性回歸模型中的其他變量下列哪些語句是正確的關(guān)于?

    1.R-Squared 和 Adjusted R-squared 都會增長

    2.R-Squared 是常數(shù),Adjusted R-squared 會增長

    3.R-Squared 和 Adjusted R-squared 都會減少 4.R-Squared 減少而 Adjusted R-squared 增長

    A. 1 和 2

    B. 1 和 3

    C. 2 和 4

    D. 以上沒有正確的

    答案: D

    R-squared 不能確定系數(shù)估計和預(yù)測是否有偏差,這就是為什么我們要評估殘差圖。 Adjusted R-squared 是 R-squared 的增強版,該方法調(diào)整了模型中預(yù)測器的數(shù)量. 如果有新方法將模型改進的幾率大于預(yù)期時,Adjusted R-squared 會增加。 當(dāng)預(yù)測變量將模型改進的幾率小于預(yù)期時,它減少。

    但是 R-squared 比 adjusted R-squared 有更多的問題,因此 predicted R-squared 被提出。

    如果為模型增加一個預(yù)測器,則 R-squared 會保持不變或者增加。


    想討論更多,請點擊這里


    問題 37

    下圖我們畫出了在同一個數(shù)據(jù)集上解決回歸問題的三種不同模型,從下圖中我們可以總結(jié)出什么?

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    1. 和其他的相比,第一張圖的訓(xùn)練錯誤最大。

    2. 最后一個是最好的模型,因為在第三張圖有最小的訓(xùn)練錯誤。

    3. 第二個模型比第一個和第三個更健壯,因為它能更好的處理不可預(yù)見的數(shù)據(jù)。

    4. 第三個模型和前兩個相比屬于過擬合。

    5. 所有模型的性能都一樣,因為我們還沒有看到測試集。

    A. 1 和 3

    B. 1 和 4

    C. 1, 3 和 4

    D. 5

    答案:C

    對于自變量 X 來說,圖中數(shù)據(jù)的趨勢像一個多項式函數(shù)。最右邊圖中的多項式形式更復(fù)雜,準(zhǔn)確率也最高,但是對于測試集則會表現(xiàn)不佳。而最左邊的圖很明顯屬于欠擬合的情況。


    問題 38

    在應(yīng)用線性回歸時我們需要遵循哪些假設(shè)?

    1. 由于線性回歸對于異常值很敏感,所以檢查異常值是十分重要的。

    2. 線性回歸要求所有變量都遵循正態(tài)分布。

    3. 線性回歸假設(shè)數(shù)據(jù)中很少或不存在多重共線性。

    A. 1 和 2

    B. 2 和 3

    C. 1,2 和 3

    D. 以上所有

    答案:D

    l 異常值是數(shù)據(jù)中對最終回歸線的斜率影響最高的點。所以在回歸分析中去除離群值總是很重要的。

    l 了解自變量的分布是非常必要的。自變量的正負偏態(tài)分布可以影響模型的性能,并將高度偏態(tài)的自變量轉(zhuǎn)換正態(tài)將改進模型性能

    l 當(dāng)模型包含彼此相關(guān)的多個要素時,會出現(xiàn)多重共線性。換句話說就是有多余因素線性回歸假設(shè)在數(shù)據(jù)中應(yīng)該有很少冗余或者盡可能沒有。


    問題 39

    當(dāng)建立線性模型的時候,我們會關(guān)注數(shù)據(jù)之間的關(guān)聯(lián)。假如我們在關(guān)聯(lián)矩陣中找到了三對數(shù)據(jù) (Var1 和 Var2 , Var2 和 Var3 , Var3 和 Var1) 的關(guān)聯(lián)分別是 -0.98, 0.45 and 1.23。那么從這些信息中我們可以推斷出什么?

    1.Var1 和 Var2 具有很高的關(guān)聯(lián)性。

    2.Var1 和 Var2 有很高的關(guān)聯(lián)度,所以它們具有多重共線性。所以我們要將 Var1 或者 Var2 移除出我們的模型。

    3.Var3 和 Var1 之間的關(guān)聯(lián)值是 1.23 是不可能的。

    A. 1 和 3

    B. 1 和 2

    C. 1,2 和 3

    D. 1

    答案: C

    lVar1 和 Var2 的關(guān)聯(lián)值很高,所以是具有多重共線性的,因此我們可以從中去除一個。

    l 一般來說,關(guān)聯(lián)系數(shù)高于 0.7 的說明數(shù)據(jù)具有多重共線性。

    l 第 3 個是不可能的,關(guān)聯(lián)系數(shù)一定會在 - 1 和 1 之間。


    問題 40

    如果獨立和不獨立的變量之間有很高的非線性且復(fù)雜的關(guān)系,那么一個樹模型將會比一般的經(jīng)典回歸有更好的效果。這個說法正確么?

    A. 正確

    B. 錯誤

    答案:A

    如果數(shù)據(jù)是非線性的,回歸模型就很難處理。而樹模型則會展現(xiàn)出很好的效果。

    結(jié)束語

    我希望您能喜歡本次測驗,您也會發(fā)現(xiàn)答案的解釋很有用。這次測試主要是集中了人們在日常使用機器學(xué)習(xí)過程中遇到的困難。

    我們努力減少文章中的錯誤,但是由于筆者水平有限,可能文章中會有問題,所以如果您發(fā)現(xiàn)了,請在下面留言。當(dāng)然,如果您有改進意見,也歡迎在下面留言。

    我們將陸續(xù)推出更多的技能測試,請關(guān)注我們的更新。

    如果您想測驗?zāi)闹R和技能,請登錄 Live Competitions,和全世界的數(shù)據(jù)科學(xué)家 pk!

    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

    想知道機器學(xué)習(xí)掌握的怎么樣了嗎?這有一份自測題(附答案和解析)

    分享:
    相關(guān)文章

    編輯

    聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說