想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

本文作者： AI研習(xí)社

編輯：賈智龍

2017-09-18 15:24

導(dǎo)語：水平怎么樣，一測就知道！

雷鋒網(wǎng)按：本文由北郵 @愛可可 - 愛生活老師推薦，阿里云云棲社區(qū)組織翻譯。文章原標(biāo)題《Solutions for Skilltest Machine Learning : Revealed》，作者：Ankit Gupta 等人。

引言

人類對于自動化和智能化的追求一直推動著技術(shù)的進步，而機器學(xué)習(xí)這類型的技術(shù)對各個領(lǐng)域都起到了巨大的作用。隨著時間的推移，我們將看到機器學(xué)習(xí)無處不在，從移動個人助理到電子商務(wù)網(wǎng)站的推薦系統(tǒng)。即使作為一個外行，你也不能忽視機器學(xué)習(xí)對你生活的影響。

本次測試是面向?qū)C器學(xué)習(xí)有一定了解的人。參加測試之后，參與者會對自己的機器學(xué)習(xí)方面知識有更深刻的認知。

目前，總共有 1793 個參與者參與到了測試中。一個專門為機器學(xué)習(xí)做的測試是很有挑戰(zhàn)性的，我相信你們都已經(jīng)躍躍欲試，所以，請繼續(xù)讀下去。

那些錯過測試的人，你們錯過了一個極好的檢驗自己的機會。但是，你也可以閱讀本文，看看能否解答下面問題的答案，這樣你也能收獲不少。

下圖表示的是參與測試人的成績分布，這也許會幫助你評估你的測試成績。

總體結(jié)果

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

你可以點擊這里來獲取所有得分。我們有超過 600 人參與到了技能測試中，最高分是 28 分，這里還有一些其他統(tǒng)計量。

平均數(shù) 14.42

中位數(shù) 16

眾數(shù) 17

另外，您的得分可能和通告欄上的不一樣，因為我們移除了有錯誤的問題，并且對每個人都重新打分了。

機器學(xué)習(xí)參考文獻

Machine Learning basics for a newbie
16 New Must Watch Tutorials, Courses on Machine Learning
Essentials of Machine Learning Algorithms

答題開始！

問題 1

在 n 維空間中，以下哪一個方法最適用于異常點檢測？

A. 正態(tài)概率圖

B. 盒圖

C.Mahalonobis 距離

D. 散點圖

答案：C

Mahalonobis 距離是基于卡方分布的多變量異常的程度的統(tǒng)計量。更多內(nèi)容點擊此處。

問題 2

線性回歸在以下哪些方面和多元回歸不一樣？

A. 它是專門用來預(yù)測一個事件的概率

B. 擬合優(yōu)度指數(shù)

C. 在回歸系數(shù)的估計方面

D. 以上所有

答案：D

A：線性回歸用來解決分類問題，我們可以計算出事件發(fā)生的概率

B：總體來說，擬合優(yōu)度測試是用來測量數(shù)據(jù)與模型的一致性，我們用邏輯回歸來檢驗?zāi)Ｐ蛿M合程度。

C：擬合邏輯回歸模型之后，我們可以以他們的系數(shù)為目標(biāo)，觀察獨立特征之間的關(guān)系（正相關(guān)或負相關(guān)）。

問題 3

引導(dǎo)數(shù)據(jù)的意義是什么？

A. 從 M 個總體中有放回的抽樣出 m 個特征

B. 從 M 個總體中無放回的抽樣出 m 個特征

C. 從 N 個總體中有放回的抽取 n 個樣本

D. 從 N 個總體中無有放回的抽取 n 個樣本

答案：C

如果我們沒有足夠的數(shù)據(jù)來訓(xùn)練我們的算法，我們就可以從訓(xùn)練集中有放回的隨機重復(fù)一些數(shù)據(jù)項。

問題 4

“過擬合只是監(jiān)督學(xué)習(xí)中的問題，對于無監(jiān)督學(xué)習(xí)影響不大” 這句話是正確還是錯誤

A. 正確

B. 錯誤

答案：B

我們可以使用無監(jiān)督矩陣來評估一個無監(jiān)督機器學(xué)習(xí)算法。舉個例子，我們可以用 “調(diào)整蘭德系數(shù)” 來評估聚類模型。

問題 5

關(guān)于選擇 k 層交叉檢驗中 “k” 的值，以下說法正確的是？

A.k 并不是越大越好，更大的 k 會減慢檢驗結(jié)果的過程

B. 選擇更大的 k 會導(dǎo)致降低向真實期望錯誤的傾斜

C. 選擇總是能最小化交叉驗證中的方差的 k

D. 以上所有

答案：D

更大的 k 會減少過高估計了真正的預(yù)期誤差的情況（因為訓(xùn)練層更接近總體數(shù)據(jù)集），但是會帶來更長的運行時間（因為這樣會接近留一交叉的極限情況），當(dāng)選擇 k 的時候，我們也要考慮 k 層精度之間的方差。

問題 6

回歸模型具有多重共線性效應(yīng)，在不損失太多信息的情況下如何應(yīng)對這種情況？

1. 去除所有共線變量 1. 去除所有共線變量

2. 去除一個變量而不是都去掉

3. 我們可以計算 VIF（方差膨脹因子）來檢驗多重共線性效應(yīng)，然后根據(jù)情況處理

4. 去除相關(guān)的變量可能會導(dǎo)致信息的丟失。為了保證數(shù)據(jù)的完整性，我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。

以上那些是正確的？

A. 1

B. 2

C. 2 和 3

D. 2,3 和 4

答案：D

為了檢查多重共線性，我們可以創(chuàng)建一個相關(guān)矩陣來識別和刪除具有 75% 相關(guān)性的變量（閾值的選擇是主觀的）。此外，我們使用 VIF（方差膨脹因子）來檢查多重共線性，如果 VIF 小于 4 表示沒有多重共線性，如果大于 10 則表示嚴重的多重共線性。我們也可以使用一個寬容量作為多重共線性的指數(shù)。

但是，移除相關(guān)變量會導(dǎo)致信息的損失。為了保證數(shù)據(jù)的完整性，我們應(yīng)該選取比如嶺回歸和套索回歸等懲罰回歸模型。我們也可以在變量中增加隨機噪聲，這樣數(shù)據(jù)會變得不一樣。但是這種方法會降低預(yù)測的準(zhǔn)確性，所以要慎用。

問題 7

評估完模型后，我們發(fā)現(xiàn)模型中有很高的偏差。我們怎樣來減少這個偏差？

A. 減少模型中特征的數(shù)量

B. 增加模型中特征的數(shù)量

C. 增加模型中的數(shù)據(jù)點

D.B 和 C

E. 以上所有

答案：B

如果模型偏差大，說明模型相對過于簡單。我們可以在特征空間中增加更多的特征來提高模型的魯棒性。增加數(shù)據(jù)點也會減少方差。

問題 8

當(dāng)我們建立基于決策樹的模型時，我們將有最高信息增益的節(jié)點分離出來作為屬性，在下圖中，哪一個屬性有最高的信息增益？

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

A. Outlook

B. Humidity

C. Windy

D. Temperature

答案：A

信息增益隨子集平均純度的增加而增加。要了解信息增益的計算，點這里閱讀。你也可以查看這張幻燈片。

問題 9

在決策樹中，當(dāng)一個節(jié)點分叉的時候，以下關(guān)于 “信息增益” 正確的是？

1. 不純的節(jié)點越少，越需要更多的信息來描述種群

2. 信息增益可以用熵作為 “1-Entropy” 來推導(dǎo)

3. 信息增益偏向于數(shù)值大的屬性

A. 1

B. 2

C. 2 和 3

D. 都正確

答案：C

想了解詳情，請閱讀這篇文章和這個幻燈片。

問題 10

使用 SVM 模型遇到了欠擬合的問題，以下哪個選項能提高模型性能？

A. 增加懲罰參數(shù) “C”

B. 減少懲罰參數(shù)

C. 減少核系數(shù)（gamma 的值）

答案：A

如果是欠擬合情況，我們需要增加模型的復(fù)雜性，如果我們增大 C，則意味著決策邊界變復(fù)雜，所以 A 是正確答案。

問題 11

假如我們已經(jīng)畫出 SVM 算法中的不同點的 gamma 值（Kernel coefficient）。但由于一些原因，我們沒有在可視化界面中顯示出來。在這種情況下，以下哪個選項最好的解釋了三張圖的 gamma 值關(guān)系（圖中從左向右分別是圖 1,、圖 2、圖 3，對應(yīng)的 gamma 值分別是 g1,、g2、g3）。

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案：C

如果 gamma 值高，則會盡全力去擬合數(shù)據(jù)集中的每一條數(shù)據(jù)，會帶來過擬合問題。所以最合適的選項是 C。

問題 12

我們在解決一個分類問題（二值分類預(yù)測）。然而，我們并不是要得到 0 或 1 的真實結(jié)果，而是要獲取每一個類的概率?，F(xiàn)在假設(shè)我有一個概率模型，并且使用一個 0.5 的閾值來預(yù)測結(jié)果，如果概率大于等于 0.5，則認為是 1，如果小于 0.5，我們則認為是 0。如果我們使用一個比 0.5 高的閾值，一下哪條最合適？

1. 增加閾值那么分類器會有相同或者更低的查對率

2. 增加閾值分類器會有更高的查對率

3. 增加閾值會有相同或者更高的準(zhǔn)確率

4. 增加閾值會有更低的準(zhǔn)確率

A. 1

B. 2

C. 1 和 3

D. 2 和 4

E. 無

答案：C

想了解調(diào)整閾值對查對率和準(zhǔn)確率的影響，請參考這篇文章。

問題 13

當(dāng)使用比例失調(diào)的數(shù)據(jù)（數(shù)據(jù)集中 99% 的 negative class 和 1% 的 positive class）進行 “點擊率” 預(yù)測的時候，假如我們的準(zhǔn)確率是 99%，那么我們的結(jié)論是？

準(zhǔn)確率很高，我們不用再做任何工作。

B. 準(zhǔn)確率不夠好，我們需要嘗試構(gòu)建一個更好的模型

C. 無法判斷這個模型

D. 以上都不正確

答案: B

當(dāng)使用不平衡數(shù)據(jù)集的時候，準(zhǔn)確率不能作為性能的指標(biāo)，因為 99%（正如上文提到的）可能只是預(yù)測多數(shù)類別正確，但是往往重要的是少數(shù)的類（1%）。因此，對于這樣的模型，我們應(yīng)該使用敏感性和特異性來描述分類器的性能。如果占少數(shù)的類別預(yù)測不準(zhǔn)的話，我們需要采取一些必要的措施。更多不平衡分類問題，可以參考這篇文章。

問題 14

比方說，我們使用 KNN 訓(xùn)練觀測數(shù)據(jù)較少的模型（以下是訓(xùn)練數(shù)據(jù)的快照，x 和 y 分別表示兩個屬性，“＋”“o” 分別表示兩種標(biāo)簽）。已知 k=1，leave one out 交叉驗證的錯誤率會是多少。

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

A. 0%

B. 100%

C. 從 0 到 100%

D. 以上沒有

答案：B

在 Leave-One-Out 交叉驗證中，我們選取 n-1 條觀測量作為訓(xùn)練集，1 條觀測量用來驗證。如果把每個點作為交叉驗證點并找到最近的點總會得到相反的類別。所以錯誤率是 100%。

問題 15

當(dāng)我們使用大數(shù)據(jù)集進行決策樹訓(xùn)練的時候，一下哪個選項可以用來減少訓(xùn)練時間？

1. 增加樹的深度

2. 增加學(xué)習(xí)率

3. 減少樹的深度

4. 減少樹的數(shù)量

A. 2

B. 1 and 2

C. 3

D. 3 和 4

E. 2 和 3

F. 2, 3 和 4

答案：C

如果決策樹的參數(shù)是固定的話，我們可以考慮以下的選項。

增加深度會導(dǎo)致所有節(jié)點擴張，因此增加深度會導(dǎo)致時間變長。

在單一決策樹種，學(xué)習(xí)率是不能作為一個可調(diào)整的參數(shù)的。

使用決策樹時，我們只會建一顆樹。

問題 16

關(guān)于神經(jīng)網(wǎng)絡(luò)，一下那種說法是正確的？

1. 在測試數(shù)據(jù)中增加層數(shù)可能會增加分類錯誤

2. 在測試數(shù)據(jù)中減少層數(shù)總會減少分類錯誤

3. 在測試數(shù)據(jù)中增加層數(shù)總會減少分類錯誤

A.1

B.1 和 3

C.1 和 2

D. 2

答案：A

通常來說，增加層數(shù)會讓模型更加一般化，所以它將會在訓(xùn)練集和測試集上都表現(xiàn)更優(yōu)異。但這個不是真理，在這篇文章中，筆者發(fā)現(xiàn)深層的網(wǎng)絡(luò)比淺層的網(wǎng)絡(luò)有更高的錯誤率。所以選項 2 和 3 都是錯誤的，因為這個假設(shè)不總是正確的，而 1 只是說可能是正確的。

問題 17

假設(shè)我們使用原始的非線性可分離 SVM 最優(yōu)化目標(biāo)函數(shù)，我們做什么可以保證結(jié)果是線性可分的？

A. C = 1

B. C = 0

C. C = 無窮大

D. 以上沒有正確答案

答案 C：

如果我們使用原始的非線性可分離 SVM 最優(yōu)化目標(biāo)函數(shù)，我們需要將 C 設(shè)置成無窮大來保證結(jié)果是線性可分的。因此 C 是正確答案。

問題 18

訓(xùn)練完 SVM 之后，我們可以丟掉所以不支持向量的樣本而不影響對新的樣本進行分類。

A. 正確

B. 錯誤

答案：A

這是正確的，因為只有支持向量會影響邊界。

問題 19

以下哪些算法可以借助神經(jīng)網(wǎng)絡(luò)來構(gòu)建？

1.K-NN

2. 線性回歸

3. 邏輯回歸

A.1 和 2

B.2 和 3

C.1, 2 和 3

D. 無

答案：B

1.KNN 是一個機遇實例的學(xué)習(xí)方法，它沒有用來訓(xùn)練的參數(shù)，所以它不能用神經(jīng)網(wǎng)絡(luò)來構(gòu)建

2. 神經(jīng)網(wǎng)絡(luò)的最簡單形式就是最小二乘回歸。

3. 神經(jīng)網(wǎng)絡(luò)和邏輯回歸有關(guān)。主要在于，我們可以把邏輯回歸看成一層神經(jīng)網(wǎng)絡(luò)。

問題 20

請選擇可以用來實施隱馬爾可夫模型的數(shù)據(jù)集。

A. 基因序列數(shù)據(jù)集

B. 電影評論數(shù)據(jù)集

C. 股票價格數(shù)據(jù)集

D. 以上所有

答案 D：

以上所有的數(shù)據(jù)集都可以用隱馬爾可夫模型。

問題 21

我們想在在一個百萬級的數(shù)據(jù)集上構(gòu)建機器學(xué)習(xí)模型，每條數(shù)據(jù)有 5000 個特征?？墒怯?xùn)練這么大量的數(shù)據(jù)集會有很多困難，一下哪些步驟可以有效地訓(xùn)練模型？

A. 我們可以從數(shù)據(jù)集中隨機選取一些樣本，在樣本上構(gòu)建模型

B. 我們可以嘗試聯(lián)機機器學(xué)習(xí)算法

C. 我們可以用主成分分析來減少特征

D.B 和 C

E.A 和 B

F. 以上所有

答案: F

在一個內(nèi)存有限的機器上處理高維數(shù)據(jù)是一項非常費力的工作。以下的方法可以用來應(yīng)對這樣的情況。

我們可以采取隨機采樣的方式，這意味著我們創(chuàng)建一個更小的數(shù)據(jù)集。舉個例子來說，我們可以抽取 300000 條數(shù)據(jù)，每條有 1000 個特征然后再進行計算。

我們可以使用展示在 Vowpal Wabbit 中的聯(lián)機學(xué)習(xí)算法

我們可以使用主成分析來選取能反映最大方差的部分。

因此所有的都是正確的。

問題 22

我們想減少數(shù)據(jù)的特征，以下哪些做法是合適的？

1. 使用預(yù)選的方式

2. 使用向后消除的方式

3. 首先使用所有特征來計算模型的準(zhǔn)確度。我們選擇一個特征，然后將測試集的該特征的數(shù)值都打亂，然后對打亂過的數(shù)據(jù)集進行預(yù)測。經(jīng)過對預(yù)測模型的分析，如果模型準(zhǔn)確率提高，則刪掉這個屬性

4. 查找關(guān)聯(lián)性表，關(guān)聯(lián)性高的特征就可以去掉

A. 1 和 2

B. 2, 3 和 4

C. 1, 2 和 4

D. 以上所有

答案：D

l 預(yù)選和向后消除是特征選擇的兩個常用的主要方法。

l 如果不用上面的兩種方法，我們也可以選擇 3 中所說的方法，這種方法應(yīng)對大數(shù)據(jù)量時非常有效。

l 我們也可以使用基于特征選擇的關(guān)聯(lián)分析，然后去除共線性特征。

問題 23

關(guān)于隨機森林和梯度提升樹，請選擇正確的選項。

1. 在隨機森林中，中間樹互相不獨立，而在梯度回歸樹中，中間樹相互獨立。

2. 他們都使用隨機特征子集來構(gòu)建中間樹。

3. 在梯度提升樹的情況下我們可以生成并行樹，因為樹互相獨立。

4. 梯度提升樹在任何數(shù)據(jù)集上都比隨機森林要好。

A. 2

B. 1 和 2

C. 1, 3 和 4

D. 2 和 4

答案 A：

1. 隨機森林是基于 bagging 而梯度提升是基于 boosting

2. 這兩種算法都使用隨機特征子集來構(gòu)建中間樹

3. 由于隨機森林的中間樹互相獨立，因此算法可以并行，而梯度提升樹則不可能。

4. 這個不是絕對的，不同數(shù)據(jù)結(jié)果不同。

問題 24

對于主成分析轉(zhuǎn)換的特征，樸素貝葉斯的基本假設(shè)是成立的，因為主成都是正交的，因此是無關(guān)的。這句話正確么？

A. 正確

B. 錯誤

答案：B

這句話是錯誤的。首先，不相關(guān)不等同于獨立。第二，轉(zhuǎn)換過的特征也不一定是不相關(guān)的。

問題 25

以下關(guān)于主成分析哪些是正確的？

1. 在 PCA 前必須將數(shù)據(jù)標(biāo)準(zhǔn)化

2. 我們應(yīng)該選擇說明最高方差的主成分

3. 我們應(yīng)該選擇說明最低方差的主成分

4. 我們可以用 PCA 來可視化低維數(shù)據(jù)

A. 1, 2 和 4

B. 2 和 4

C. 3 和 4

D. 1 和 3

E. 1, 3 和 4

答案: A

lPCA 對數(shù)據(jù)中變量的大小是敏感的，所以在 PCA 之前必須要對數(shù)據(jù)進行標(biāo)準(zhǔn)化。舉個例子，如果我們將一個變量的單位從 km 改成 cm，該變量可能會從影響很小一躍成為主成分。

l 第二條是正確的，因為我們總是選擇最大方差的主成分。

l 有時候用低維來畫出數(shù)據(jù)是十分有效地。我們可以選擇前二的主成分，然后用散點圖來描繪數(shù)據(jù)。

問題 26

在下圖中的主成分的最佳數(shù)目是多少？

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

A. 7

B. 30

C. 35

D. 不確定

答案：B

在上圖中，成分數(shù)為 30 時候就達到了最大的方差，所以選擇 B

問題 27

數(shù)據(jù)科學(xué)家經(jīng)常使用混合算法來做預(yù)測，然后將混合算法的結(jié)果合并（也叫集成學(xué)習(xí)）。這些混合算法的輸出更加健壯且具有一般性，而且比任何一種單一模型都要準(zhǔn)確。以下哪些選項是正確的？

A. 基礎(chǔ)模型有更高的相關(guān)性

B. 基礎(chǔ)模型有更低的相關(guān)性

C. 使用平均加權(quán)而不是投票的方式來集成

D. 基礎(chǔ)模型源自相同的算法

答案 B：

請參閱下面的集成指南來了解細節(jié)

Basics of Ensemble Learning Explained in Simple English

Kaggle Ensemble Guide

Easy questions on Ensemble Modeling everyone should know

問題 28

我們?nèi)绾卧诒O(jiān)督的機器學(xué)習(xí)挑戰(zhàn)使用聚類方法？

1. 我們可以先創(chuàng)建簇，然后在不同簇中分別使用監(jiān)督機器學(xué)習(xí)算法。

2. 我們在使用監(jiān)督機器學(xué)習(xí)算法之前可以把簇的 id 作為特征空間中額外的特征。

3. 我們無法在使用監(jiān)督機器學(xué)習(xí)算法之前創(chuàng)建簇。

4. 我們在使用監(jiān)督機器學(xué)習(xí)算法之前不能把簇的 id 作為特征空間中額外的特征。

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

答案：B

l 我們可以在不同的簇中使用不同的機器學(xué)習(xí)模型，這樣一來，預(yù)測的準(zhǔn)確性可能會提高。

l 增加簇的 id 可以提高預(yù)測的準(zhǔn)確性，因為 id 是對數(shù)據(jù)很好的概括。

因此 B 是正確的。

問題 29

以下的說法哪些是正確的？

1. 一個機器學(xué)習(xí)模型如果能得到很高的準(zhǔn)確率，則說明這是個好的分類器。

2. 如果增加一個模型的復(fù)雜度，測試錯誤總會增加。

3. 如果增加一個模型的復(fù)雜度，訓(xùn)練錯誤總會增加。

A. 1

B. 2

C. 3

D. 1 和 3

答案 C：

當(dāng)類不平衡的時候，準(zhǔn)確率不是一個很好的評價指標(biāo)。而 precision 和 recall 是最好的評價方式。

增加一個模型的復(fù)雜度可能會導(dǎo)致過擬合。而過擬合會引起訓(xùn)練錯誤的減少和測試錯誤的增加。

問題 30

以下有關(guān)于梯度回歸樹算法的說法正確的是？

當(dāng)我們增加用于分割的最小樣本數(shù)時，我們總是試圖得到不會過擬合數(shù)據(jù)的算法。

當(dāng)我們增加用于分割的最小樣本數(shù)時, 數(shù)據(jù)會過擬合。

當(dāng)我們減少用于擬合各個基本學(xué)習(xí)者的樣本的分數(shù)時，我們總是希望減少方差。

當(dāng)我們減少用于擬合各個基本學(xué)習(xí)者的樣本的分數(shù)時，我們總是希望減少偏差。

A. 2 和 4

B. 2 和 3

C. 1 和 3

D. 1 和 4

答案: C

最小化樣本的數(shù)量，在分裂節(jié)點的地方用于控制過擬合, 太高的數(shù)值會導(dǎo)致欠擬合因此應(yīng)該用 CV 來進行調(diào)整.

每棵樹選擇觀測值的分數(shù)是通過隨機采樣的方式來做的。如果數(shù)值比 1 小一點點則會使模型健壯，而且方差也會減小。典型的數(shù)值是 0.8，當(dāng)然，也要根據(jù)實際情況微調(diào)。

問題 31

以下哪個是 KNN 算法的決策邊界？（下圖從左到右分別是 A,B,C,D）

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

A) B

B) A

C) D

D) C

E) 不確定

答案：B

KNN 算法的原理是為觀測變量尋找 K 個最近鄰居，將鄰居中的多數(shù)的標(biāo)簽賦給觀測變量。所以決策邊界不會是線性的。因此，選擇 B。

問題 32

如果一個機器學(xué)習(xí)模型在測試集上獲得的 100% 的準(zhǔn)確性，是否意味著在新的測試集上也能獲得 100% 的準(zhǔn)確性。

A. 是的，因為這個模型足夠一般，可以適用于所有類型的數(shù)據(jù)

B. 不是，仍然有模型不能控制的因素，比如噪聲。

答案：B

答案選擇 B，因為實際數(shù)據(jù)不可能沒有噪聲，所以不可能得到 100% 的準(zhǔn)確性。

問題 33

以下是交叉驗證的常見方法：

i. Bootstrap with replacement.

ii. Leave one out cross validation.

iii. 5 Fold cross validation.

iv. 2 repeats of 5 Fold cross validation

如果樣本的數(shù)量是 1000，那么這這四種方法執(zhí)行時間的排序是？

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

答案：B

Bootstrapping 是一個統(tǒng)計的技術(shù)，屬于廣泛的重采樣的范疇，所以只有 1 個驗證集使用了隨機采樣。

Leave-One-Out cross validation 的時間最長，因為我們要 n 次訓(xùn)練模型（n 是觀測值的數(shù)量）

5 Fold cross validation 會訓(xùn)練五個模型，而訓(xùn)練時間和觀測值數(shù)量無關(guān)。

2 repeats of 5 Fold cross validation 則是訓(xùn)練 10 個模型。

因此答案選擇 B。

問題 34

已取消

問題 35

變量選擇旨在選擇預(yù)測變量的 “最佳” 子集。當(dāng)我們選擇變量的時候，考慮到系統(tǒng)的性能，我們需要注意些什么？

1. 類似的多個變量

2. 模型的可解釋性

3. 特征信息

4. 交叉檢驗

A. 1 和 4

B. 1, 2 和 3

C. 1,3 和 4

D. 以上所有

答案：C

如果幾個變量具有很高的 xiang s，則會展現(xiàn)出共線性。

相對于模型的性能，我們不需要關(guān)注模型的可解釋性。

如果特征有很高的信息，則會為模型帶來價值。

我們需要使用交叉檢驗來驗證模型的普遍性。

因此 C 是正確答案。

問題 36

線性回歸模型中的其他變量下列哪些語句是正確的關(guān)于？

1.R-Squared 和 Adjusted R-squared 都會增長

2.R-Squared 是常數(shù)，Adjusted R-squared 會增長

3.R-Squared 和 Adjusted R-squared 都會減少 4.R-Squared 減少而 Adjusted R-squared 增長

A. 1 和 2

B. 1 和 3

C. 2 和 4

D. 以上沒有正確的

答案: D

R-squared 不能確定系數(shù)估計和預(yù)測是否有偏差，這就是為什么我們要評估殘差圖。 Adjusted R-squared 是 R-squared 的增強版，該方法調(diào)整了模型中預(yù)測器的數(shù)量. 如果有新方法將模型改進的幾率大于預(yù)期時，Adjusted R-squared 會增加。當(dāng)預(yù)測變量將模型改進的幾率小于預(yù)期時，它減少。

但是 R-squared 比 adjusted R-squared 有更多的問題，因此 predicted R-squared 被提出。

如果為模型增加一個預(yù)測器，則 R-squared 會保持不變或者增加。

想討論更多，請點擊這里。

問題 37

下圖我們畫出了在同一個數(shù)據(jù)集上解決回歸問題的三種不同模型，從下圖中我們可以總結(jié)出什么？

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

1. 和其他的相比，第一張圖的訓(xùn)練錯誤最大。

2. 最后一個是最好的模型，因為在第三張圖有最小的訓(xùn)練錯誤。

3. 第二個模型比第一個和第三個更健壯，因為它能更好的處理不可預(yù)見的數(shù)據(jù)。

4. 第三個模型和前兩個相比屬于過擬合。

5. 所有模型的性能都一樣，因為我們還沒有看到測試集。

A. 1 和 3

B. 1 和 4

C. 1, 3 和 4

D. 5

答案：C

對于自變量 X 來說，圖中數(shù)據(jù)的趨勢像一個多項式函數(shù)。最右邊圖中的多項式形式更復(fù)雜，準(zhǔn)確率也最高，但是對于測試集則會表現(xiàn)不佳。而最左邊的圖很明顯屬于欠擬合的情況。

問題 38

在應(yīng)用線性回歸時我們需要遵循哪些假設(shè)？

1. 由于線性回歸對于異常值很敏感，所以檢查異常值是十分重要的。

2. 線性回歸要求所有變量都遵循正態(tài)分布。

3. 線性回歸假設(shè)數(shù)據(jù)中很少或不存在多重共線性。

A. 1 和 2

B. 2 和 3

C. 1,2 和 3

D. 以上所有

答案：D

l 異常值是數(shù)據(jù)中對最終回歸線的斜率影響最高的點。所以在回歸分析中去除離群值總是很重要的。

l 了解自變量的分布是非常必要的。自變量的正負偏態(tài)分布可以影響模型的性能，并將高度偏態(tài)的自變量轉(zhuǎn)換正態(tài)將改進模型性能

l 當(dāng)模型包含彼此相關(guān)的多個要素時，會出現(xiàn)多重共線性。換句話說就是有多余因素線性回歸假設(shè)在數(shù)據(jù)中應(yīng)該有很少冗余或者盡可能沒有。

問題 39

當(dāng)建立線性模型的時候，我們會關(guān)注數(shù)據(jù)之間的關(guān)聯(lián)。假如我們在關(guān)聯(lián)矩陣中找到了三對數(shù)據(jù) (Var1 和 Var2 , Var2 和 Var3 , Var3 和 Var1) 的關(guān)聯(lián)分別是 -0.98, 0.45 and 1.23。那么從這些信息中我們可以推斷出什么？

1.Var1 和 Var2 具有很高的關(guān)聯(lián)性。

2.Var1 和 Var2 有很高的關(guān)聯(lián)度，所以它們具有多重共線性。所以我們要將 Var1 或者 Var2 移除出我們的模型。

3.Var3 和 Var1 之間的關(guān)聯(lián)值是 1.23 是不可能的。

A. 1 和 3

B. 1 和 2

C. 1,2 和 3

D. 1

答案: C

lVar1 和 Var2 的關(guān)聯(lián)值很高，所以是具有多重共線性的，因此我們可以從中去除一個。

l 一般來說，關(guān)聯(lián)系數(shù)高于 0.7 的說明數(shù)據(jù)具有多重共線性。

l 第 3 個是不可能的，關(guān)聯(lián)系數(shù)一定會在 - 1 和 1 之間。

問題 40

如果獨立和不獨立的變量之間有很高的非線性且復(fù)雜的關(guān)系，那么一個樹模型將會比一般的經(jīng)典回歸有更好的效果。這個說法正確么？

A. 正確

B. 錯誤

答案：A

如果數(shù)據(jù)是非線性的，回歸模型就很難處理。而樹模型則會展現(xiàn)出很好的效果。

結(jié)束語

我希望您能喜歡本次測驗，您也會發(fā)現(xiàn)答案的解釋很有用。這次測試主要是集中了人們在日常使用機器學(xué)習(xí)過程中遇到的困難。

我們努力減少文章中的錯誤，但是由于筆者水平有限，可能文章中會有問題，所以如果您發(fā)現(xiàn)了，請在下面留言。當(dāng)然，如果您有改進意見，也歡迎在下面留言。

我們將陸續(xù)推出更多的技能測試，請關(guān)注我們的更新。

如果您想測驗?zāi)闹R和技能，請登錄 Live Competitions，和全世界的數(shù)據(jù)科學(xué)家 pk！

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

AI研習(xí)社

編輯

聚焦數(shù)據(jù)科學(xué)，連接 AI 開發(fā)者。更多精彩內(nèi)容，請訪問：yanxishe.com

發(fā)私信

當(dāng)月熱門文章

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）

想知道機器學(xué)習(xí)掌握的怎么樣了嗎？這有一份自測題（附答案和解析）