中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

數據科學家進行機器學習的問題有哪些

發布時間:2021-12-27 13:44:56 來源:億速云 閱讀:110 作者:iii 欄目:大數據

本篇內容介紹了“數據科學家進行機器學習的問題有哪些”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

介紹

機器學習是近來最受歡迎的技能之一。我們組織了各種技能測試,以便數據科學家可以檢查自己的這些關鍵技能。這些測試包括機器學習,深度學習,時間序列問題和概率。

總分

以下是分布得分,它們將幫助你評估自己的成績。

數據科學家進行機器學習的問題有哪些

超過210人參加了技能測試,獲得的最高分是36。以下是有關分數的一些統計數據。

平均得分:19.36

中位數得分:21

模式得分:27

問題與解決方案

問題背景
特征F1代表大學學生的等級,可以取特定值:A,B,C,D,E和F。
1)在以下情況下,以下哪一項是正確的?

A)特征F1是定類變量的示例。 B)特征F1是定序變量的示例。 C)它不屬于上述任何類別。 D)這兩個都是

解決方案:(B)

定序變量是在其類別中具有某些順序的變量。例如,應將A級視為比B級更高的等級。

2)以下哪個是確定性算法的示例?

A)PCA

B)K-Means

C)以上都不是

解決方案:(A)

確定性算法是在不同的運行中,其輸出不會改變的算法。如果我們再次運行,PCA會給出相同的結果,但K-Means不會。

3) [對或錯]兩個變量之間的皮爾遜相關性為零,但它們的值仍然可以彼此相關。

A)對

B)錯

解決方案:(A)

Y = X2。請注意,它們不僅相關,而且一個變量是另一個變量的函數,并且它們之間的皮爾遜相關性為零。

4)對于梯度下降(GD)和隨機梯度下降(SGD),以下哪個陳述是正確的?
  1. 在GD和SGD中,你以迭代方式更新一組參數以最小化誤差函數。

  2. 在SGD中,你必須遍歷訓練集中的所有樣本,才能在每次迭代中一次更新參數。

  3. 在GD中,你可以使用整個數據或訓練數據的子集在每次迭代中更新參數。

A)僅1

B)只有2

C)只有3

D)1和2

E)2和3

F)1,2和3

解決方案:(A)

在每次迭代的SGD中,通常選擇包含隨機數據樣本的批次,但對于GD,每次迭代均包含所有訓練觀測值。

5)下列哪個超參數增加時,可能會導致隨機森林過度擬合數據?
  1. 樹數

  2. 樹深

  3. 學習率

A)僅1

B)只有2

C)只有3

D)1和2

E)2和3

F)1, 2和3

解決方案:(B)

通常,如果我們增加樹的深度,將導致過度擬合。學習率不是隨機森林中的超參數。樹的數量增加將導致擬合不足。

6)想象一下,你正在使用“ Analytics Vidhya”,并且你想開發一種機器學習算法,該算法可以預測文章的觀看次數。

你的分析基于諸如作者姓名,同一位作者過去在Analytics Vidhya上撰寫的文章數之類的特征以及其他一些特征。在這種情況下,你會選擇以下哪個評估指標?

  1. 均方誤差

  2. 準確性

  3. F1分數

A)僅1

B)只有2

C)只有3

D)1和3

E)2和3

F)1和2

解決方案:(A)

可以認為文章的觀看次數是屬于回歸問題的連續目標變量。因此,均方誤差將被用作評估指標。

7)下面給出了三個圖像(1,2,3)。以下哪個選項對這些圖像正確?

A) 數據科學家進行機器學習的問題有哪些

B) 數據科學家進行機器學習的問題有哪些

C) 數據科學家進行機器學習的問題有哪些

A)1是tanh,2是ReLU,3是SIGMOID激活函數。

B)1是SIGMOID,2是ReLU,3是tanh激活函數。

C)1是ReLU,2是tanh,3是SIGMOID激活函數。

D)1是tanh,2是SIGMOID,3是ReLU激活函數。

解決方案:(D)

SIGMOID函數的范圍是[0,1]。

tanh函數的范圍是[-1,1]。

RELU函數的范圍是[0,infinity]。

因此,選項D是正確的答案。

8)以下是訓練文件中目標變量的8個實際值。
[0,0,0,1,1,1,1,1]
目標變量的熵是多少?

A) -(5/8 log(5/8) + 3/8 log(3/8))

B) 5/8 log(5/8) + 3/8 log(3/8)

C) 3/8 log(5/8) + 5/8 log(3/8)

D) 5/8 log(3/8) – 3/8 log(5/8)

解決方案:(A)

熵的公式是 數據科學家進行機器學習的問題有哪些

所以答案是A。

9)假設你正在使用分類特征,但尚未查看測試數據中分類變量的分布。你要在分類特征上應用獨熱編碼(OHE)。如果將OHE應用于訓練數據集的分類變量,可能會面臨哪些挑戰?

A)分類變量的所有類別都不在測試數據集中。

B)與測試數據集相比,類別中的頻率分布在訓練集中有所不同。

C)訓練集和測試集始終具有相同的分布。

D)A和B

E)這些都不是

解決方案:(D)

兩者都是正確的,OHE將無法對測試集中存在但不在訓練集中的類別進行編碼,因此這可能是應用OHE時的主要挑戰之一。如果在訓練和測試中的頻率分布不相同,則選項B中的挑戰也確實存在,你在應用OHE時需要更加小心。

10)Skip gram模型是Word2vec算法中用于詞嵌入的最佳模型之一。下列哪個模型描述了Skip gram模型?

數據科學家進行機器學習的問題有哪些

A)A

B)B

C)A和B

D)這些都不是

解決方案:(B)

Word2vec算法中使用了兩個模型(model1和model2)。model1代表CBOW模型,而Model2代表Skip gram模型。

11)假設你正在神經網絡的隱藏層中使用激活函數X。對于任何給定的輸入,在特定的神經元處,你得到的輸出為“ -0.0001”。X可以代表以下哪個激活函數?

A) ReLU

B) tanh

C) SIGMOID

D)這些都不是

解決方案:(B)

該函數為tanh,因為此函數的輸出范圍在(-1,-1)之間。

12) 對數損失評估指標可以具有負值。

A)真 B)假

解決方案:(B)

對數損失不能為負值。

13)關于“Type1”和“Type2”錯誤,以下哪個陳述是正確的?
  1. Type1被稱為誤報,Type2被稱為漏報。

  2. Type1被稱為漏報,Type2被稱為誤報。

  3. 當我們拒絕原假設為空的假設時,就會發生Type1錯誤。

A)僅1

B)只有2

C)只有3

D)1和2

E)1和3

F)2和3

解決方案:(E)

在統計假設檢驗中,I型錯誤是對真實無效假設(“誤報”)的錯誤拒絕,而II型錯誤則是錯誤地保留了虛假假設(“漏報”)。

14)以下哪項是對基于NLP的項目中的文本進行預處理的重要步驟之一?
  1. 詞干提取

  2. 刪除停頓詞

  3. 對象標準化

A)1和2

B)1和3

C)2和3

D)1,2和3

解決方案:(D)

詞干提取是從單詞中去除后綴(“ ing”,“ ly”,“ es”,“ s”等)的基于規則的基本過程。

停頓詞是那些與數據上下文無關的詞,例如is / am / are。

對象標準化也是預處理文本的好方法之一。

15)假設你要將高維數據投影到低維。此處使用的兩種最著名的降維算法是PCA和t-SNE。假設你分別對數據“ X”應用了這兩種算法,并且獲得了數據集“ X_projected_PCA”,“ X_projected_tSNE”。
對于“ X_projected_PCA”和“ X_projected_tSNE”,以下哪種說法正確?

A)X_projected_PCA將在最近鄰空間中進行解釋。

B)X_projected_tSNE將在最近鄰空間中進行解釋。

C)兩者都將在最近鄰空間中進行解釋。

D)他們都不會在最近鄰空間進行解釋。

解決方案:(B)

t-SNE算法考慮最近鄰點以減少數據的維數。因此,在使用t-SNE之后,我們可以認為縮小的維數也將在最近鄰空間中得到解釋。但是對于PCA則不是這樣。

問題:16-17

下面給出的是兩個特征的三個散點圖。

數據科學家進行機器學習的問題有哪些

16)在上圖中,以下哪個是多重共線特征的示例?

A)圖片1中的函數

B)圖片2中的函數

C)圖片3中的函數

D)圖片1和2中的函數

E)圖片2和3中的函數

F)圖片3和1中的函數

解決方案:(D)

在圖像1中,特征具有高正相關性,而在圖像2中,特征之間具有高負相關性,因此在兩個圖像中,特征對都是多重共線特征的示例。

17)在上一個問題中,假設你已確定多重共線特征。你接下來要執行以下哪個操作?
  1. 刪除兩個共線變量。

  2. 刪除兩個共線變量中的一個變量。

  3. 刪除相關變量可能會導致信息丟失。為了保留這些變量,我們可以使用懲罰回歸模型,例如嶺回歸或套索回歸。

A)僅1

B)僅2

C)僅3

D)1或3

E)2或3

解決方案:(E)

你不能同時刪除這兩個特征,因為在刪除這兩個特征之后,你將丟失所有信息,因此你應該刪除僅一個特征,或者可以使用L1和L2等正則化算法。

18)將不重要的特征添加到線性回歸模型中可能會導致___。
  1. R平方增加

  2. R平方減少

A)只有1正確

B)只有2正確

C)1或2

D)這些都不是

解決方案:(A)

在特征空間中添加特征后,無論該特征是重要特征還是不重要特征,R平方始終會增加。

19)假設給定三個變量X,Y和Z。(X,Y),(Y,Z)和(X,Z)的皮爾遜相關系數分別為C1,C2和C3。

現在,你在X的所有值中加了2(即新值變為X + 2),從Y的所有值中減去了2(即新值是Y-2),Z保持不變。(X,Y),(Y,Z)和(X,Z)的新系數分別由D1,D2和D3給出。D1,D2和D3的值與C1,C2和C3有什么關系?

A)D1 = C1,D2 < C2,D3 > C3

B)D1 = C1,D2 > C2,D3 > C3

C)D1 = C1,D2 > C2,D3 < C3

D)D1 = C1,D2 < C2,D3 < C3

E)D1 = C1,D2 = C2,D3 = C3

F)無法確定

解決方案:(E)

如果你在特征中添加或減去一個值,則特征之間的相關性不會改變。

20)想象一下,你正在解決類別高度不平衡的分類問題。在訓練數據中,大多數類別有99%的時間被觀察到。

對測試數據進行預測后,你的模型具有99%的準確性。在這種情況下,以下哪一項是正確的?

  1. 對于類別不平衡問題,準確性度量不是一個好主意。

  2. 精度度量是解決類別不平衡問題的一個好主意。

  3. 準確性和召回率指標對于解決類別不平衡問題很有用。

  4. 精度和召回率指標不適用于類別不平衡問題。

A)1和3

B)1和4

C)2和3

D)2和4

解決方案:(A)

參考本文中的問題4。

  • https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/

21)在集成學習中,你匯總了弱學習模型的預測,因此與單個模型的預測相比,這些模型的集成將提供更好的預測。

對于集成模型中使用的弱學習模型,以下哪個陳述是正確的?

  1. 他們通常不會過擬合。

  2. 他們有很高的偏差,所以不能解決復雜的學習問題

  3. 他們通常過擬合。

A)1和2

B)1和3

C)2和3

D)僅1

E)只有2

F)以上都不是

解決方案:(A)

弱學習模型會確定問題的特定部分。因此,他們通常不會過擬合,這意味著學習能力弱的學習模型具有較低的方差和較高的偏差。

22)對于 K-fold 交叉驗證,以下哪個選項是正確的?
  1. K的增加將導致交叉驗證結果所需的時間更長。

  2. 與較低的K值相比,較高的K值將導致交叉驗證結果的置信度較高。

  3. 如果K = N,則稱為“留一法(交叉驗證法)”,其中N是觀察數。

A)1和2

B)2和3

C)1和3

D)1,2和3

解決方案:(D)

k值越大,意味著對高估真實預期誤差的偏差就越小(因為訓練倍數將更接近于總數據集),而運行時間則更長(隨著你越來越接近極限情況:留一法交叉驗證)。選擇k時,我們還需要考慮k倍精度之間的方差。

問題上下文23-24

交叉驗證是機器學習中超參數調整的重要步驟。假設你正在通過使用5折交叉驗證從基于樹的模型的10個不同深度值(值大于2)中選擇GBM來調整GBM的超參數“max_depth”。 一個算法(在最大深度為2的模型上)4折的訓練時間是10秒,剩下1折的預測時間是2秒。 注意:公式中忽略硬件依賴性。

23)對于具有10個不同“max_depth”值的5折交叉驗證的總體執行時間,以下哪個選項是正確的?

A)少于100秒

B)100 – 300秒

C)300 – 600秒

D)大于或等于600秒

E)以上都不是

F)無法估算

解決方案:(D)

5折交叉驗證中深度“2”的每次迭代將花費10秒進行訓練,而測試則需要2秒。

因此,5折將花費12 * 5 = 60秒。由于我們正在搜索10個深度值,因此該算法將花費60 * 10 = 600秒。

但是,在深度大于2的情況下訓練和測試模型所花費的時間將比深度為“2”花費更多的時間,因此總體計時將大于600秒。

24)在上一個問題中,如果你訓練相同的算法來調整2個超參數,比如“最大深度”和“學習率”。

你想針對最大深度(從給定的10個深度值)和學習率(從給定的5個不同的學習率)中選擇正確的值。在這種情況下,以下哪項將代表總時間?

A)1000-1500秒

B)1500-3000秒

C)大于或等于3000秒

D)這些都不是

解決方案:(D)

與問題23相同。

25)下面給出了針對機器學習算法M1的訓練誤差TE和驗證誤差VE的方案。你要基于TE和VE選擇一個超參數(H)。

<table> <tr> <th>H</th> <th>TE</th> <th>VE</th> </tr> <tr> <td>1個</td> <td>105</td> <td>90</td> </tr> <tr> <td>2</td> <td>200</td> <td>85</td> </tr> <tr> <td>3</td> <td>250</td> <td>96</td> </tr> <tr> <td>4</td> <td>105</td> <td>85</td> </tr> <tr> <td>5</td> <td>300</td> <td>100</td> </tr> </table>

你將根據上表選擇哪個H值?

解決方案:(D)

根據表格,選擇D是最好的

26)你將在PCA中做什么以得到與SVD相同的預測?

A)將數據轉換為均值零

B)將數據轉換為中位數零

C)不可能

D)這些都不是

解決方案:(A)

當數據的平均值為零時,向量PCA的預測將與SVD相同,否則,在獲取SVD之前必須先將數據居中。

問題27-28
假設有一個黑盒算法,該算法使用具有多個觀測值(t1,t2,t3,……..tn)和一個新觀測值(q1)的訓練數據。黑盒輸出q1的最近鄰(例如ti)及其對應的類別標簽ci。
你還可以認為該黑盒算法與1-NN(1-最近鄰)相同。
27)可以僅基于此黑盒算法來構造k-NN分類算法。

注意:與k相比,n(訓練觀測值的數量)非常大。

A)真

B)假

解決方案:(A)

第一步,你在黑盒算法中傳遞了一個觀察值(q1),因此該算法將返回最近鄰的觀察值及其類標簽。

在第二步中,你將其從訓練數據中選出最接近的觀測值,然后再次輸入觀測值(q1)。黑盒算法將再次返回最近鄰觀測值及其類標簽。

你需要重復此過程k次

28)我們不想使用1-NN黑盒,而是要使用j-NN(j> 1)算法作為黑盒。對于使用j-NN查找k-NN,以下哪個選項是正確的?
  1. J必須是k的適當因子

  2. J > k

  3. 不可能

A)1

B)2

C)3

解決方案:(A)

與問題27相同

29)假設你得到7個散點圖1-7(從左到右),并且你想比較每個散點圖變量之間的皮爾遜相關系數。

以下哪項是正確的順序?

數據科學家進行機器學習的問題有哪些

  1. 1 < 2 < 3 <4

  2. 1 > 2 > 3 > 4

  3. 7 < 6 < 5 <4

  4. 7 > 6 > 5 > 4

A)1和3

B)2和3

C)1和4

D)2和4

解決方案:(B)

從圖像1到4的相關性正在降低(絕對值)。但是從圖像4到7,相關性在增加,但其相關性值是負數(例如0,-0.3,-0.7,-0.99)。

30)你可以使用不同的指標(例如準確性,對數損失,F分數)來評估二進制分類問題的性能。假設你正在使用對數損失函數作為評估指標。對于將對數損失解釋為評估指標,以下哪個選項是正確的?
  1. 數據科學家進行機器學習的問題有哪些 如果分類器對錯誤分類有信心,那么對數損失會對其進行嚴厲懲罰。

  2. 對于特定的觀察結果,分類器為正確的類別分配了很小的概率,那么對數損失的相應貢獻將非常大。

  3. 對數損失越低,模型越好。

A)1和3

B)2和3

C)1和2

D)1,2和3

解決方案:(D)

問題31-32

以下是數據集中給出的五個樣本。

數據科學家進行機器學習的問題有哪些

注意:圖像中各點之間的視覺距離代表實際距離。

31)以下哪項是3-NN(3個最近鄰)的留一法交叉驗證準確性?

A)0

D)0.4

C)0.8

D)1

解決方案:(C)

在“留一法”交叉驗證中,我們將選擇(n-1)個用于訓練的觀察值和1個驗證觀察值。將每個點視為交叉驗證點,然后找到該點最近的3個點。

因此,如果你對所有的點重復這個過程,你將得到正確的分類,所有正類在上圖中給出,但負類將被錯誤分類。因此你將得到80%的準確率。

32)以下K值中,哪一個具有最小的留一法交叉驗證精度?

A)1NN

B)3NN

C)4NN

D)都有相同的留一法錯誤

解決方案:(A)

每個點在1-NN中將始終被錯誤分類,這意味著你將獲得0%的精度。

33)假設你獲得了以下數據,并且你想應用邏輯回歸模型將其分類為兩個給定的類。

數據科學家進行機器學習的問題有哪些

你正在使用具有L1正則化的邏輯回歸。

數據科學家進行機器學習的問題有哪些

其中C是正則化參數,w1和w2是x1和x2的系數。

當你將C的值從零增加到非常大的值時,以下哪個選項是正確的?

A)首先w2變為零,然后w1變為零

B)首先w1變為零,然后w2變為零

C)兩者同時變為零

D)即使C值很大,兩者也不能為零

解決方案:(B)

通過查看圖像,我們發現即使僅使用x2,我們也可以有效地執行分類。因此,首先,w1將變為0。隨著正則化參數的增加,w2將越來越接近于0。

34)假設我們有一個數據集,該數據集可以在深度為6的決策樹的幫助下以100%的精度進行訓練。現在考慮下面這些點,并根據這些點選擇選項。
注意:所有其他超級參數相同,其他因素不受影響。
1. 深度4將具有高偏差和低方差
2. 深度4將具有低偏差和低方差

A)僅1

B)只有2

C)1和2

D)以上都不是

解決方案:(A)

如果此類數據適合深度為4的決策樹,則可能會導致數據擬合不足。因此,在擬合不足的情況下,將具有較高的偏差和較低的方差。

35)以下哪些選項可用于獲取k-Means算法的全局最小值?
1. 嘗試運行用于不同質心初始化的算法
2. 調整迭代次數
3. 找出最佳集群數

A)2和3

B)1和3

C)1和2

D)以上

解決方案:(D)

可以調整所有選項以找到全局最小值。

36)假設你正在開發一個項目,該項目是二進制分類問題。你在訓練數據集上訓練了模型,并在驗證數據集上獲得了以下混淆矩陣。

數據科學家進行機器學習的問題有哪些

根據上述混淆矩陣,選擇以下哪個選項可以為你提供正確的預測?
1. 準確度約為0.91
2. 錯誤分類率約為0.91
3. 誤報率約為0.95
4. 真陽率為?0.95

A)1和3

B)2和4

C)1和4

D)2和3

解決方案:(C)

準確性(正確分類)是(50 + 100)/ 165,幾乎等于0.91。

真陽率是你正確預測陽性分類的次數,因此真陽率將為100/105 = 0.95,也稱為“敏感度”或“召回率”

37)對于以下哪個超參數,決策樹算法的值越高越好?
1. 用于拆分的樣本數
2. 樹的深度
3. 葉子節點樣本數

A)1和2

B)2和3

C)1和3

D)1、2和3

E)不能判斷

解決方案:(E)

對于所有三個選項A,B和C,沒有必要增加參數的值來提高性能。例如,如果我們具有非常高的樹深度值,則生成的樹可能會使數據過擬合,并且不能很好地泛化使用。另一方面,如果我們的值很低,則樹可能不足以容納數據。因此,我們不能肯定地說“越高越好”。

問題38-39

想象一下,你有一個28 * 28的圖像,并且在其上運行了3 * 3的卷積神經網絡,輸入深度為3,輸出深度為8。

注意:“步幅”為1,并且你使用的是相同的填充。

38)使用給定參數時,輸出特征圖的尺寸是多少?

A)寬度28,高度28和深度8

B)寬度13,高度13和深度8

C)寬度28,高度13和深度8

D)寬度13,高度28和深度8

解決方案:(A)

計算輸出大小的公式是

輸出尺寸=(N – F)/ S + 1

其中,N是輸入大小,F是過濾器大小,S是跨度。

39)使用以下參數時,輸出特征圖的尺寸是多少?

A)寬度28,高度28和深度8

B)寬度13,高度13和深度8

C)寬度28,高度13和深度8

D)寬度13,高度28和深度8

解決方案:(B)

同上題。

40)假設,我們正在繪制SVM算法中不同C值(懲罰參數)的可視化圖。由于某些原因,我們忘記了用可視化標記C值。在這種情況下,對于徑向基函數核,以下哪個選項最能說明以下圖像的C值?

(從左到右為1,2,3,所以C值對于image1為C1,對于image2為C2,對于image3為C3)。

數據科學家進行機器學習的問題有哪些

A)C1 = C2 = C3

B)C1 > C2 > C3

C)C1 < C2 < C3

D)這些都不是

解決方案:(C)

誤差項的懲罰參數C。它還控制平滑決策邊界和正確分類訓練點之間的權衡。對于較大的C值,將選擇邊距較小的超平面進行優化。

“數據科學家進行機器學習的問題有哪些”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚东县| 繁昌县| 县级市| 衢州市| 广水市| 安顺市| 旺苍县| 探索| 芜湖市| 枞阳县| 汪清县| 马公市| 日喀则市| 高安市| 高陵县| 江川县| 烟台市| 兖州市| 大荔县| 星座| 乐至县| 错那县| 措勤县| 伊吾县| 深水埗区| 汉阴县| 大姚县| 韶山市| 北海市| 罗江县| 金溪县| 滕州市| 成安县| 钟山县| 盐池县| 武乡县| 甘肃省| 沾益县| 津南区| 环江| 佳木斯市|