成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給AI研習社
    發送

    0

    通過一個 kaggle 實例學習解決機器學習問題

    本文作者: AI研習社 編輯:賈智龍 2017-07-20 16:26
    導語:這篇文章中可以學到一個完整的運用機器學習解決分析問題的過程。

    雷鋒網按:本文原作者楊熹,本文原載于個人博客

    之前寫過一篇《一個框架解決幾乎所有機器學習問題》但是沒有具體的例子和代碼,今天看到一個不錯的 kaggle 上的 code Exploratory Tutorial - Titanic 來解析一下,源碼可以直接點這個鏈接。

    在這篇文章中可以學到一個完整的運用機器學習解決分析問題的過程,它包括了解決問題的一般流程,描述性統計的常用方法,數據清洗的常用方法,如何由給定的普通變量啟發式思考其他影響因素,sklearn 建立模型的一般流程,以及很火的 ensemble learning 怎么用。

    下面進入正題:

    Titanic: Machine Learning from Disaster 這個問題中,要解決的是根據所提供的 age,sex 等因素的數據,判斷哪些乘客更有可能生存下來,所以這是一個分類問題。

    在解決機器學習問題時,一般包括以下流程:

    1. Data Exploration

    2. Data Cleaning

    3. Feature Engineering

    4. Model Building

    5. Ensemble Learning

    6. Predict

    1. Data Exploration

    這部分先導入常用的 Numpy,Pandas,Matplotlib 等包,導入訓練集和測試集:

    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    %matplotlib inline
    train = pd.read_csv('../input/train.csv')
    test = pd.read_csv('../input/test.csv')

    之后,可以用下面的命令先觀察一下數據表的結構:

    train.tail()
    test.head()
    train.describe()

    接下來,可以觀察各個變量的分布情況:

    各個變量在測試集和訓練集的分布差不多一致。
    通過一個 kaggle 實例學習解決機器學習問題

    然后看一下各個變量對分類標簽的影響:

    例如,性別的影響,通過可視化可以發現,生還的乘客中女性多于男性.

    或者 Pclass 的影響。
    通過一個 kaggle 實例學習解決機器學習問題

    2. Data Cleaning

    這個部分,可以統計一下各個變量的缺失值情況:

    train.isnull().sum()
    #test.isnull().sum()
    PassengerId      0
    Survived         0
    Pclass           0
    Name             0
    Sex              0
    Age            177
    SibSp            0
    Parch            0
    Ticket           0
    Fare             0
    Cabin          687
    Embarked         2
    dtype: int64

    然后對缺失部分進行處理,如果是連續變量,可以采用預測模型,例如 Age,如果是離散的變量,可以找到類似的數據群體,然后取最多的,或者最多群體的平均值。
    eg,Embarked 這兩個缺失值,可以看 Pclass 1 and Fare 80 時,最多的情況是 Embarked=C。

    通過一個 kaggle 實例學習解決機器學習問題

    3. Feature Engineering

    之前有過一篇特征工程怎么做,只是介紹了一些概念,這個例子就是比較具有啟發性,看看怎么通過給定的幾個變量,去拓展成更有影響力的 feature,如何結合實際情況聯想新的因素,并轉化成數字的形式表達出來。

    下面是數據中的原始變量,看看由它們可以聯想到什么因素。

    pclass          Passenger Class
                    (1 = 1st; 2 = 2nd; 3 = 3rd)
    name            Name
    sex             Sex
    age             Age
    sibsp           Number of Siblings/Spouses Aboard
    parch           Number of Parents/Children Aboard
    ticket          Ticket Number
    fare            Passenger Fare
    cabin           Cabin
    embarked        Port of Embarkation
                    (C = Cherbourg; Q = Queenstown; S = Southampton)


    除了性別,年齡等明顯的因素,社會地位等也可能影響著誰會優先乘坐救生艇,或被救助而生存下來。例如,

    • Name 里可以抓取到這樣的字眼,來反映出乘客的職場地位: [‘Capt’, ‘Col’, ‘Major’, ‘Dr’, ‘Officer’, ‘Rev’]。

    • Cabin 里的 [a-zA-Z] 也許可以反映出社會地位。

    • Cabin 里的 [0-9] 可能代表船艙的地理位置。

    • SibSp 可以算出乘客中同一家庭成員人數的大小。

    title[title.isin(['Capt', 'Col', 'Major', 'Dr', 'Officer', 'Rev'])] = 'Officer'
    
    deck = full[~full.Cabin.isnull()].Cabin.map( lambda x : re.compile("([a-zA-Z]+)").search(x).group())
    
    checker = re.compile("([0-9]+)")
    
    full['Group_num'] = full.Parch + full.SibSp + 1

    在這個環節中,還有必要把類別數據變換成 dummy variable 的形式,也就是變換成向量格式,屬于第幾類就在第幾個位置上為 1,其余位置為 0.

    連續數據做一下歸一化,即把大范圍變化的數據范圍縮小至 0~1 或者 -1~1 之間。
    然后把不相關的變量 drop 掉。

    train = pd.get_dummies(train, columns=['Embarked', 'Pclass', 'Title', 'Group_size'])
    
    full['NorFare'] = pd.Series(scaler.fit_transform(full.Fare.reshape(-1,1)).reshape(-1), index=full.index)
    
    full.drop(labels=['PassengerId', 'Name', 'Cabin', 'Survived', 'Ticket', 'Fare'], axis=1, inplace=True)

    4. Model Building

    首先就是把數據分為訓練集和測試集,用到 train_test_split,

    from sklearn.model_selection import train_test_split
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

    因為后面會用到很多模型,所以可以把 cross validation 和 fit 的部分寫入一個函數,這樣每次把分類器投入到函數中訓練,最后返回訓練好的模型即可。

    from sklearn.model_selection import GridSearchCV
    from sklearn.metrics import make_scorer
    from sklearn.metrics import accuracy_score
    
    scoring = make_scorer(accuracy_score, greater_is_better=True)
    
    defget_model(estimator, parameters, X_train, y_train, scoring):
        model = GridSearchCV(estimator, param_grid=parameters, scoring=scoring)
        model.fit(X_train, y_train)    
        return model.best_estimator_

    以一個 KNN 為例,來看一下建立 訓練 并用模型預測的過程,

    • 從 sklearn 導入分類器模型后,定義一個 KNN,

    • 定義合適的參數集 parameters,

    • 然后用 get_model 去訓練 KNN 模型,

    • 接下來用訓練好的模型去預測測試集的數據,并得到 accuracy_score,

    • 然后畫出 learning_curve。

    from sklearn.neighbors import KNeighborsClassifier
    KNN = KNeighborsClassifier(weights='uniform')
    parameters = {'n_neighbors':[3,4,5], 'p':[1,2]}
    clf_knn = get_model(KNN, parameters, X_train, y_train, scoring)
    
    print (accuracy_score(y_test, clf_knn.predict(X_test)))
    plot_learning_curve(clf_knn, 'KNN', X, y, cv=4);

    通過一個 kaggle 實例學習解決機器學習問題

    采用上面的方式,嘗試多種模型,并打印出它們的 accuracy_score:

    KNN, 0.816143497758
    Random Forest, 0.829596412556
    只選擇比較重要的幾個特征后的 Random Forest, 0.834080717489
    Logistic Regression, 0.811659192825
    SVC, 0.838565022422
    XGBoost, 0.820627802691123456123456

    5. Ensemble

    接下來把前面訓練好的幾個分類器用 VotingClassifier 集成起來再 fit 訓練一下,打印 accuracy_score 并畫出 learning_curve。

    from sklearn.ensemble import VotingClassifier
    clf_vc = VotingClassifier(estimators=[('xgb1', clf_xgb1), ('lg1', clf_lg1), ('svc', clf_svc),
                                           ('rfc1', clf_rfc1),('rfc2', clf_rfc2), ('knn', clf_knn)],
                               voting='hard', weights=[4,1,1,1,1,2])
    clf_vc = clf_vc.fit(X_train, y_train)
    
    print (accuracy_score(y_test, clf_vc.predict(X_test)))
    plot_learning_curve(clf_vc, 'Ensemble', X, y, cv=4);
    
    ensemble, 0.825112107623

    6. Prediction

    用最后訓練好的 model 去預測給出的測試集文件,并把數據按照指定格式做好,存進 csv 提交即可。

    defsubmission(model, fname, X):
        ans = pd.DataFrame(columns=['PassengerId', 'Survived'])
        ans.PassengerId = PassengerId
        ans.Survived = pd.Series(model.predict(X), index=ans.index)
        ans.to_csv(fname, index=False)

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    通過一個 kaggle 實例學習解決機器學習問題

    分享:
    相關文章

    編輯

    聚焦數據科學,連接 AI 開發者。更多精彩內容,請訪問:yanxishe.com
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說