引言

一直对AI有着莫大的兴趣，最近买了周志华先生的西瓜书，也是干货满满，最近也想从实战方面入手，了解一下机器学习，本文以《Python机器学习基础教程》为指导。

环境

Sublimetext 3 和 Jupter Notebook;
ML库：scikit-learn

项目：鸢尾花分类

已知，鸢尾花可以被分为setosa、versicolor、virginica三个品种，现在我们要建立一个模型，输入特定数据判定它是属于哪一类。

一、数据集导入：

数据集在scikit-learn的datasets中，调用load_iris)导入：

from sklearn.datasets import load_iris
iris_dataset=load_iris)

二、训练集和测试集

导入的数据集我们要分为训练集和测试集，一般我们采用3：1的随机分配办法；
而拆分时为了数据分布均匀，我们先要对数据进行随机达伦，确保测试数据和训练数据的全面性；
在scikit-learn中，我们可以调用train_test_split函数实现划分，利用random_state指定随机数生成种子即可。

X_train, X_test, y_train,y_test=train_test_splitiris_dataset['data'],
iris_dataset['target'],random_state=0)

三、数据观察

数据的好坏直接影响你模型构建成功与否，现实中我们的数据可能存在许多问题（单位不统一，部分数据缺失等），所以我们要提前观察下数据集，观察最好的方法就是看图，pandas为我们提供了一个绘制散点图矩阵的函数，叫做scatter_matrix。

iris_dataframe=pd.DataFrameX_train,columns=iris_dataset.feature_names)
grr=pd.plotting.scatter_matrixiris_dataframe,c=y_train,figsize=15,15),marker="o",hist_kwds={'bins':20},s=60,alpha=.8,cmap=mglearn.cm3)

四、构建模型

算法：K近邻算法
scikit-learn中所有的机器学习模型都在各自的类中实现，统称为Estimator类。
K近邻算法是在neighbours模块中的KNeighboursClassifier类中实现，我们设置邻居参数为1。

from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifiern_neighbors=1)

因为knn对算法进行了封装，既包括构建模型的算法，也包括预测的算法，我们只需要调用fit方法来训练数据即可。

knn.fitX_train,y_train)

五、训练模型评估

我们训练完一个模型，这个模型是否值得我们信任？这时我们就要用测试集去测试这个模型的准确度。

y_pred=knn.predictX_test)
print"Test set predictions:
{}".formaty_pred))
print"Test set score:{:.2f}".formatknn.scoreX_test,y_test))

数据评估，我们只要将测试集的预测结果（y_pred）和测试集标签（y_test）对比，算出准确率即可。

六、预测

如果评估模型的准确率很高，那么我们就有理由相信这个模型预测地很准，所以我们可以放心去预测，反之，我们则要重新地构建一下模型。

IN：
X_new = np.array[[5,2.9,1,0.2]])
prediction = knn.predictX_new)
print"Predicted target name:{}".formatiris_dataset['target_names'][prediction]))

OUT：
Predicted target name:['setosa']

泛化、欠拟合和过拟合

泛化：即让这个模型具有普适的预测性，但拥有自己的归纳偏好，形成模型自己的“价值观”。
欠拟合：提取特征太少，事物共性提取不够，导致预测方向歪斜。
将花分类为草（错误认为绿色的都是草）
过拟合：事物特征提取过多，在共性之上加入了太多个性。
带锯齿的树叶不是树叶错误的认为树叶必须有锯齿)
在笔者总结，泛化就是要在数据集里面最大限度找到共性，尽量忽略不能反映数据本质的个性。

欠拟合比较容易克服，例如在决策树中扩展分支，在神经网络学习中增加训练轮数等。而过拟合则很麻烦，在后面的学习中，我们将看到，过拟合是机器学习面临的关键障碍。
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　——《机器学习》，周志华

鸢尾花分类——Python机器学习起步

引言

环境

项目：鸢尾花分类

一、数据集导入：

二、训练集和测试集

三、数据观察

四、构建模型

五、训练模型评估

六、预测

泛化、欠拟合和过拟合

Published by

风君子

发表回复取消回复

引言

环境

项目：鸢尾花分类

一、数据集导入：

二、训练集和测试集

三、数据观察

四、构建模型

五、训练模型评估

六、预测

泛化、欠拟合和过拟合

Published by

风君子

发表回复 取消回复

发表回复取消回复