机器学习day01（机器学习概述 + KNN算法）-创锋一号

机器学习_算法分类

有监督学习

有监督 = 有特征、有标签。

有监督又被分为：分类问题和回归问题。

分类问题

目标值（标签值）是不连续的
分类种类：二分类、多分类

回归问题

目标值（标签值）是连续的

无监督学习

训练数据有特征，无标签
根据样本间的相似性对样本集进行聚类，发现事务内部结构及相互关系

半监督学习

半监督 = 有特征，部分有标签、部分没标签。

让专家标注少量数据，利用已经标记的数据（也就是带有类标签）训练出一个模型，在利用改模型去套用未标记的数据，通过询问领域专家分类结果与模型分类结果做对比，从而对模型做进一步改善和提高。

半监督学习可大幅度降低成本。（专家标记成本）

强化学习

强化学习 = 寻找最短路径（最优解），以便获取最多的奖励。

强化学习：机器学习的一个重要分支

应用场景：里程碑AlphaGo、各类游戏、对抗比赛、无人驾驶场景

四要素：Agent、环境、奖励、动作

总结

机器学习建模流程

机器学习建模的一般步骤：

获取数据：搜集与完成机器学习任务相关的数据集
数据基本处理：数据集中异常值，缺失值的处理等
特征工程：对数据特征进行提取、转成向量，让模型达到最好的效果
机器学习（模型训练）：选择合适的算法对模型进行训练
- 根据不同的任务来选中不同的算法；有监督学习、无监督学习，半监督学习，强化学习
模型评估：评估效果好上线服务，评估效果不好则重复上述步骤

特征工程

特征工程概念

特征工程利用专业背景知识和技巧处理数据，让机器学习算法效果最好。这个过程就是特征工程。
数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

特征提取

原始数据中提取与任务相关的特征，构成特征向量。

特征预处理

特征对模型产生影响；因量纲（单位）问题，有些特征对模型影响较大、有些影响小

特征降维

对原始数据的维度降低，叫做特征降维，一般会对原始数据产生影响

特征选择

原始数据特征很多，与任务相关是其中一个特征集合子集，不会改变原始数据

特征组合

把多个的特征合并成一个特征。利用乘法或加法来完成

模型拟合问题

拟合

模型在训练集和测试集上表现情况

欠拟合

概念

模型在训练集、测试集表现都不好

产生原因

模型过于简单

过拟合

概念

模型在训练集表现好，在测试集表现不好

产生原因

模型太过于复杂、数据不纯、训练数据太少

泛化

概念

模型在新数据集（非训练数据）上的表现好坏的能力。

奥卡姆剃刀原则

给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取。

机器学习开发环境

pip install scikit-learn

KNN算法

KNN算法简介

K-近邻算法（K Nearest Neighbor，简称KNN）。比如根据你的邻居推断出你的类别
KNN算法是想：如果一个样本在特征空间中的K个最相似的样本中的大多数属于一个类别，则该样本也属于这个类别。

怎么去计算是否相似呢？

可以用欧氏距离。欧氏距离 = 对应维度差值平方和，开平方根。当然后面还有其他的方法！

K值的选择

K值过小

用较小邻域中的训练实例进行预测

容易受到异常点的影响，K值的减少就意味着整体模型变得复杂，容易发生过拟合。

K值过大

用较大邻域中的训练实例进行预测

受到样本均衡的问题，且K值的增加就意味着整体的模型变得简单，欠拟合。

思路分析

KNN解决问题：分类问题、回归问题

分类问题和回归问题的相同点：二者都属于有监督学习（有特征、有标签）

分类问题和回归问题的不同点：标签不连续是分类问题，标签连续是回归问题

不连续的标签，虽然可以用数字表示（如 0,1,2），但数字之间的算术运算（加、减、乘、除、求平均）没有实际意义，所以需要特殊处理——这就是分类问题。
连续的标签，数字本身就有量纲和物理意义，算术运算结果仍然是同类量，所以可以直接用数学函数拟合——这就是回归问题。
分类是投票，回归是均值。

算法思想：若一个样本在特征空间中的K个最相似的样本大多数属于某一个类别，则该样本也属于这个类别。

相似性：欧氏距离

KNN算法API介绍

分类实现

# KNN算法分类思路 """ KNN算法介绍(K Nearest Neighbors), K近邻算法 原理： 基于 欧氏距离（或者其它的距离计算方式）计算 测试集 和 每个训练集之间的距离，然后根据距离升序排列，找到最近的K个样本 基于K个样本投票，票数最多的就作为最终的预测结果 ---> 分类问题 基于K个样本计算平均值，作为最终预测结果 ---> 回归问题 实现思路： 1.分类问题 适用于：有特征，有标签，且标签是不连续的(离散的) 2.回归问题。 适用于：有特征，有标签，且标签是连续的。 KNN算法，分类问题思路如下： 1.计算测试集和每个训练的样本之间的距离。 2.基于距离进行升序排列。 3.找到最近的K个样本. 4.K个样本进行投票。 5.票数多的结果，作为最终的预测结果。 代码实现思路： 1.导包 2.准备数据集（测试集 和 训练集） 3.创建KNN分类模型对象 4.模型训练 5.模型预测 """ # 导包 from sklearn.neighbors import KNeighborsClassifier # 准备数据集（测试集 和 预测集） x_train = [ [0], [1], [2], [3] ] # 特征 因为特征可以有多个特征，所以是一个二维数组 y_train = [ 0, 0, 1, 1 ] # 训练集的标签 因为标签是离散的，所以是一个一维数组 x_test = [ [5] ] # 测试集的特征数据 # 创建KNN分类模型对象 estimator = KNeighborsClassifier(n_neighbors=2) # 也即是 K # 模型训练 estimator.fit(x_train, y_train) # 拟合 # 模型预测 y_predict = estimator.predict(x_test) # 打印预测结果 print(y_predict)

回归实现

# 回归代码实现 """ KNN算法介绍(K Nearest Neighbors), K近邻算法 原理： 基于 欧氏距离（或者其它的距离计算方式）计算 测试集 和 每个训练集之间的距离，然后根据距离升序排列，找到最近的K个样本 基于K个样本投票，票数最多的就作为最终的预测结果 ---> 分类问题 基于K个样本计算平均值，作为最终预测结果 ---> 回归问题 实现思路： 1.分类问题 适用于：有特征，有标签，且标签是不连续的(离散的) 2.回归问题。 适用于：有特征，有标签，且标签是连续的。 KNN算法，回归问题思路如下： 1.计算测试集和每个训练的样本之间的距离。 2.基于距离进行升序排列。 3.找到最近的K个样本. 4.基于K个样本的标签值，计算平均值 5.将上述计算出来的平均值，作为最终的预测结果。 代码实现思路： 1.导包 2.准备数据集（测试集 和 训练集） 3.创建KNN分类模型对象 4.模型训练 5.模型预测 """ # 导包 from sklearn.neighbors import KNeighborsRegressor # 这个表示的是分类 # 训练集的特征数据 x_train = [ [0, 0 ,1], [1, 1, 0], [3, 10, 10], [4, 11, 12] ] # 训练集的标签数据 y_train = [ 0.1, 0.2, 0.3, 0.4 ] # 测试集的特征数据 x_test = [ [3, 11, 10] ] # 创建KNN分类模型对象 estimator = KNeighborsRegressor(n_neighbors=2) # 模型训练 estimator.fit(x_train, y_train) # 模型预测 y_predict = estimator.predict(x_test) # 打印预测结果 print(y_predict) # [0.35]

距离度量

欧氏距离的计算方法

欧氏距离 = 对应维度差值平方和，开平方根

曼哈顿距离的计算方法

曼哈顿距离，城市街区距离 = 对应维度差值的绝对值，求和

切比雪夫距离的计算方法

切比雪夫距离 = 对应维度值差值的绝对值，求最大值。

闵可夫斯基距离的计算方法

不是一种新的距离的度量方式，是对多个距离度量公式的概括性的表述（总结）。

特征预处理

为什么要做归一化和标准化？

特征的单位或者大小相差太大，或者某个特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些模型（算法）无法学习到其他的特征。

归一化

通过对原始数据进行变化，把数据映射到 [min, max]（默认为 [0, 1] ）之间

弊端：容易受到最大值和最小值的影响，所以它一般用于处理小数据集。

API

# 数据归一化API # 导包 from sklearn.preprocessing import MinMaxScaler # 准备数据集（归一化之前的原数据） x_train = [ [90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46] ] # 创建归一化对象 scaler = MinMaxScaler() # 对原数据集进行归一化操作 x_train_new = scaler.fit_transform(x_train) # 输出归一化后的数据 print(x_train_new)

标准化

通过对原始数据进行标准化，转换为均值为0标准差为1的标准正态分布的数据。适用于大数据集的处理。

API

# 数据标准化API # 导包 from sklearn.preprocessing import StandardScaler # 标准化对象 # 准备数据 x_train = [ [90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46] ] # 创建数据标准化对象 standard = StandardScaler() # 标准化 # 对原始特征进行变换 x_new_train = standard.fit_transform(x_train) # 打印标准化后的结果 print(x_new_train)

企业官网建设流程全解析

机器学习_算法分类

有监督学习

分类问题

回归问题

无监督学习

半监督学习

强化学习

总结

机器学习建模流程

特征工程

特征工程概念

特征提取

特征预处理

特征降维

特征选择

特征组合

模型拟合问题

拟合

欠拟合

概念

产生原因

过拟合

概念

产生原因

泛化

概念

奥卡姆剃刀原则

机器学习开发环境

KNN算法

KNN算法简介

K值的选择

K值过小

K值过大

思路分析

KNN算法API介绍

分类实现

回归实现

距离度量

欧氏距离的计算方法

曼哈顿距离的计算方法

切比雪夫距离的计算方法

闵可夫斯基距离的计算方法

特征预处理

归一化

API

标准化

API

热门文章

文章分类

标签云

相关文章

通过 Node.js 后端服务接入 Taotoken 实现多轮对话机器人

STM32 CCMRAM避坑指南：从链接脚本配置到外设DMA冲突的完整解决方案

闲置斐讯N1别吃灰！手把手教你刷OpenWRT做旁路由，再装上cpolar实现远程管理

需要专业的网站建设服务？