深度学习篇---监督学习与非监督学习
2026/5/15 18:41:11 网站建设 项目流程

可以把它们理解成两种完全不同的学习哲学。为了讲得通俗,我们继续用生活里的比喻。


一、核心区别:有没有“标准答案”?

两种学习方式的根本不同,就在于学习过程中数据是否带有标签(Label)。“标签”就是标准答案。想象教一个小朋友认识水果:

  • 监督学习就像老师拿着有答案的识字卡片在教。
    你指着一张苹果的图片,同时告诉他“这是苹果”。这里图片是数据,“苹果”这个词就是标签。他通过看大量成对的“图片-名称”来学习。

  • 非监督学习就像把一篮子水果直接倒在他面前,没有任何提示
    他不知道每种叫什么,但经过观察,可能会自动把红色的圆的放一堆,把黄色的长的放一堆。他虽然没有叫出“苹果”和“香蕉”,但自己发现了数据内部的结构和规律。

所以一句话总结:

  • 监督学习:从有标签的数据中,学习输入到输出的映射关系,目的是预测

  • 非监督学习:从无标签的数据中,探索其内在结构和模式,目的是发现

下面我们深入看看这两种学习范式的细节。


二、监督学习:手把手,学预测

监督学习处理的数据集,每一行都像一个完整的“问题-答案”对。

1. 核心任务

监督学习主要干两件事,取决于“答案”是连续的数字还是离散的类别:

  • 回归:预测一个连续的数值

    • 问题:“这套房子值多少钱?”

    • 输入(特征):面积、楼层、位置、房龄。

    • 输出(标签):一个具体的价格,比如 3500000 元。

    • 经典算法:线性回归、支持向量回归、决策树回归。

  • 分类:预测一个离散的类别标签

    • 问题:“这封邮件是垃圾邮件还是正常邮件?”

    • 输入(特征):发件人、主题关键词、邮件内容。

    • 输出(标签):“垃圾邮件” 或 “正常邮件”。

    • 经典算法:逻辑回归、支持向量机、决策树、随机森林,以及你之前问的聚类其实不属于这里,但K-Means可以用于特征工程。

    :上次讲的SVM(支持向量机)就是典型监督学习,它试图找到一个最大间隔的超平面来完美区分不同类别的样本。

2. 生活比喻再理解
  • 回归:就像学飞镖,目标是让飞镖落在靶心的确切坐标上,误差越小越好。

  • 分类:就像识别不同的植物,给你一堆叶子的特征(形状、边缘、纹理),目标是说出它的种类,说对了就算赢。

3. 特点
  • 目标明确,因为标准答案在手,可以很清晰地评估模型好坏(比如预测房价和真实房价差多少,分类准确率是多少)。

  • 依赖高质量标签,标签的质量和数量直接决定模型的上限,而获取标签往往成本高昂。


三、非监督学习:自己闯,找规律

非监督学习处理的数据只有特征,没有标签。它需要在黑暗中摸索,自己定义“什么是有趣的结构”。

1. 核心任务

它的任务更加带有“探索”色彩,主要有三类:

  • 聚类:把相似的样本自动归为一组。

    • 场景:“把我们的客户大致分成几类?”

    • 输入(特征):客户的年龄、收入、消费记录。

    • 输出(发现的簇):比如“高收入高消费群体”、“年轻价格敏感群体”等,这些群体是算法自己发现的,不是人教给它的。

    • 经典算法:K-Means、DBSCAN、层次聚类。(这就是你之前了解过的内容)

  • 降维:在尽量保留原始信息的前提下,把高维数据压缩到低维空间。

    • 场景:“这个基因测序数据有上万个指标,怎么才能在一张二维图上可视化出来?”

    • 输入(特征):数万个基因表达量。

    • 输出(新的低维特征):比如压缩成两个全新的综合性特征“维度1”和“维度2”。

    • 经典算法:主成分分析(PCA)、t-SNE、自编码器。

  • 关联规则学习:发现数据项之间有趣的共现关系。

    • 场景:“买了尿布的顾客,是不是经常会同时买啤酒?”

    • 输入(特征):所有顾客的购物小票清单。

    • 输出(规则):比如{尿布} -> {啤酒},并附上这条规则的置信度。

    • 经典算法:Apriori、FP-Growth。

2. 生活比喻再理解
  • 聚类:就像去一个大型聚会,没人给你介绍谁是谁,你只能通过观察,自己把人群分成“高谈阔论的”、“安静听歌的”、“围在餐台边的”等几个小圈子。

  • 降维:就像要把一本厚重的百科全书,浓缩成一张“一页纸知识图谱”,要求看完这张纸,大概也能明白整本书的脉络。

3. 特点
  • 探索性强,可以发现事先完全不知道的、出人意料的模式。

  • 评估困难,因为没有标准答案,我们很难客观地说“这个聚类结果对不对”,只能从“簇内是否足够紧密、簇间是否足够分离”等业务或数学角度来评判。


四、中间地带:半监督与自监督学习

现实中,还有介于两者之间的常见方法:

  • 半监督学习:拥有少量的珍贵标签数据和大量的无标签数据。想法很简单:先用少量有标签数据打下一个基础,再利用大量无标签数据去修正和优化这个边界。就像老师只教了10个苹果和10个香蕉,然后给你一卡车水果自己去琢磨。

  • 自监督学习:很巧妙,它从无标签数据里自己“制造”标签。比如给AI一大段文本,让它用前面的词去预测下一个词(像语言模型GPT做的事),或把一张图遮住一块让它去“填空”。数据和标签都源于数据自身,因此算是一种特殊的非监督学习,但它用的又是监督学习的训练范式。


五、总结框图

这张mermaid图将两者关系和核心任务清晰对比地表达出来:

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询