【人工智能】机器学习

本文最后更新于 2025年6月9日 晚上

【人工智能】机器学习

  • 什么是机器学习?
    在研究领域使计算机能在没有明确编程的情况下自行学习解决问题的规律。更具体来说,我们可以通过机器学习训练出模型,并用这些模型解决问题。

  • 学习机器学习的目标?
    学会使用各种算法,表示、训练、使用模型。

基本概念

模型

通过机器学习来解决问题,不再是使用传统的硬编码来编写程序,相反其生成的“解题工具”是一堆参数集,而这些参数集被称作模型。

类比到数学上,解决问题的过程就是函数映射的过程。在传统程序中,这部分由人类思考完整的解题流程并硬编码到程序中;而在机器学习中,这一过程被实现在了模型中,模型中参数的可变性,使得程序可以学习,并因此能解决那些难以用完整逻辑描述的函数映射。

数据集

用于训练(制作)模型的初始样本。通过分析这些初始样本,再将其规律反应在模型参数上,就训练出了最基本模型。

通用符号

  • xx:输入变量、特征、输入特征。
  • yy:输出变量、目标变量。
  • mm:训练样本的总数。
  • (x,y)(x,y):单个训练样本。
  • (x(i),y(i))(x^{(i)},y^{(i)}):第 i 个训练样本。
  • y^\hat{y}:y 的估计值或预测值。
  • ff:模型,y^=f(x)\hat{y}=f(x)

机器学习算法

模型是参数集,而利用这些参数计算的函数,则叫机器学习算法。想要实现机器学习,需要将传统的硬编程解决问题,改为通过一些通用的算法来实现。目前常用于实现机器学习的算法有以下几类:

  • 监督学习
  • 无监督学习
  • 推荐系统
  • 强化学习

监督学习

使用监督学习开发的算法,通常用于计算从 x 到 y 的函数性问题,且研究者会事先给算法提供一些学习例子(一组已知的正确 xy 映射)。

列如:垃圾邮件判断(输入邮件,输出布尔值),语言识别(输入音频,输出文本),广告推销(输入用户信息,输出点击率)。

问题类型

  • 回归:从无限多个可能的数字中预测一个(连续的)。
  • 分类:从有限的,可非数值的答案中预测一个(离散的)。

相应的,解决这些问题的算法就叫“xx 算法”(如“回归算法”)。

无监督学习

无监督学习不是用于输出正确答案的算法(因为开发者也不知道有哪些答案,所以它与 y 无关),其输出是聚焦在输入数据本身的特征信息。

例如:新闻分类(自动生成新闻簇,并将预计为报道同一件事的新闻归类在同一个簇中),金融诈骗检测(自动判断非常规交易信息,判断其是否为异常)。

问题类型

注:“无标签”指未事先人物给数据分类标记,数据特征点全靠机器自行识别。

  • 聚类:将无标签的数据自动分类到不同的簇中(无限个未知的离散答案)。
  • 异常检测:从一堆无标签事件中检测错误等非常规事件。
  • 降维:在尽可能不丢失信息的情况下压缩数据集。

模型制作流程

模型中的参数不是人为指定的,而是通过训练实现的。想要完整制作一个模型,需要按以下步骤进行:

  1. 选择模型算法
  2. 找出模型参数
  3. 确定成本函数
  4. 找出使成本函数结果最小的参数

【人工智能】机器学习
https://bdffzi-blog.pages.dev/posts/1895473833.html
作者
BDFFZI
发布于
2025年6月9日
许可协议