CMU-深度学习系统-第二章

2025-03-02 AI Infra, 学习笔记 0 评论字数统计: 754(字) 阅读时长: 2(分)

这章是用softmax的例子来回顾了ML的知识点。

softmax回归又叫多类逻辑回归，就是将输入数据进行分类，通过softmax函数得到每个类别的概率。

而这样的分类问题，是通过实现准备这样一个数据集：包含数据和数据对应的标签。让模型学习数据集和标签的对应关系，这样的过程叫做监督学习。

除了监督学习，还有

无监督学习

数据没有标签，模型从无标签数据中发现隐藏模式或结构。

如K-means、层次聚类、主成分分析（PCA）

半监督学习（Semi-Supervised Learning）

结合少量有标签数据和大量无标签数据训练模型。

适用于标注成本高，但未标注数据丰富（如医学图像分析）。

强化学习（Reinforcement Learning, RL）

模型通过与环境交互，根据奖励信号调整策略，目标是最大化长期累积奖励。

适用于序列决策问题（如机器人控制、游戏AI）。

Q-learning、深度强化学习（DQN）、策略梯度（PPO）。

自监督学习（Self-Supervised Learning）

通过构造“伪标签”从无标签数据中学习，属于无监督学习的子类。

NLP中的预训练模型（如BERT通过掩码预测学习上下文）。

图像中的对比学习（如SimCLR通过图像增强构造正负样本对）。

多任务学习（Multi-Task Learning）

同时学习多个相关任务，共享部分模型参数以提高泛化能力。

一个模型同时完成文本分类和实体识别。