深度学习基础
1、化学习与深度学习的关系
强化学习解决的是序列决策问题,而深度学习解决的是“打标签”问题,即给定一张图片,我们需要判断这张图片是猫还是狗,这里的猫和狗就是标签,当然也可以让算法自动打标签,这就是监督学习与无监督学习的区别。而强化学习解决的是“打分数”问题,即给定一个状态,我们需要判断这个状态是好还是坏,这里的好和坏就是分数。
除了训练生成模型之外,强化学习相当于在深度学习的基础上增加了一条回路,即继续与环境交互产生样本。相信学过控制系统的读者很快会意识到,这个回路就是一个典型的反馈系统机制,模型的输出一开始并不能达到预期的值,因此通过动态地不断与环境交互来产生一些反馈信息,从而训练出一个更好的模型。
2、线性回归
线性模型并不是深度学习模型,而是传统的机器学习模型,但它是深度学习模型的基础,在深度学习中相当于单层的神经网络。
在线性模型中,应用较为广泛的两个基础模型就是线性回归和逻辑回归,通常分别用于解决回归和分类问题,尽管后者也可以用来解决回归问题。
3、梯度下降
其基本思想如下。
- 初始化参数:选择一个初始点或参数的初始值。
- 计算梯度:在当前点计算函数的梯度,即函数关于各参数的偏导数。梯度指向函数值增加最快的方向。
- 更新参数:按照负梯度方向更新参数,这样可以减少函数值。这个过程在神经网络中一般是以反向传播算法来实现的。
- 重复上述二三步骤,直到梯度趋近于 0 或者达到一定迭代次数。
梯度下降本质上是一种基于贪心思想的方法,它的泛化能力很强,能够基于任何可导的函数求解最优解。
4、逻辑回归
它是用来解决分类问题的,而不是回归问题(即预测问题)。在分类问题中,我们的目标是预测样本的类别,而不是预测一个连续的值。
函数定义为式 。
逻辑回归的主要优点在于增加了模型的非线性能力,同时模型的参数也比较容易求解,但是它也有一些缺点,例如它的非线性能力还是比较弱的,而且它只能解决二分类问题,不能解决多分类问题。
5、全连接网络
将线性层横向堆叠起来,前一层网络的所有神经元的输出都会输入到下一层的所有神经元中,这样就可以得到一个全连接网络。其中,每个线性层的输出都会经过一个激活函数,这样就可以增加模型的非线性能力。
我们把这样的网络叫做全连接网络(),也称作多层感知机(),是最基础的深度神经网络模型。把神经网络模型中前一层的输入向量记为 ,其中第一层的输入也就是整个模型的输入可记为,每一个全连接层将前一层的输入映射到,也就是后一层的输入,具体定义为式 。
其中 是权重矩阵, 为偏置矩阵,与线性模型类似,这两个参数我们通常看作一个参数 。 是激活函数,除了 函数之外,还包括 函数、 函数和 函数等等激活函数。其中最常用的是 函数 和 函数,前者将神经元也就是线性函数的输出映射到 之间,后者则映射到到之间。
6、更高级的神经网络
卷积神经网络
卷积神经网络()适用于处理具有网格结构的数据,如图像(网格像素点)或时间序列数据(网格)等,其中图像是用得最为广泛的。
循环神经网络
循环神经网络()适用于处理序列数据,也是最基础的一类时序网络。在强化学习中,循环神经网络常常被用来处理序列化的状态数据,
但是基础的 结构很容易产生梯度消失或者梯度爆炸的问题,因此我们通常会使用一些改进的服务器托管网循环神经网络结构,例如服务器托管网 和 等。 主要是通过引入门机制(输入门、遗忘门和输出门)来解决梯度消失的问题,它能够在长序列中维护更长的依赖关系。而 则是对 的简化,它只有两个门(更新门和重置门),并且将记忆单元和隐藏状态合并为一个状态向量,性能与 相当,但通常计算效率更高。
还有一种特殊的结构,叫做 。虽然它也是为了处理序列数据而设计的,但是是一个完全不同的结构,不再依赖循环来处理序列,而是使用自注意机制 () 来同时考虑序列中的所有元素。并且 的设计特别适合并行计算,使得训练速度更快。自从被提出以后, 就被广泛应用于自然语言处理领域,例如 以及现在特别流行的 等模型。
DQN算法
算法,英文全称 , 顾名思义,它的主要贡献就是在 算法的基础上引入了深度神经网络来近似动作价值函数 ,从而能够处理高维的状态空间。
算法主要由 公司于 年①和 年②分别提出的两篇论文来实现,其中后者是比较成熟的版本
① Mnih V , Kavukcuoglu K , Silver D ,et al.Playing Atari with Deep Reinforcement Learning[J].Computer Science, 2013.DOI:10.48550/arXiv.1312.5602.
② Human-level control through deep reinforcement learning[J].Nature, 2015.
DQN算法进阶
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net