【Transformer】Transformer and BERT（1）

Posted on 2024年2月21日 by hackdl

服务器托管网

文章目录

Transformer
BERT

太…完整了！同济大佬唐宇迪博士终于把【Transformer】入门到精通全套课程分享出来了，最新前沿方向

学习笔记

Transformer

无法并行，层数比较少

词向量生成之后，不会变，没有结合语境信息的情况下，存在一词多义，无法处理

词如何编码成向量

第一句话中，it 和 animal 的相应最高

内积，正交的话内积为0，越相近（相关），内积越大

d

k

sqrt{d_k}

$d_{k}$

的目的，向量维度越大，内积也越大，

d

服务器托管网
k

sqrt{d_k}

$d_{k}$

起到 scale 的作用

对于每个输入 x1 … xn, 计算一样的，可以并行为一个矩阵乘法

多头类比多个卷积核，来提取多种特征

不同的头得到的特征表达也不相同

多头包含在了 self-attention 中了

引入位置编码，形式有很多，比如 one-hot，原文中作者使用的是周期性信号进行编码

layer normalization 和 residual structure

encoder-decoder attention，encoder 的 K,V，decoder 的 Q

mask 机制：以翻译为例，不能透答案了，翻译到 I am a 的时候，student 要被 mask 起来，只能计算 I am a 的注意力

不能用后面未知的结果当成已知的条件

BERT

语料

预测出 mask，来训练提升特征编码能力

end-to-end 的形式，词编码表达和 task 一起训练

答案 d2->d3

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net

相关推荐: java的json解析

import com.alibaba.fastjson.*; public class JsonParser { public static void main(String[] args) { String jsonStr = “{“name”:”John”…

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用

服务器托管

咨询：董先生

电话13051898268 QQ/微信93663045！

上一篇: java类初始化及代码块加载顺序连根拔起
下一篇: 数据抽取平台pydatax介绍