这段代码是 _make_causal_mask
函数中处理滑动窗口局部注意力的部分。这里的目的是创建服务器托管网一个额外的掩码,以便在自注意力机制中只考虑每个位置附近的一定数量的位置,而不是所有之前的位置。这通常用于减少计算复杂性和提高长序列处理的效率。
代码分析如下:
-
diagonal = past_key_values_length - sliding_window + 1
: 这里计算的是上三角矩阵(triu
)的开始对角线的索引。对于每个位置i
,这个滑动窗口限制它只能看到从位置i - sliding_window + 1
到位置i
服务器托管网的信息。如果考虑了历史键值对的长度,那么窗口将从i + past_key_values_length - sliding_window + 1
开始。 -
torch.ones_like(mask, dtype=torch.int)
: 创建一个和mask
形状相同的全是1
的张量。这将作为基础矩阵来创建上三角掩码。 -
torch.triu(...)
: 创建一个上三角矩阵,其中diagonal
参数指定了对角线的索引。对角线以上的元素全部为1,对角线以下(含对角线自身)的元素为0。这意味着对于每个位置i
,它只能关注到i - sliding_window + 1
之后的位置。 -
context_mask = 1 - torch.triu(...)
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
此章介绍的科普物理声音知识相当有用,编程的反而涉及的少 音量和响度 Loudness 响度 注:根据《韦氏词典》,响度是“一种声音的属性,它决定了所产生的听觉感觉的大小,主要取决于所涉及声波的振幅。”这意味着响度取决于你大脑中感知到的声音。而是声音对你来说有多…