attention
-
加速attention计算的工业标准:flash attention 1和2算法的原理及实现
transformers目前大火,但是对于长序列来说,计算很慢,而且很耗费显存。对于transformer中的self attention计算来说,在时间复杂度上,对于每个位置,模…
-
图解Transformer | The Illustrated Transformer
文章目录 写在最前边 正文 从高层面看 图解张量 现在我们来看一下编码器 自注意力 细说自注意力机制 用矩阵计算self-attention 多头注意力 使用位置编码表示序列的位置…
