Java网络编程NIO与Netty框架
2026/6/26 9:35:43
目录
1 transformer原始架构
2 三个注意力模块的区别和翻译过程中的作用
2.1 编码器中的多头自注意力(无掩码)
2.2 解码器中的多头掩码自注意力(有掩码)
2.3 解码器中的多头编解码注意力(无掩码)
2.4 我的通俗理解
abstract:
Masked Multi-Head Self-Attention(带掩码的多头自注意力)
Multi-Head Encoder-Decoder Attention(多头编码器-解码器注意力)
然后在Transformer彻底剖析(0): Transformer的Decoder的输入输出都是什么
已经写了自回归的问题,接下来整理一下这里面三个注意力模块有什么区别,以及作用分别是什么。
从前面图中可以看到,这三个注意力模块分别是
编码器相当于解析原文我爱你的中文内部语义信息,相当于创建了一个数据库,等待后面编解码注意力查询, 然后解码器中第一个注意力是相当于理解我现在已经翻译出来的英文原始句子信息,这两个目前为止就是相当于一个理解中文全文自身,一个相当于理解已经翻译出来的英文自身,然后编解码注意力相当于在理解了目前已经翻译出来的英文自身的基础上,然后去看看中文里面我接下来该翻译什么了,然后就相当于中英文状态结合去翻译,其实这就相当于翻译的时候,一边看看原文,一遍看看已经翻译出来的几个单词,综合决定接下来翻译成什么
【Encoder】 我 爱 你 ↓ “中文整体语义数据库” 【Decoder 每一步】 1. 看看我已经翻译了什么(英文自己) 2. 带着这个状态去查中文语义 3. 把中英文信息融合 4. 决定下一个英文词