差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录 前一修订版 | |||
home:students:2022undergraduate_thesis:xrwang [2022/05/17 17:05] 18307110337 |
home:students:2022undergraduate_thesis:xrwang [2022/05/17 17:08] (当前版本) 18307110337 |
||
---|---|---|---|
行 31: | 行 31: | ||
其编码器部分由数个编码器模块构成,每个编码器模块都由多头自注意力层和前馈神经网络构成,并且通过加入残差联接来使得搭建更深的神经网络成为可能,此外,在层与层之间还加入了归一化层进行标准处理。 | 其编码器部分由数个编码器模块构成,每个编码器模块都由多头自注意力层和前馈神经网络构成,并且通过加入残差联接来使得搭建更深的神经网络成为可能,此外,在层与层之间还加入了归一化层进行标准处理。 | ||
其解码器部分同样由数个解码器模块组成,每一个解码器模块由一层多头自注意力、一层交叉注意力和一层前馈神经网络组成。交叉注意力的特性是其$Q$矩阵来自于上一层解码器的输出矩阵,而$K$、$V$矩阵来自于编码器的对应深度模块,从而实现了跨越网络主体对输入进行查询提高了输出与输入的强关联性。与编码器模块类似,解码器模块在层与层之间同样加入了残差联接和归一化层。 | 其解码器部分同样由数个解码器模块组成,每一个解码器模块由一层多头自注意力、一层交叉注意力和一层前馈神经网络组成。交叉注意力的特性是其$Q$矩阵来自于上一层解码器的输出矩阵,而$K$、$V$矩阵来自于编码器的对应深度模块,从而实现了跨越网络主体对输入进行查询提高了输出与输入的强关联性。与编码器模块类似,解码器模块在层与层之间同样加入了残差联接和归一化层。 | ||
- | {{ :home:students:2022undergraduate_thesis:2022.05.01_10.13.38.png?400 |}} | + | {{ :home:students:2022undergraduate_thesis:2022.05.01_10.13.38.png?200 |}} |
===== uniLM简介===== | ===== uniLM简介===== |