自注意力机制总结 假设现在有一个句子(s1,s2,s3),v是s的转置 第一个词和每一个词的内积 相似度越大 结果越大 s1v1 s1v2 s1v3 第二个词和每一个词的内积 s2v1 s2v1 s2v3 第三个词 ...