Archive: 2023/7

自注意力机制做了什么?

在听了很多关于 自注意力机制 的描述后,不自觉的会想到它用什么数学方式,模仿人类思考、关注重点词汇、短语呢?这里我打算记录一下个人理解。当遇到一句话时:”The animal didn’t cross the street because it was too tired”it 代表什么呢?人类一下子就能理解,但是计算机需要经过一系列计算,识别出it在这句话中的意义、重要程度。当模型处理每个词语(