不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
为什么有的人喜欢带着 MacBook 去咖啡店或者书店上网,而不是 ThinkPad 之类的?
为什么有的人喜欢带着 MacBook 去咖啡店或者书店上网,而不是 ThinkPad 之类的?...(144 )人阅读时间:2025-06-23 04:55:09
家庭网络,是否有必要做多个网段并隔离?
家庭网络,是否有必要做多个网段并隔离?...(144 )人阅读时间:2025-06-23 05:00:09
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?...(144 )人阅读时间:2025-06-23 05:30:10
新买的移动硬盘该格式化为 NTFS 还是 exFAT?
新买的移动硬盘该格式化为 NTFS 还是 exFAT?...(144 )人阅读时间:2025-06-23 06:25:10为什么感觉wps的用户越来越多,office没人用了?
为什么感觉wps的用户越来越多,office没人用了?...2020-02-21美国国务卿称将开始吊销中国学生签证,包括在关键领域学科学生,影响有多大?在美中国留学生该怎样应对?
美国国务卿称将开始吊销中国学生签证,包括在关键领域学科学生,影响有多大?在美中国留学生该怎样应对?...2020-02-21同样作为用 Rust 实现的编辑器,Helix 和 Zed 应当如何选择?
同样作为用 Rust 实现的编辑器,Helix 和 Zed 应当如何选择?...2020-02-21请问有没有什么工具能够生成局域网的网络拓扑结构图?
请问有没有什么工具能够生成局域网的网络拓扑结构图?...2020-02-21