• AGI
  • RWKV-7 "Goose"

RWKV-7 "Goose" 是2025年3月发布的新型循环神经网络架构,其核心创新与更新内容如下:

  1. 架构革新

  2. 引入广义delta规则,支持向量化门控机制动态上下文学习率

  3. 分离状态更新中的移除键(κ)与替换键(k̃),提升状态表达能力

  4. 采用Head维度64的矩阵状态(单头64×64),相比前代参数效率提升40%

  5. 性能突破

  6. 2.9B参数模型在3B规模多语言任务(XWinogrande/XStoryCloze)达到61.1%准确率,超越同期Qwen2.5 3B模型5.5个百分点

  7. 推理速度达16k tokens/秒(H100),内存占用恒定在5.2GB(2.9B模型)

  8. 理论证明

  9. 可识别所有正则语言(TC0类问题)

  10. 单层实现S5置换群跟踪,突破Transformer的TC0复杂度限制

  11. 资源开放

  12. 发布3.1万亿token多语料库RWKV World v3

  13. 开源4个预训练模型(0.19B-2.9B)和训练代码

  14. 视觉扩展版VisualRWKV-7在VQAv2达到80.5%准确率

论文v2版本主要增加了长上下文实验(支持50k token窗口)和音频建模结果(AudioSet 0.431 mAP),完整训练代码已在GitHub同步更新。

如需获取最新资源:

沪ICP备2024052574号-2