RWKV-7 "Goose" 是2025年3月发布的新型循环神经网络架构,其核心创新与更新内容如下:
架构革新
引入广义delta规则,支持向量化门控机制和动态上下文学习率
分离状态更新中的移除键(κ)与替换键(k̃),提升状态表达能力
采用Head维度64的矩阵状态(单头64×64),相比前代参数效率提升40%
性能突破
2.9B参数模型在3B规模多语言任务(XWinogrande/XStoryCloze)达到61.1%准确率,超越同期Qwen2.5 3B模型5.5个百分点
推理速度达16k tokens/秒(H100),内存占用恒定在5.2GB(2.9B模型)
理论证明
可识别所有正则语言(TC0类问题)
单层实现S5置换群跟踪,突破Transformer的TC0复杂度限制
资源开放
发布3.1万亿token多语料库RWKV World v3
开源4个预训练模型(0.19B-2.9B)和训练代码
视觉扩展版VisualRWKV-7在VQAv2达到80.5%准确率
论文v2版本主要增加了长上下文实验(支持50k token窗口)和音频建模结果(AudioSet 0.431 mAP),完整训练代码已在GitHub同步更新。
如需获取最新资源:
- 模型权重:https://huggingface.co/RWKV
- 训练代码:https://github.com/RWKV/RWKV-LM
- 数据集清单:论文附录B详细说明语料构成