在当今教育技术快速发展的时代,自动作文评分(AES)作为人工智能在教育评估中的一大亮点,正迎来全新的突破。想象一下,一个模型不仅能评分已知题目的作文,还能凭借其语法和结构理解能力,精准评估全新题目的写作水平——这正是我们今天探讨的主题。本文将带您走进“语法感知跨题目作文评分”(Grammar-aware Cross-Prompt Automated Essay Scoring,简称GAPS)的世界,解密这一领域的创新技术和内部机制,像讲一段动人心弦的探险故事般,揭示如何利用语法纠错、知识共享和多层次编码,实现作文评分的跨题目泛化。
🌍 开篇序言:教育评估的技术革命
自从自动作文评分系统问世以来,人们便希望借助这一技术解决人工评分所伴随的主观性和高成本问题。然而,早期的AES系统主要针对特定题目进行训练,对于全新题目的适应能力大打折扣。近年来,随着深度学习技术的飞速发展,越来越多的研究开始关注如何构建“跨题目”评分系统,也就是说,希望能评估从未见过题目的作文,这便是跨题目AES的背景。传统方法虽然在利用分数和题目无关的特征构建作文表示方面已有一定进展,但如何捕捉作文中更普适的语法和结构特征,始终是一个颇具挑战的问题。
正因如此,研究者们提出了一种崭新的思路:在评分前先进行语法错误纠正,将作文原文与纠正后的文本作为双输入,利用二者之间的互补信息获得更具普适性的作文表示。正如一名经验丰富的教师在批改作文时,既关注学生原始表达的思路,也会参考改正后的内容判断语法水平,这种直接利用语法纠正信息的方法便成为技术革新的重要驱动。本文将深入解析这一方法的工作原理与实验验证,展示其在各评分指标上的显著提升效果。
📚 相关研究的迭代与跨界探索
过去的研究中,自动作文评分主要借助多任务学习、对比学习及提示感知网络等方法,力图构建通用的作文表示。例如,部分研究利用句法标注、类型预测以及情感分析等辅助任务来提高模型评分准确性。而另一部分工作则通过设计对比损失或提示网络,来取得题目不可知的评分效果。
相比之下,“语法感知”方法的独特之处在于,它直接利用预训练的语法纠错模型(例如基于T5的GEC模型)对原始作文文本进行纠正,并在纠正结果中嵌入特定的纠正标签,如将漏写的单词以“<corr> M: the </corr>”形式标注。这样的设计不仅能够加强模型对文本关键语法错误的敏感度,还为后续评分提供了更具语法一致性的输入。与现有的辅助训练方法相比,语法感知方法大大降低了训练负担,同时释放出更丰富的语法信息,有助于生成具有更强泛化能力的作文表示。
✨ 技术内部揭秘:GAPS 的核心构架
GAPS 方法总体分为两大步骤:首先是【作文纠正】;随后是【语法感知的作文评分】。这两部分通过精心设计的模型结构和层次化的编码机制无缝衔接,实现了对原文与纠正文本的综合理解。
🖋️ 作文纠正:从错误到改进
在第一步中,我们采用预训练的 T5-based 语法纠错模型(参见 Rothe et al. 2021),系统自动识别原始作文中的多种语法错误,并输出纠正后的文本。这里,我们根据 ERRANT 错误标注工具(Bryant et al. 2017)将错误分为三类:
- “Missing (M)”:缺失必要的词汇;
- “Replacement (R)”:错误替换的词汇;
- “Unnecessary (U)”:多余的、不合适的词汇。
对于每一种错误,系统不仅输出改正后的词汇,还在文本中嵌入特定标签,用以明确指出修正内容。例如,原文中漏写的定冠词“the”便会被标记为“<corr> M: the </corr>”。这种显式标注方法使得模型在后续编码过程中能够更专注于语法细节的学习。
🔍 语法感知的作文评分模型
在评分阶段,GAPS 同时对原作文及语法纠正后的文本进行编码。具体来说,每一种文本都由独立但结构相同的编码器处理,这种“双通道”结构确保了两份信息在初始阶段就能被单独学习,便于后续的信息融合。编码器采用层次化设计,即将作文拆分成较小的句子,再利用一维卷积层、注意力池化以及多头自注意力机制对每个句子生成局部表示。
例如,在句子编码过程中,我们首先通过词性嵌入(POS embedding)得到词汇在句子中的语法表现,然后利用一维卷积提取局部特征,接着通过注意力池化将这些局部特征整合为句子的全局表示。公式上,句子级表示的计算可以简化为:
\mathbf{s} = \text{Pooling}_{att}([c_1: c_w])
其中,c_1, \ldots, c_w 分别表示句子中各词的局部特征,\text{Pooling}_{att} 表示注意力池化函数,通过这种方式获得的句子表示,既包含了语义信息,又结合了语法结构特征。
紧接着,为了更高效地捕捉作文中跨句子的依赖关系,模型采用了多头自注意力机制,其核心计算公式为:
H_i = \text{att}(SW_i^1, SW_i^2, SW_i^3)
随后,我们将各头注意力的输出进行拼接,并乘以参数矩阵 W^O 得到最终的表示向量 M,其表达式为:
\mathrm{M} = \text{concat}(H_1,...,H_h)W^{O}.
这种结构不仅可以捕捉句与句之间的依赖关系,还能理解不同语法层次的信息,有助于生成对各种评分指标均具表现力的作文向量。
🤝 知识共享层:整合原文与改进文本
取得原文与纠正文本各自的表示之后,一个至关重要的步骤即为“知识共享”。此时,GAPS 设计了跨注意力层(cross-attention layer),使得纠错后的语法信息能够与原始文本的语义信息进行互补。具体来说,我们采用语法纠正文本表示作为查询(query),原文表示作为键值(key 和 value),通过如下公式实现信息的交互:
H_i = \text{att}(E_gW_i^1, E_oW_i^2, E_oW_i^3)
其中,E_o 和 E_g 分别代表原始作文和纠正后作文的向量表示,而 W_i^1, W_i^2, W_i^3 为参数矩阵。最终,模型将不同注意力头的输出拼接并进一步处理,生成更全面的特征向量,以供后续 trait-specific 评分层使用。
📏 损失函数与评分优化
对于训练目标,我们使用均方误差(MSE)作为损失函数,其表达式为:
\mathrm{L}(y,\hat{y})=\frac{1}{n\cdot m}\sum_{i=1}^{n}\sum_{j=1}^{m}(\hat{y}_{ij}-y_{ij})^{2},
其中 n 为作文数量、m 为每篇作文对应的 trait 数量。针对不同题目的 trait 不同,我们还采用了掩码机制,确保模型仅对有效评分指标计算损失,进一步提升评分精度。
🔬 实验设计:从数据到验证
实验部分,我们主要使用了公开的 ASAP 与 ASAP++ 数据集。这两个数据集包含了 8 个不同题目的作文,其中每篇作文均由多位专家给予多个维度的评分。数据统计如表 1 所示:
Prompt | Essay Type | 样本数量 | 评分维度(部分) |
P1 | 议论文 | 1,783 | Content, Org, WC, SF, Conv |
P2 | 议论文 | 1,800 | Content, Org, WC, SF, Conv |
P3 | 源依赖型 | 1,726 | Content, PA, Lan, Nar |
P4 | 源依赖型 | 1,772 | Content, PA, Lan, Nar |
P5 | 源依赖型 | 1,805 | Content, PA, Lan, Nar |
P6 | 源依赖型 | 1,800 | Content, PA, Lan, Nar |
P7 | 叙事文 | 1,569 | Content, Org, Conv, Style |
P8 | 叙事文 | 723 | Content, Org, WC, SF, Conv, Voice |
在跨题目设置下,我们采用“留一法”,即选定某一个题目作为测试目标,其余 7 个题目的作文用于训练。此种方法挑战极大,因为模型需在训练过程中学会捕捉题目无关、语法普适的作文特征,以便在最终迎战新题目时仍展现出优异的评分性能。实验采用 2080ti GPU、批处理大小为 10、训练 50 个 epoch,并在验证集上选取最优模型参数。
同时,我们还对比了多种方法,如仅使用单通道编码的 Single Encoder、基于提示感知方法的 PMAES 和 PLAES,以及 ProTACT 模型。其中,Single Encoder 只处理原文,缺乏语法纠正信息;而 GAPS 模型通过整合纠正文本信息,能够明显提高语法、词汇、结构等多项评分指标。
🔥 实验结果与深入讨论
实验结果充分验证了 GAPS 方法在跨题目评分中的优势。我们先从整体性能来看,GAPS 在大部分评分维度上均优于传统方法,尤其在那些与语法、拼写、标点等结构性较强的 trait 上,如 Convention(写作规范)和 Language(语言表达)的评分上,提升尤为明显。
📊 单通道与双通道的较量
表 2 展示了各模型在所有评分指标上的平均 QWK(Quadratic Weighted Kappa)得分。数据清晰表明,GAPS 模型相较于只有原文输入的 Single Encoder 模型,各项得分均有不同程度的提升。这一结果不仅印证了语法纠正信息对整体评分表现的积极影响,也证明了语法纠正标签在模型学习中的重要作用。例如,对于 Convention trait,传统模型因无法捕捉细微的语法错误而表现欠佳,而 GAPS 在参照纠正后文本后,能够有效抑制拼写或标点错误,因而表现更为出色。
📈 跨题目泛化能力
更引人注目的是,在跨题目设置下,GAPS 展示了极佳的泛化能力。因为语法是普适且与题目无关的特征,利用语法纠正信息能够为模型构建一个较为稳定的、题目无关的作文表示。实验中,我们观察到,即使在数据最少、评分维度最为复杂的 Prompt 7 中,GAPS 依然大幅提升了评分准确度和稳定性。
🧩 语法感知与提示感知的对比
在与 ProTACT 模型的对比中,我们发现,提示感知方法(PA)在捕捉逻辑流畅和题目依从性方面具有一定优势,但在细粒度的语法及语言表达上则略显不足。相比之下,语法感知方法(GA)在 Convention、Language 乃至 Narrativity(叙事性)上均表现更佳。实验结果显示,通过将 GA 与提示感知方法结合(TA+PA+GA),可以发挥各自长处,实现更全面的作文评分。正如一位资深教师在批改作文时既注重全文结构、逻辑推理,又细致琢磨语法细节,模型也因此取得了优秀的综合表现。
🔍 知识共享层与纠正标签的重要性
此外,我们还进行了消融实验(ablation study),以验证知识共享层与纠正标签对模型最终表现的影响。从表 4 的结果可以看出:
- 当移除知识共享层(“w/o KS”)时,模型在词汇选择和句子流畅性上的 QWK 得分明显下降;
- 当去除语法纠正标签(“w/o GCT”)后,尽管纠正文本信息仍被利用,但模型在捕捉关键信息上不如使用标签时精确。
这些结果无疑再次证明:明确告知模型哪些是经过修正的部分,不仅能让模型更关注关键语法错误,还能引导其在生成作文表示时更好地综合原文与改正文的信息,从而显著提升评分效果。
🔗 模型优势与局限:展望未来的改进之路
毫无疑问,GAPS 模型为跨题目自动作文评分带来了新的突破,其优势主要体现在以下几点:
- 语法普适性:通过引入语法纠错模块,模型能对作文中语法错误进行有效标注,从而捕捉到不受题目影响的普适语法特征。
- 知识共享机制:在原文与纠正文本之间构建信息交流通道,使模型全面获悉作文的表达意图和语法正确性,从而提升评分精度。
- 多层次编码:采用层次化的编码方式,既对局部句子特征进行细粒度捕捉,又能将信息整合到全局作文表示中,为评分提供更全面的支撑。
然而,即便如此,GAPS 也面临一些局限性。首先,其表现对语法纠错模型的质量有一定依赖——如果 GEC 模型未能准确地修正错误,可能会导致评分偏差。其次,在某些特定的作文类型或评分维度上,过分依赖语法信息可能会忽视文章的创造性或情感表达。因此,未来的研究有必要进一步探索不同 GEC 模型之间的适应性,以及如何更完美地平衡语法信息和语义信息,使评分系统在更多场景下都能做到既精准又富有人文关怀。
🌟 结语:技术与教育的共舞
从古至今,教育始终是人类文明的重要支柱,而作文评分作为教育评估的一环,其技术进步直接关系到评价体系的公平与科学。GAPS 模型正是这一领域的一次颠覆式创新,将语法感知与深度学习完美结合,为解决跨题目评分难题提供了一个崭新的思路。不仅如此,其所体现的信息共享和多层次编码思想,也为其他自然语言处理任务(如文档分类、机器翻译)提供了启发。
正如大海上的灯塔一般,GAPS 为我们指明了自动化教育评估的未来方向。在未来,我们期待更多的研究者能探索出更多兼具实用性和普适性的改进方法,借助技术的力量,为教育公平、提升教学质量贡献力量。
📝 参考文献
Bryant, C., Felice, M., Andersen, Ø.E., & Briscoe, T. (2017). Automatic annotation and evaluation of error types for grammatical error correction. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 793–805.
Chen, Y., & Li, X. (2023). PMAES: Prompt-mapping contrastive learning for cross-prompt automated essay scoring. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 1489–1503.
Do, H., Kim, Y., & Lee, G.G. (2023). Prompt- and trait relation-aware cross-prompt essay trait scoring. In Findings of the Association for Computational Linguistics: ACL 2023, 1538–1551.
Rothe, S., Mallinson, J., Malmi, E., Krause, S., & Severyn, A. (2021). A simple recipe for multilingual grammatical error correction. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), 702–707.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.