[ICML] NExT: Teaching Large Language Models to Reason about Code Execution

约 978 个字预计阅读时间 3 分钟

Info

Author: Ansong Ni, Miltiadis Allamanis, Arman Cohan, Yinlin Deng, Kensen Shi, Charles Sutton, Pengcheng Yin
Conference: ICML 2024
arXiv: 2404.14662

论文

1.56 MB / 35 P / 2025-03-17

研究背景与问题定义

近年来，大型语言模型（LLMs, Large Language Models）在代码生成、代码解释、代码审查等任务中取得了显著进展。然而，尽管这些模型在生成高质量代码方面表现出色，它们在需要深入理解程序执行行为的复杂软件工程任务（如程序修复）中仍然存在局限性。

如何使大型语言模型具备理解和推理程序执行过程的能力，从而提高其在代码修复任务中的表现？

NExT (Naturalized Execution Tuning) 通过自训练（Self-Training）方法，增强 LLMs 在代码修复任务中的执行推理能力。

核心思想：

给定程序修复任务数据集 \(D = \{(x_j, \tilde{y}_j, T_j, \epsilon_j)\}\)，NExT 采用以下流程：

输入信息：
- 自然语言任务描述 \(x\)
- 有缺陷代码 \(\tilde{y}\)
- 测试用例集合 \(T\)
- 执行轨迹 \(\epsilon\)
采样 (Sampling)：从当前模型 \(P_\theta\) 生成一组候选推理 \(r\) 和修复代码 \(\hat{y}\)。
过滤 (Filtering)：使用单元测试执行修复代码，保留通过所有测试的 \((r, \hat{y})\) 对。
微调 (Training)：对模型进行多轮微调，目标是最大化这些合理推理-修复对的生成概率。

修复成功率显著提升
- 在 Mbpp-R 上，PaLM 2-L 经过 NExT 微调后，pass@1 提升 26.1%。
- 在 HeFix+ 上，PaLM 2-L+NExT pass@1 提升 14.3%。
推理质量提升
- Proxy-based 评估表明，NExT 训练后的模型生成的推理对更小的 LLM 更具指导性。
无需执行轨迹也能有效工作
- 在测试阶段去除执行轨迹输入时，NExT 训练的模型 pass@1 仍比原始模型高 21.8%。