[ICSE] Reasoning Runtime Behavior of a Program with LLM: How Far Are We?

约 1069 个字预计阅读时间 4 分钟

Info

论文

983 KB / 13 P / 2025-03-09

论文概述

本研究评估了代码大语言模型（Code LLMs）在程序运行时行为推理（Runtime Behavior Reasoning, RBR）任务上的表现。

现有代码基准（如 HumanEval）主要关注输入-输出推理，而忽略了代码执行的中间行为及其一致性问题。

论文提出了新的评测框架 REval，涵盖：

实验结果显示，当前 LLM 在 RBR 任务上的平均准确率仅 44.4%，IC 评分仅 10.3，表明 LLM 在代码执行推理方面存在重大挑战。

代码 LLM 的应用增长
- 代码 LLM（如 CodeLlama, GPT-4-Turbo）在代码生成、漏洞检测等任务中表现出色。
- 但代码推理能力仍然较弱，特别是在理解代码执行行为上。
现有代码评测基准的不足
- HumanEval 等基准主要评估 输入 \(\to\) 输出 关系，而忽略中间状态。
- LLM 可能会给出不一致的推理结果（如预测某条语句不会执行，却又认为它修改了变量值）。
代码执行推理的重要性
- 代码是可执行的，而不仅仅是文本。
- 理解执行路径、变量状态和代码覆盖情况，对调试、漏洞检测、自动修复等任务至关重要。

运行时行为推理（Runtime Behavior Reasoning, RBR）评估 LLM 是否能推理代码执行的中间状态，包括：
- 代码覆盖预测（CCP）：某条语句是否会执行？
- 程序状态预测（PSP）：变量的最终值和类型是什么？
- 执行路径预测（EPP）：下一条执行的语句是什么？
- 输出预测（OP）：程序最终的输出是什么？
增量一致性评估（Incremental Consistency Evaluation, IC）
- 衡量 LLM 在相互关联的推理任务中的逻辑一致性。
- 例如，若 LLM 预测某条语句不会执行（CCP），则它不应预测该语句影响变量状态（PSP）。