[arXiv] OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

约 1122 个字预计阅读时间 4 分钟

Info

Author: Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg
arXiv: 2503.01943

论文

364 KB / 15 P / 2025-04-18

核心问题与贡献

论文针对编程竞赛中的代码生成任务（Competitive Coding），提出了一种基于大规模数据蒸馏（Data Distillation）的监督微调（Supervised Fine-Tuning, SFT）方法。现有方法存在以下挑战：

数据质量与规模限制：高质量人工标注数据稀缺，传统方法依赖强化学习（Reinforcement Learning, RL）或小规模合成数据，难以覆盖复杂编程问题。
泛化能力不足：现有模型在长尾问题（如高难度编程题目）上表现不佳，且难以跨语言（如Python与C++）迁移。
推理效率低下：生成代码前的推理过程（如链式思考，Chain-of-Thought）需消耗大量计算资源，影响实际应用。

OpenCodeReasoning数据集：
- 包含 736,712 个Python样本和 355,792 个C++样本，覆盖28,904个独特编程问题，是目前最大的代码推理数据集。
- 通过 DeepSeek-R1 生成多样化解决方案，支持多语言与多难度级别。
纯监督微调（SFT-only）性能突破：
- 仅通过SFT训练，Qwen2.5系列模型在 LiveCodeBench 和 CodeContests 基准上达到最先进水平（32B模型分别取得61.8%和24.6%的pass@1准确率），超越依赖RL的模型。
数据过滤与多样性分析：
- 发现执行过滤（Execution Filtering）会降低模型性能，强调指令多样性的重要性。
- 验证多语言数据（如C++）对特定任务（如IOI基准）的增益，但需优化融合策略。

问题收集与去重：
- 整合TACO、APPS、CodeContests等公开数据集，通过余弦相似度（阈值0.7）和人工审核消除语义重复。
代码生成：
- 使用DeepSeek-R1进行多语言生成（Python/C++），参数：温度0.6，top-p 0.95，最大输出长度16k tokens。
后处理：
- 分离推理步骤与代码块，验证语法正确性（Tree Sitter解析器），过滤含代码的推理文本。

数据集	问题数量	样本数量	预处理方式
LiveCodeBench	279	-	2408-2502时间段问题，64次推理平均
CodeContests	28,904	736k	单元测试验证，16次推理平均
IOI	-	356k	仅C++评测，8次运行取最高分

模型规模	LiveCodeBench (pass@1)	CodeContests (pass@1)	关键结论
OCR-Qwen-7B	51.3%	18.1%	超越OlympicCoder-7B 10.4%
OCR-Qwen-32B	61.8%	24.6%	接近DeepSeek-R1（65.6%）

模式分布：正确解决方案中自我评估（Self-Evaluation）和子目标生成（Subgoal Generation）占比显著更高（p<0.05）。
熵值对比：正确方案熵值1.26 vs 错误方案1.19，多样性策略提升准确性。