大模型后训练算法实习生 - 职位详情

北京中科沌序科技有限公司

北京 | 20-99人

点击查看企业详情 >

职位描述

一、岗位职责
1. 参与面向无人机具身大脑的大模型后训练工作，针对性优化模型能力，提升模型在低空环境理解、自主任务规划、执行反馈分析、复杂场景智能决策等核心场景的适配效果。

2. 负责后训练数据体系搭建与优化，完成指令数据、偏好数据、推理数据、多模态任务数据、执行反馈数据等各类数据集的构建、清洗、筛选及全流程质量评估工作，保障训练数据合规、优质、高效。

3. 参与各类大模型后训练实验落地，涵盖SFT监督微调、偏好对齐、奖励模型（Reward Model）、DPO、GRPO、RLHF/RLAIF、Agentic RL等技术方向，配合完成训练方案设计、实验迭代调试、实验结果复盘与效果分析。

3. 搭建无人机Agentic决策系统专属模型评测体系，围绕任务理解准确率、路径/方案规划生成能力、场景风险判断、规则约束遵循度、任务失败自主恢复、长时程复杂任务执行等维度，全面评估模型综合性能。

4. 联动Agent算法、感知、飞控、仿真及工程落地团队，推进后训练优化模型接入无人机全任务链路，完成从离线训练、仿真测试到真机实飞验证的全闭环迭代优化，推动模型能力落地真实业务场景。

二、职位要求

1. 学历背景：硕士及以上学历（在读可报），计算机科学、人工智能、软件工程、自动化、电子信息等相关专业方向优先。

2. 工程能力：代码基础扎实，熟练使用Python，熟悉主流大模型训练框架，具…

工作地址

北京北京市海淀区北京市海淀区中关村南三街6号中科资源大厦南楼7层707

查看地图