职位描述
职位描述
1. 预训练方向 (Pre-training & Architecture):探索大模型能力的边界,负责基座模型的训练与优化。探索超越Transformer的下一代架构(如SSM、MoE、Linear Attention等),优化长上下文(Long Context)与推理效率。 参与万亿级Token的高质量数据清洗、配比与合成数据(Synthetic Data)研究,探索Data-Centric AI的极限。优化Megatron-LM、DeepSpeed等训练框架,解决千卡/万卡集群下的训练稳定性与通信瓶颈。
2. 后训练与对齐方向 (Post-training & Alignment):让模型更“懂”人类,并通过强化学习激发模型的高阶推理与泛化潜能。研发高效的SFT(监督微调)策略,探索参数高效微调(PEFT),优化多轮对话与指令遵循能力。深入研究 PPO、DPO、GRPO 等算法;探索 Online RL(在线强化学习) 机制,通过环境交互与大规模 Self-play(自我博弈),实现模型能力的自主进化。
3. 大模型评测方向 (Evaluation):做大模型的“考官”,建立科学、客观、自动化的能力评估体系。设计针对通用能力、垂类知识、安全性及幻觉(Hallucination)的评测Benchmark。训练LLM-as-a-Judge,利用大模型评估大模型,探索评…