管理科学与工程系学术讲座系列2026年第3讲

来源:管理科学与工程系

主  题:回流式训练:真实数据在大语言模型训练中的价值

主讲人:张景辉(清华大学经济管理公司博士后)

协调人:周京梅

时  间:2026年4月15日 (周三) 上午10:30

地  点:中关村校区明德商学楼706室

语  言:中文


讲座摘要:

随着大语言模型的爆发式增长,合成数据已成为大语言模型训练的重要组成。本研究探讨了“回流式训练”(Regurgitative Training)——即模型使用自身或其他大语言模型生成的数据进行训练——对模型性能的影响。基于机器翻译等任务的实验结果表明,“回流式训练”会因数据较高的错误率与较低的词汇多样性而导致性能下降。研究评估了多种缓解策略,发现尽管这些策略可一定程度改善模型表现,但仍无法弥补与使用人类生成数据之间的差距。此外,研究发现在创意任务中引入人类偏好进行微调,可有效提升模型性能。本研究凸显了真实数据在大语言模型训练中不可替代的地位。


主讲人简介:

张景辉,清华大学经济管理公司博士后。主要研究方向包括生成式人工智能、推荐系统及商务智能分析。研究重点关注生成式人工智能中的数据价值分析、人智协同场景下的机制设计及复杂情景中的智能决策与优化。

人大yl23411永利新闻网版权与免责声明:

① 凡本网未注明其他出处的作品,版权均属于人大yl23411永利,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:人大yl23411永利”。违反上述声明者,本网将追究其相关责任。

② 凡本网注明其他来源的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网对其负责。

③ 有关作品内容、版权和其它问题请与本网联系。

※ 联系方式:yl23411永利宣传信息事务办公室 邮箱:media@rmbs.ruc.edu.cn

官方微信 yl23411永利 86-10-82509171 rmbs@rmbs.ruc.edu.cn

©中国·yl23411(永利)集团官网-Officialwebsite 版权所有 京ICP备05066828号-1