OpenAI用人类反馈提升了摘要生成质量

9月7日消息，近日，OpenAI的一项研究表明，人们可以通过训练模型来优化人类偏好，进而显著提升摘要质量。具体而言，研究者收集了一个人类摘要比较的大型、高质量数据集，训练了一种模型来预测人类偏好的摘要，并使用该模型作为奖励函数通过强化学习来微调摘要策略。研究者将该方法应用于Reddit帖子的摘要生成，结果显示该研究的模型显著优于人类参考摘要，以及仅通过监督学习进行微调的更大规模的模型。研究中的模型还可以迁移至CNN/DM新闻文章，在不进行任何特定新闻微调的情况下生成几乎和人类参考摘要一样好的结果。最后，研究者进行了扩展分析，以理解人类反馈数据集和微调模型。该研究确保奖励模型能够泛化到新数据集上，并且优化奖励模型的结果要比根据人类要求优化的ROUGE更佳。