OpenAI推出强化微调研究项目 CEO奥特曼称“今年最大惊喜”

风君子博客12月7日消息，据外媒报道，AI初创公司OpenAI启动了为期12天的直播活动。活动首日，推出了完整版（满血版）o1推理模型，并新增了月费为200美元的ChatGPT Pro订阅。

直播第二天， OpenAI推出了强化微调研究项目。该项目旨在使开发人员和机器学习工程师能够创建经过微调的专家模型。

新的模型自定义技术使开发人员能够使用数十到数千个高质量任务定制模型，并根据提供的参考答案对模型的响应进行分级。此技术强化了模型对类似问题解决方案的推导，以及在特定任务上的准确性。

在OpenAI的演示中，微调后的o1-mini模型得分提高80%，直接反超o1正式版。

据OpenAI介绍，用户可以综合运用o1、微调和数据创建定制的小型 o1模型 o1 mini。用户要做的就是提供数据，然后在强化微调方面，设置一个数据集和一个“评分器”，根据训练和验证数据集评估模型的性能，其他工作交给OpenAI。

OpenAI CEO奥特曼在社交平台发文称，“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”

OpenAI称，OpenAI的定制模型平台将支持强化学习，强化学习也是OpenAI内部用于训练自家前沿模型的技术，如GPT-4o和o1系列模型。在OpenAi的内测中，强化微调已经在生物化学、安全、法律和医疗保健领域取得成功。

按照OpenAI的计划，2025年初强化微调将面向公众发布，目前已对企业、大学和研究院开放申请测试通道。

Published by