OOne体育penAI重夺竞技场第一但这波靠的是4o

One新闻中心 Onexinwenzhongxin news

Onexinwenzhongxin news
One新闻中心

发布时间：2024-11-22 12:38:53 浏览：次

[返回]

　　OpenAI开发者日新加坡站今天启幕，果不其然，ChatGPT又出手了：

　　Gemini刚在竞技场头把交椅上坐了不到一周，最新版ChatGPT轻轻一更新，第一再次易主。

　　模型能完成更自然、更有吸引力、更具针对性的写作，文本相关性和可读性更强。

　　作为Canvas功能的一部分，我们希望改进写作，因为这是一个顶级用例，并且可能会改变人机协作的方式，来更具创造性地完成写作任务。

　　我认为我们还没有完全解决这个研究问题，因为它非常主观且开放，但至少在写作方面取得进展，是AGI创造性智能的关键。One体育

　　而在大模型竞技场的创意写作分榜上，可以看到新版4o（ChatGPT-4o-1120）确实有明显的提升，分数从上个版本的1365提升到了1402。

　　除了在总榜上为OpenAI重夺第一，新版4o在体现具体能力的各个分榜上亦有提升One体育。

　　并且在风格控制（Style Control）之后，新版4o依然位居首位。

　　风格控制旨在让榜单分数更真实地反映模型解决问题的能力，避免模型靠漂亮的格式、增加回答长度刷分。

　　总胜率热图显示，新版4o对上此前登顶的Gemini-Exp-1114，胜率为59%；对上Claude 3.5 Sonnet，胜率为69%；对上5月版本的4o，更是在72%的情况下都能取胜。

　　结合今日份DeepSeek的大新闻——，不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来：

　　简而言之就是：o1满血版今年上线几天了，One体育OpenAI你暗搓搓更新个4o是闹哪样！

　　OpenAI的老伙计们怕不是写了个脚本，用来查询大模型竞技场排名第一的模型。

　　另外One体育，还有网友拿新4o的生成结果去做了测试，结果系统还是当场判断出了100%AI写的：

　　比如，在系统提示词方面，大佬发现，OpenAI确实偷偷给ChatGPT加了点料的：

　　简单来说，就是新增了一道护栏，确保ChatGPT不在敏感话题上胡说八道。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。