OpenAI春季发布会开始,深夜宣布推出旗下最强大的多模态模型:"GPT-4o"。它可以通过语音、视觉和文本进行推理。该模型速度提高了2倍,价格降低了50%,比GPT-4 Turbo的速率限制高出了5倍。它将对免费用户开放,并通过API可用。
OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、说、读、写,丝滑流畅毫无延迟,就像在打一个视频电话。现场直播的效果更是炸裂:它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。
"全能"的意思是,GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。
这还是一份给所有人的大礼,GPT-4o拥有ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……将对所有用户免费开放!
那么,GPT-4o具体有哪些超强之处?
我们先随便看下官方发布的示例
给盲人指路
实时辅导学生作业
首先,GPT-4o是多模态全实时的唯一模型,所以延迟如此之低。旧模型需要经过多个步骤:说话 -> 转录 -> GPT写答案 -> 读回。而新模型只需要:说话 -> 回答。
在直播现场,CTO Mira Murati说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场进行A/B测试的模型之一,名为"im-also-a-good-gpt2-chatbot"。无论从网友上手体验还是竞技场排位来看,都是高于GPT-4 Turbo级别的模型,ELO分数一骑绝尘。
而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足是原来的5倍!
这个全新的GPT-4o,无疑又是AI界的一场革命。让我们拭目以待,
举报