🚀【AI界革命】OpenAI新宠GPT-4o亮相,语音视频处理能力震撼全场!🌟
GPT-4o,一个全新的AI模型,不仅具备GPT-4的智慧,还能进行即时口译,让不同语言的人顺畅交流。它的出现,将彻底改变我们与AI的互动方式。快来体验GPT-4o带来的未来科技魅力吧!🌐
OpenAI发布全新GPT-4o模型
在Google I/O拉开帷幕的前一天,OpenAI毫不客气地抢了风头,率先发布了新一代模型——GPT-4o。这个新模型不仅继承了GPT-4的智慧,还具备更强大的语音和视频处理能力,能给用户带来几乎与真人互动的感觉。
GPT-4o的特别之处,从名字就可以略见一斑。这里的“o”代表“omni”,意指“全能”,这表明新模型在文字、音频和视频推理方面的全方位能力。OpenAI在声明中表示:“我们隆重推出GPT-4o,这是我们的新旗舰模型,能够实时处理音频、视频和文字。”
GPT-4o的回应能力逼近人类,“如同电影中的AI一般”
虽然GPT-4也能识别图像并进行文字和语音转换,但这些功能以往被分散在不同的模型中,导致回应时间较长。而GPT-4o则将这些功能整合到一个模型中,被称为“全能模型”。与前代旗舰GPT-4 Turbo相比,GPT-4o在英文和编程语言上表现相似,但在其他语言上的性能显著提升,API速度更快,成本降低了多达50%。
OpenAI指出,GPT-4o的回应时间接近人类,能提供更自然的沟通体验,最快可在232毫秒(0.232秒)、平均320毫秒(0.32秒)内响应问题。作为对比,GPT-3.5和GPT-4在语音模式下的回应时间分别为2.8秒和5.4秒。
在OpenAI的演示中,GPT-4o能够实时口译,让不同语言的两人也能无障碍沟通。或者请求GPT-4o讲一个睡前故事时,它可以用更饱满、有感情的声音生动地讲述;又或者用接近人类的语气,教导解开简单的数学问题。
根据OpenAI的说法,GPT-4o能够“读懂”用户的表情与语气,知道何时如何回应,并能在不同语气间快速切换,一会儿是冷冰冰的机械声,一会儿又能欢快地唱起歌来。OpenAI的技术总监米拉·穆拉蒂(Mira Murati)表示,GPT-4o的开发灵感来自于人类的对话过程,“当你停止说话时,就轮到我开口。我可以读懂你的语气并回应。它就是这么自然、丰富且具有互动性。”
OpenAI执行长山姆·奥特曼(Sam Altman)在博客中表示,“新的语音和视频模式是我用过的最棒的电脑界面,就像电影里的AI一样。我甚至有点难以置信这是真的,事实证明达到人类水平的回应时间和表达能力变化有多么巨大。”
虽然演示过程中并非一切都尽善尽美,演示中GPT-4o有时会打断他人说话,甚至在未被要求的情况下评论主持人的服装,不过在演示者的纠正后很快恢复正常。
穆拉蒂透露,通过全能模型的力量,未来GPT技术还会进一步提升,例如在观看体育赛事转播后向用户解释竞赛规则,不再仅限于翻译图片文字等简单任务。
OpenAI表示,用户现在可以在免费版本中使用GPT-4o,而付费订阅者将享有免费版五倍的消息限制。基于GPT-4o的语音服务预计下个月将提供给订阅用户测试版。GPT-4o的免费提供也反映了OpenAI在降低成本方面的成果。
不过,出于对滥用的担忧,语音功能暂时不会对所有API用户开放,未来几周内将首先提供给部分值得信赖的合作伙伴使用。
ChatGPT电脑版程序登场
在GPT-4o大幅增强语音和视频功能的同时,OpenAI也宣布更新网页版的ChatGPT UI,声称具有更对话式的主界面及消息呈现。穆拉蒂强调,尽管模型日趋复杂,她希望用户与AI的互动体验能够更加简单、明了、轻松自然,让用户不用在UI上费心,而是专注于与ChatGPT的协作。
OpenAI还公布了电脑版本的ChatGPT程序,预计首先推出MacOS版本,Windows版本将在今年稍晚推出。值得注意的是,稍早有传闻称OpenAI与苹果就AI技术合作的协商已进入尾声,此时率先推出Mac版本程序,引发了外界的种种联想。
希望陈沩亮博客( https://www.chenweiliang.com/ ) 分享的《OpenAI推出ChatGPT-4o:全能AI模型超越GPT-4,提供逼真互动体验》,对您有帮助。
欢迎分享本文链接:https://www.chenweiliang.com/cwl-31713.html
喜欢就分享和按赞!您的分享和按赞,是我们持续的动力!