响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本20240517-业界动态-www.cyts.ha.cn

响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

2024-05-17 11:32:41

响应时间接近人类水平，OpenAI发布新款AI模型GPT-4o,语音,美国,文本

（文/观察者网陈(chen)思佳）一夜之间(jian)，AI界震动。

当地(di)时(shi)间(jian)5月13日，美(mei)国人工智能研究公司OpenAI在线举行“春(chun)季更新”活(huo)动，正式推出新的旗舰人工智能模型GPT-4o，以及免费向用户(hu)提(ti)供更多ChatGPT功能。GPT-4o支持文本、音(yin)频和图像的任意(yi)组合(he)输入，并(bing)能够生(sheng)成文本、音(yin)频和图像的任意(yi)组合(he)输出。

OpenAI首席执行官奥尔特曼(man)表示，GPT-4o的语音(yin)功能让(rang)人想起了电影《她》，“感觉就像是电影中的人工智能，我仍然对其(qi)感到惊讶。”

据美(mei)国《华尔街日报(bao)》13日报(bao)道，OpenAI首席技术官米拉·穆拉蒂(di)（Mira Murati）在发布会上表示，GPT-4o的速度比现有(you)的GPT-4 Turbo快了两倍，但成本仅为其(qi)一半。GPT-4o可以实时(shi)对文本、音(yin)频和图像进行推理，响应时(shi)间(jian)几乎达到人类水平。

报(bao)道称，OpenAI高(gao)管现场演示了GPT-4o的多项功能，包括分析一段(duan)计算机(ji)代码、在意(yi)大利语和英(ying)语之间(jian)进行翻译、通过摄像头引导研究人员解决(jue)基本数学(xue)问题等。

OpenAI发布GPT-4o模型视(shi)频截图

OpenAI还表示，GPT-4o可以检测用户(hu)的情绪，并(bing)以类似人类或机(ji)器人的语调与用户(hu)交谈。在演示中，ChatGPT识别到OpenAI后训练团队负(fu)责人巴雷特·佐夫（Barret Zoph）脸上的微笑，对他说：“你脸上挂着(zhe)灿烂的笑容，看起来心情很好。”

但GPT-4o在演示过程中也出现一些失误(wu)。例如，它在尚未读取到图像时(shi)就开始求解方程，还一度把佐夫的面(mian)部识别为“木质表面(mian)”。英(ying)国广(guang)播公司（BBC）称，这表明生(sheng)成式人工智能的“幻觉”问题仍未得到解决(jue)，距(ju)离解决(jue)聊天机(ji)器人不可靠的问题还有(you)很长的路要走。

根(gen)据OpenAI发布的新闻稿，GPT-4o的“o”代表“omni”，即“全能”之意(yi)。GPT-4o可以在最快232毫秒(miao)的时(shi)间(jian)内(nei)响应音(yin)频输入，平均(jun)响应时(shi)间(jian)为320毫秒(miao)，几乎接近人类在交谈中的响应时(shi)间(jian)。GPT-4o的英(ying)语和代码文本性(xing)能与GPT-4 Turbo相当，在非英(ying)语文本方面(mian)也有(you)显著(zhu)提(ti)高(gao)。

OpenAI表示，在GPT-4o之前(qian)，使用语音(yin)模式与ChatGPT对话的平均(jun)延迟时(shi)间(jian)为2.8秒(miao)（GPT-3.5）和5.4秒(miao)（GPT-4）。此(ci)前(qian)的语音(yin)模式是由(you)三个独立模型组成，一个简单模型将音(yin)频转换为文本，GPT-3.5或GPT-4接收文本并(bing)输出文本，第三个模型将文本转换回音(yin)频。这一过程将导致(zhi)GPT-4丢失大量信息(xi)，它无(wu)法识别音(yin)调、多个说话者或背(bei)景(jing)噪(zao)音(yin)，也无(wu)法输出表达情感的语音(yin)。

但在GPT-4o中，OpenAI训练了一个综合(he)文本、图像和音(yin)频的端到端新模型，这意(yi)味着(zhe)所有(you)输入和输出都由(you)同一个神经网络处理。不过，OpenAI也坦言，GPT-4o是该公司首个结合(he)所有(you)这些模式的模型，在探索(suo)模型功能及其(qi)局限性(xing)方面(mian)仍处于起步阶段(duan)。

OpenAI高(gao)管现场演示GPT-4o的检测情绪功能视(shi)频截图

穆拉蒂(di)在发布会上表示，GPT-4o的文本和图像功能将在ChatGPT更新后提(ti)供给所有(you)用户(hu)，付费订阅的ChatGPT Plus用户(hu)的消息(xi)数量上限是免费用户(hu)的5倍。新版语音(yin)模式也将在未来几周内(nei)向Plus用户(hu)推出。

穆拉蒂(di)最后还感谢了美(mei)国芯片公司英(ying)伟达的支持，“我想感谢令人难以置(zhi)信的OpenAI团队，也感谢黄仁勋和英(ying)伟达团队为我们提(ti)供了最先进的GPU，这使得今天的演示成为可能。”

发布会结束后，OpenAI首席执行官萨姆·奥尔特曼(man)在其(qi)个人博客上发文称：“新的语音(yin)模式是我用过的最好的计算机(ji)界面(mian)。感觉就像是电影中的人工智能，我仍然对它感到惊讶。事实证(zheng)明，达到人类水平的响应时(shi)间(jian)和表达能力是一个重(zhong)大的变化。”

奥尔特曼(man)还表示，GPT-4o的语音(yin)功能与电影《她》（Her）相似。美(mei)国有(you)线电视(shi)新闻网（CNN）也指出，GPT-4o的语音(yin)令人想起了《她》中的人工智能。《她》是2013年(nian)在美(mei)国上映的一部科幻电影，讲述了作家(jia)西奥多爱上电脑操作系统里的女声的故事。

奥尔特曼(man)在社交媒(mei)体上发文，提(ti)及电影《她》

资料图：美(mei)国电影《她》海报(bao)

《华尔街日报(bao)》注意(yi)到，OpenAI在谷歌年(nian)度开发者大会的前(qian)一天推出了GPT-4o，预计谷歌将在当地(di)时(shi)间(jian)5月14日的开发者大会公布自己的新产品。GPT-4o的推出似乎意(yi)味着(zhe)，在投入大量资金和精力研发新产品之后，OpenAI和其(qi)他科技巨(ju)头正寻求扩大用户(hu)群体并(bing)获得更多的研究资金。

美(mei)国“商(shang)业内(nei)幕”网站(zhan)评(ping)论称，这使得美(mei)国科技巨(ju)头的人工智能竞赛变得更加激烈(lie)，美(mei)国亚马逊公司的Alexa、苹果公司的Siri和谷歌的Gemini都还只能在语音(yin)对话中作出机(ji)械式的回应，与GPT-4o的表现有(you)明显差距(ju)。预计这些公司将在未来几个月发布新的AI产品。

但AI技术的快速发展也引起一些担忧。法新社指出，围绕版权问题的争议持续困扰着(zhe)AI企业。OpenAI公司已经与美(mei)联社、英(ying)国《金融时(shi)报(bao)》和德国阿(a)克塞尔·施普林格集(ji)团签署合(he)作协议，但它也面(mian)临来自美(mei)国《纽约时(shi)报(bao)》的诉(su)讼。

许(xu)多创作者也担心，AI大模型的训练涉及侵权问题。去(qu)年(nian)9月，包括美(mei)国知名作家(jia)、《冰与火之歌》作者乔治·马丁在内(nei)的17名作家(jia)通过美(mei)国作家(jia)协会发起集(ji)体诉(su)讼，指控OpenAI“大规(gui)模、系统性(xing)盗窃”，使用受版权保护的作品训练AI。

路透社此(ci)前(qian)指出，这些诉(su)讼牵涉到一个极具争议的问题，即科技公司使用从互(hu)联网上抓取的图像、文字和其(qi)他数据来训练AI是否构成侵权。在一些创作者看来，科技公司在未经许(xu)可的情况(kuang)下(xia)使用他们的作品，侵犯了他们的版权。但多数科技公司认为，这是对受版权保护内(nei)容的合(he)理使用。

发布于：上海市

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多