业界动态
GPT-4o空降,OpenAI又来“炸场”了,模型,用户,ChatGPT
2024-05-17 01:33:19
GPT-4o空降,OpenAI又来“炸场”了,模型,用户,ChatGPT

备受关注的搜索产品“跳票”之后,OpenAI依然搞了个(ge)大的——推(tui)出GPT-4o,杀疯科技圈。其强大的自然对话能力以(yi)及对人类情感的实时感知,让(rang)人们怀疑,科幻电(dian)影(ying)《Her》里的萨曼莎、《钢铁侠》里的贾维斯是不是真(zhen)的要来了。

北京时间5月14日凌晨,OpenAI举办线上(shang)“春季更(geng)新”活动,发(fa)布新旗(qi)舰生成式AI模型GPT-4o。据悉,GPT-4o的“o”代(dai)表“omni”,意为全能,是迈(mai)向更(geng)自然的人机交(jiao)互的关键(jian)一步。

特(te)别(bie)是在音(yin)频(pin)处理领域(yu),过往独(du)立模型之间的相互转化带来的延迟感,算得上(shang)是人工智能助手变科幻为现实的最大障碍之一。为应对这一情况,GPT-4o跨文本、视觉和(he)音(yin)频(pin)端到端地训练了一个(ge)新模型,所有输入和(he)输出都由同一个(ge)神经网络处理,成为其突破深(shen)度学习界限的最新举措,也(ye)完成了人工智能对话的“丝滑”实现。

在表现上(shang),GPT-4o可以(yi)接(jie)收文本、音(yin)频(pin)和(he)图(tu)像的任意组(zu)合作为输入,并实时生成文本、音(yin)频(pin)和(he)图(tu)像的任意组(zu)合输出。据悉,新模型使ChatGPT能够(gou)处理50种不同的语言,同时提(ti)高了速度和(he)质量(liang)。

在反应速度上(shang),GPT-4o可以(yi)在短(duan)短(duan)232毫秒内响应音(yin)频(pin)输入,平均响应时长也(ye)仅有320毫秒,与对话中的人类响应时间相似。相比起来,GPT-3.5语音(yin)对话的平均延迟为2.8秒、GPT-4为5.4秒。

GPT-4o更(geng)大的惊喜则(ze)在于(yu)对“情绪价值(zhi)”的提(ti)供。比如机器人能够(gou)从急促的喘气声中理解“紧张”的含义,并且指导他进行深(shen)呼吸,还可以(yi)根据用户要求变换语调(diao)。在发(fa)布会上(shang),还有演示者将手机举到自己面前(qian)正对着脸,要求ChatGPT告诉(su)他自己长什么样子。第(di)二次(ci)尝试后,ChatGPT对他说:“看起来你感觉非常快乐,喜笑颜开。”

更(geng)“炸裂”的是,所有用户均可免费使用该模型,而付费用户的容量(liang)限制是免费用户的5倍。据悉,GPT-4o的文本和(he)图(tu)像功能已经开始向付费的ChatGPT Plus和(he)Team用户推(tui)出,企(qi)业用户也(ye)即将推(tui)出。免费用户也(ye)将开始使用,但有使用限制。

在API使用方面,OpenAI首席(xi)技术官米拉(la)·穆(mu)拉(la)蒂表示,相比去年11月发(fa)布的GPT-4-turbo,GPT-4o价格降低一半,速度提(ti)升两倍。GPT-4o的语音(yin)和(he)视频(pin)输入功能将在未来几周内推(tui)出。

此外,OpenAI还发(fa)布了桌面版的ChatGPT和(he)新的用户界面。“我们认识(shi)到这些模型正变得越来越复杂。”穆(mu)拉(la)蒂说道,“但我们希望用户与人工智能模型的交(jiao)互体验(yan)能够(gou)更(geng)加自然、轻(qing)松,让(rang)用户可以(yi)将注意力完全集中在与模型的协(xie)作上(shang),而无需在意界面本身。”

“语音(yin)对话的能力原本就有,但是这次(ci)可怕在于(yu)基本没有延迟的响应,还有对复杂环境,包括情绪、语气的识(shi)别(bie)”,阿里研究(jiu)院执行院长袁媛对北京商报记者分析称,低延迟来自于(yu)推(tui)理架构的整体优化,而复杂环境识(shi)别(bie)理解又是模型能力的提(ti)升,“所以(yi)最后的winner,还是要赢在一个(ge)从头到脚的技术体系”。

此前(qian)OpenAI频(pin)传将推(tui)出AI搜索引(yin)擎(qing),GPT-5的消息也(ye)甚嚣尘上(shang)。但当(dang)地时间5月10日,OpenAI表示,将于(yu)当(dang)地时间5月13日以(yi)直播的形式宣布产品更(geng)新,不过届时不会发(fa)布GPT-5,也(ye)不会发(fa)布搜索引(yin)擎(qing)产品。

GPT-5和(he)搜索产品的缺席(xi),也(ye)导致(zhi)外界讨论(lun)OpenAI是否“慢下来了”。对此,袁媛认为,技术能力并不是跟着数字(zi)线性增(zeng)长的,GPT-4o虽然还“姓”4,但已经能看到清晰的技术特(te)点和(he)可能的商业模式以(yi)及后续发(fa)展潜力,例如低延迟推(tui)理能力,还可能支持更(geng)多(duo)的模型能力,比如动作控制和(he)交(jiao)互。此外,“omni”代(dai)表的多(duo)模态信息输入输出,也(ye)有很大潜力。

受GPT-4o消息影(ying)响,A股多(duo)模态AI概念高开,其中汤姆猫涨(zhang)停。公(gong)开信息显(xian)示,汤姆猫5月12日发(fa)布机构调(diao)研内容提(ti)到,公(gong)司(si)正有序推(tui)进人工智能垂(chui)直模型与算力基础设施的建设。

国盛(sheng)证券认为,GPT-4o是迈(mai)向更(geng)自然的人机交(jiao)互的重大进步,新功能带来了崭新的多(duo)模态交(jiao)互能力,通过新的端到端模型实现了体验(yan)上(shang)的新突破,有望在各类终端实现用户体验(yan)的最大化,利好智能终端Agent、机器人等方向。

北京商报记者 杨月涵

发(fa)布于(yu):北京市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7