业界动态
谷歌与OpenAI突然将焦点转向AI智能助手,Gemini,音频,模型
2024-05-17 02:22:38
谷歌与OpenAI突然将焦点转向AI智能助手,Gemini,音频,模型

每经记者 可杨(yang) 每经编辑 张海妮

不是万众期待的AI搜索,竞争焦点突然转(zhuan)向了AI智(zhi)能助手。

近期,OpenAI推出了全能模型GPT-4o,它能够接(jie)受多种方(fang)式输入的内容并生成相应的输出内容,展示了毫秒级(ji)反应和多模态交(jiao)互的新能力。与此同(tong)时,谷歌在其I/O开发(fa)者大会上展示了其AI助手Astra和旗舰大模型Gemini。

一些业内人士认为(wei),OpenAI此次并没(mei)有达到市场预期的突破,而是将现有的技术进行了整合(he)。此外,谷歌在AI搜索领(ling)域的布局和创新,以及(ji)其在智(zhi)能手机操(cao)作系统优化(hua)上的努(nu)力,显示了其在AI领(ling)域的深厚积累和战略(lue)布局。

比赛行至白热化(hua)阶段,似乎(hu)已经告别了单纯的技术竞争,更是应用和用户体验的竞争。当影响(xiang)因素变(bian)得(de)复杂,专注投入大模型前沿的OpenAI还(hai)有多大几率成为(wei)赢家(jia)?

突袭(xi)谷歌,OpenAI先一步公布AI个人助理

预想之中围绕AI搜索的“战争”没(mei)有打响(xiang),焦点转(zhuan)移到了AI智(zhi)能助手上。

当地时间5月(yue)13日(ri),OpenAI在谷歌I/O 开发(fa)者大会的前一天召开发(fa)布会,发(fa)布了最新产品GPT-4o,“o”即omni,意为(wei)“全能”。OpenAI官网介绍,GPT-4o是迈(mai)向更自然人机交(jiao)互的一步,因为(wei)它接(jie)受文本、音频和图像的任意组合(he)作为(wei)输入内容,并生成文本、音频和图像的任意组合(he)输出内容。

OpenAI首席技术官米拉·穆拉蒂在发(fa)布会上表示,GPT-4o的速度比现有的GPT-4 Turbo快了两(liang)倍,但成本仅(jin)为(wei)其一半。GPT-4o可以实时对文本、音频和图像进行推理,响(xiang)应时间几乎(hu)达到人类水平。

在26分钟的直播中,GPT-4o展示了其毫秒级(ji)反应、识别人类情绪进行音视(shi)频交(jiao)互,可多模态输入/输出等(deng)一系列新能力。与此同(tong)时,GPT-4o覆盖桌面与App且完全免费向用户提供。

而谷歌则在其I/O开发(fa)者大会上,展示了自身全能的AI能力,在会上连续(xu)发(fa)布、更新了十多款产品,包(bao)括AI助手Astra、文生图模型Imagen3、对标Sora的文生视(shi)频模型Veo,以及(ji)旗舰大模型Gemini。

在谷歌的演示视(shi)频中,使用AI助手Astra时,只要打开手机摄像头,对准任意物品,AI可以准确说出物品的名称。只要将手机摄像头对准某(mou)个物体,Gemini就可以识别它,比如(ru)一个红苹果,还(hai)可以回答诸如(ru)“镜头中什(shi)么东西是可以发(fa)声的”这种问(wen)题。

此外,谷歌方(fang)面表示,夏季将扩展Gemini的多模态功能,包(bao)括增加用语音进行深入双向对话的能力,该功能被称为(wei)Live。通过GeminiLive,用户可以与Gemini交(jiao)谈,并可以从各种自然的声音中选择它回应的声音。用户甚至可以按照自己的节奏说话,或者在回答过程中打断并澄清问(wen)题,就像在任何人类对话中一样。

据彭(peng)博社(she)报道,近日(ri),苹果公司被曝正与OpenAI敲定一项协议,今年(nian)将后者的部分技术引入iPhone。而在本次发(fa)布会上,谷歌产品管理副总裁Sameer Samat明确表示,谷歌将通过Gemini进一步优化(hua)安卓操(cao)作系统。这种优化(hua)将首先在谷歌自家(jia)手机Pixel上得(de)到体现。

GPT-5缺(que)席,OpenAI降速?

对于OpenAI的突袭(xi)更新,行业不再是统一的赞叹。“发(fa)布会虽然惊艳,但谷歌看完应该是不慌了。”猎豹移动董事长兼CEO、猎户星空(kong)董事长傅盛在其个人微博表示。

在5月(yue)14日(ri)发(fa)布的短视(shi)频中,傅盛谈及(ji)“所有国内人工智(zhi)能从业者都在熬夜等(deng)着大洋彼岸放‘核(he)弹’,但是没(mei)想到‘核(he)弹’没(mei)有放,却掏(tao)出了一堆‘摔炮’”。他表示,让人失望的是这次OpenAI没(mei)有发(fa)布GPT-5.0,连GPT-4.5也没(mei)有看到,反而是发(fa)布了GPT-4o,“就是把一系列的引擎(qing)给结(jie)合(he)在一起,比如(ru)图片(pian)、文字(zi)、声音,这样你就不需要来回去切(qie)换了”。

不过,傅盛后续(xu)也表示:“OpenAI这次为(wei)了能够让更多的用户使用它,可以说是铆足(zu)了劲,一系列的应用,API降价,GPT免费。我们当然希望OpenAI能够使得(de)这个行业更好(hao)发(fa)展,我们也能认真地去学(xue)习,这次的发(fa)布会真正告诉我们应用大有可为(wei),所有人都应该努(nu)力。”

“GPT-4o出来,又比原来进步一大截(jie),它(OpenAI)每次一升级(ji)就会‘死’一些公司,这次一些做GPT实时语音交(jiao)互的团队,直接(jie)可以宣布解散了。”GPT-4o发(fa)布的第二天,一名大模型行业创业者对《每日(ri)经济(ji)新闻》记者感叹道。

清华大学(xue)新闻学(xue)院元宇宙文化(hua)实验室(shi)主任沈阳同(tong)样在第二天试用了GPT-4o,在其发(fa)布的视(shi)频号中提到,在文生图层面,GPT-4o在毛发(fa)细腻度、光影效果等(deng)细节上更加优异(yi)。

随着双方(fang)在智(zhi)能助手上的对碰,沈阳认为(wei),当前的竞争格局已经更加明晰,谷歌正在进一步推其基(ji)于Gemini的AI助手,苹果公司与OpenAI也初步达成了合(he)作,将在苹果手机上搭载ChatGPT。

沈阳表示,以本次发(fa)布会作为(wei)转(zhuan)折点,ChatGPT被改(gai)造成了灵魂伴侣,所以产业格局已经明晰了,就是苹果用内置的ChatGPT对抗谷歌Gemini的手机助手。Meta也将上线基(ji)于Llama的手机助手。对于产业来说,AI助手有望从1亿(yi)量级(ji)的用户量走向10亿(yi)量级(ji)。

“GPT-4o,发(fa)布的时候我觉(jue)得(de)它很强(qiang)大,但如(ru)今我觉(jue)得(de)谷歌最新的产品也完全把它的这些成绩赶(gan)上了,我觉(jue)得(de)后面OpenAI应该更加紧张,因为(wei)应用公司、超级(ji)大平台公司全部赶(gan)上来了,它的优势越来越少。”顺福资本创始人、行行AI董事长李明顺对《每日(ri)经济(ji)新闻》记者表示,目前来看OpenAI的用户增长已经不太(tai)明显,技术领(ling)先和成本优势都不一定是最佳,与此同(tong)时,强(qiang)应用时代越来越快到来,在这个背景下,谷歌这次把它所有的应用与大模型集合(he)在一起,形成了更强(qiang)的用户依存度,还(hai)是更胜一筹(chou)。

在李明顺看来,下个阶段,美国的平台应用公司,包(bao)括微软、苹果、戴尔,以及(ji)中国的腾讯、字(zi)节、阿里都会陆(lu)续(xu)结(jie)合(he)自身的应用与大模型能力,推出超级(ji)应用,逐步迈(mai)向综合(he)竞争时代,靠一个大模型打江山将更难。

搜索之争未(wei)竟,谷歌反“围剿”OpenAI

吃下巨头的“蛋糕”没(mei)有那么容易。发(fa)布会前,市场充斥着OpenAI围绕搜索布局的烟雾弹,有报道称,OpenAI很可能推出基(ji)于ChatGPT技术的新搜索引擎(qing)。与此同(tong)时,名为(wei)“GPTSearch”的网页已经上线,但目前只有会员才能访问(wen)。知名记者PeteHuang此前发(fa)推特预告,表示GPTSearch将在5月(yue)9日(ri)正式上线。

最终在这一轮(lun)交(jiao)手中,谷歌守住了阵地。谷歌首席执行官桑达尔·皮(pi)查伊(Sundar Pichai)在演讲中提到,Gemini带来的最令人兴奋的变(bian)革之一是在Google搜索中,“我们最大的投资和创新领(ling)域之一是我们的创始产品——搜索”。

从发(fa)布会看,谷歌已经率先将AI能力与其搜索引擎(qing)相结(jie)合(he)。谷歌方(fang)面宣布,能够总结(jie)谷歌搜索引擎(qing)结(jie)果的“AI概(gai)览(lan)”(AI Over-views)功能,将于本周在美国推出。在这一功能中,谷歌将向用户展示AI生成的答案。

据谷歌介绍,AI概(gai)览(lan)是为(wei)了响(xiang)应较(jiao)复杂的搜索,帮助用户寻求(qiu)解决方(fang)案。例如(ru),当人们搜索素食准备或出行计划时,AI提供的答案会出现在搜索页面顶部。

谷歌还(hai)提升了搜索的视(shi)觉(jue)功能,支(zhi)持通过视(shi)频提出问(wen)题。在I/O 开发(fa)者大会上,谷歌演示了当面对唱片(pian)机故障时,用户可以一边拍摄视(shi)频一边提问(wen),通过新搜索得(de)到包(bao)括修理步骤和资源在内的AI概(gai)览(lan)。

尽管在智(zhi)能助手层面先一步狙击谷歌新品,但对于市场期待的搜索产品,这项自GPT-3.5发(fa)布以来就被寄予厚望的革命性功能,却在一阵又一阵烟雾弹后,依旧未(wei)见进一步动作。在搜索市场,谷歌的基(ji)本盘依旧稳固,与此同(tong)时其全面的AI能力正在对竞争对手隐隐形成包(bao)围之势。

与巨头争夺领(ling)地的另一面,对于OpenAI而言(yan),内忧隐患犹在。

就在GPT-4o发(fa)布一天之后,消(xiao)失在大众视(shi)线很久的OpenAI联合(he)创始人、首席科学(xue)家(jia)Ilya Sutskever官宣离(li)开OpenAI。去年(nian)11月(yue),OpenAI管理层发(fa)生动荡,Sutskever被认为(wei)是这场风波背后的推手。不久前,OpenAI创始成员之一Andrej Karpathy也在Sora发(fa)布前夕离(li)职。

在这场全新的技术革命中,随着竞争的重点由大模型技术转(zhuan)向应用侧,以“黑马”姿态一度引领(ling)方(fang)向的OpenAI开始降速,新的转(zhuan)折点也许已经出现。

发(fa)布于:北京市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7