免费，才是最强杀招,ChatGPT,音频,输出20240614-业界动态-www.cyts.ha.cn

免费，才是最强杀招,ChatGPT,音频,输出

2024-06-14 00:40:35

免费，才是最强杀招,ChatGPT,音频,输出

科技巨头之间的竞争，越来越不讲武德(de)了。

原本，OpenAI的“春季新(xin)品发布会”定于5月9号，结果硬生生拖到了现在。

为什么呢？因为谷歌明天开(kai)开(kai)发者大会……

就是要骑脸输出，不给友商任何活路！

于是今(jin)天凌晨1点，山姆·奥特曼口中“就像魔法一样的东(dong)西”，终于揭开(kai)了面纱。

不是大家想象(xiang)中的GPT-5，而是GPT-4的迭代版本，GPT-4o。

o是omni的缩(suo)写，源(yuan)于拉丁语的omnis，意思是无所不在、无所不知、无所不能。

听起来神神叨叨的，颇有点佛祖、上帝的味道。

GPT-4o，也就是全能大模型。

全能？这就很有意思了。

01强在哪里？

所谓全能，当然不是真的指全知全能。

至少现在不可能。

如果人造“上帝”真的被(bei)造出来，我们所有人都可以(yi)立刻躺(tang)平、混吃等死(si)了，统治世(shi)界or解放世(shi)界都在这家伙的一念之间。

目前的GPT-4o，能做到的是文字、图像、音频、视频任意组(zu)合的全模态。

OpenAI的原话是：GPT-4o是第一个融合所有模态的模型，我们只是触及到其能力(li)的表面。

尽管(guan)只是表面，但也极其强大了。

先看(kan)横向测评。

简单总结就是：更快、更强、更便宜。

首先是效率。GPT-4o 的处理速度是 GPT-4 Turbo 的两倍，速率限(xian)制提高了五(wu)倍，最高达到1000万(wan)token/分钟(zhong)，价格(ge)还降低了一半。

其次是性能。在所有语言基(ji)准测试中，GPT-4o都比GPT-4更强大，还能在50多种语言之间无缝翻译。

然后是最重(zhong)要的一点：多模态输入(ru)输出。

GPT-4o 能够处理文本、音频和图像的任意组(zu)合输入(ru)，并实时生成相(xiang)应的输出与用(yong)户互动。

注(zhu)意，是实时！实时！

下(xia)面再看(kan)看(kan)其具体(ti)表现。

发布会上，测试者对着手机说(shuo)：我第一次来直播，有点紧张。

ChatGPT立刻回答：你可以(yi)深(shen)呼吸。

男子照办。

ChatGPT立刻又开(kai)玩(wan)笑道：你不是吸尘器吧(ba)，不要喘。

当听到对方终于平稳呼吸时，它居(ju)然还会开(kai)口鼓励。

看(kan)到这，苹果手机用(yong)户很快就能察觉出有啥不同了。

我们此前用(yong)的Siri之类的语音助手，反馈(kui)慢倒(dao)还罢(ba)了，你还必须要等它说(shuo)完，才能进行下(xia)一轮对话。

非常呆板(ban)，且浪费时间。

其实这也正常，它毕竟(jing)只是个很原始的程序。

之前我们与AI对话，都要经历3个步骤：

1.人说(shuo)话，AI将音频转成文本代码；

2.AI回答它自己翻译的这段文本；

3.将回复的内容转化(hua)成音频输出。

这就相(xiang)当于一来一回的回合制，不论怎么样都会有延迟，现在业(ye)界最快的反应速度是2秒。

别的先不说(shuo)，至少用(yong)户很难有真实交流的沉(chen)浸感。

但用(yong)GPT-4o，平均反应时间只有0.32秒，基(ji)本就是你刚问完、它立刻就能回答你，和真人聊天没啥区别。

更关键的是什么？

因为人与人之间对话，是充满了各种即时反应的，比如嗯嗯啊啊各种预期助词，以(yi)及手势、停(ting)顿、咽(yan)口水等等。

但你过去与AI 聊天，却根本不会存(cun)在这些因素，即便AI回答得再完美，你依然无法拥有沉(chen)浸感。

而现在，你不仅能随时打断GPT-4o，它甚至能根据你的语速、语调(diao)、呼吸乃至面部表情来判断你的情绪，并依次表达出对应的情绪。

这就很Nice了。

不仅仅只是语音对答，GPT-4o的文本、音频、视频所有输入(ru)和输出，都由(you)同一个神经网络处理。

也就是说(shuo)，它在各种维度上，都能有同样强大的表现。

简单来说(shuo)，就是GPT在能看(kan)、能听、能说(shuo)话方面，更加“通人性”了。

它不一定真的懂情感这回事，但能够模仿。

现阶段而言，只要能模仿就够了，完全够投入(ru)商用(yong)了。

以(yi)上种种，你觉得意味着什么？

意味着ChatGPT在交互性上，又做出了巨大突破。

比如，你可以(yi)在睡前，要求GPT用(yong)女神的声音、舔狗(gou)的语气，讲故事、唱歌哄你入(ru)眠。

又比如，你可以(yi)把自己的日常资料(liao)发给GPT，让它根据每天的天气、突发事件(jian)等等状况，生成工作、生活计划。

乃至辅导小孩写作业(ye)等等等等……

千万(wan)不要小看(kan)交互性，它的价值(zhi)远超想象(xiang)。

02为什么免费?

除了功能强大，GPT-4o更让人关注(zhu)的是什么？

免费！

不仅仅是 GPT-4o 免费，更刺激的是 GPT Store、Vision （包含代码解释器、联网功能等），都会陆续开(kai)放出来。

为了让用(yong)户们用(yong)得方便，新(xin)版ChatGPT还开(kai)放了桌面端。

关于这一点，山姆·奥特曼专门发了博客说(shuo)明：

OpenAI的核心使(shi)命之一，就是免费为人类提供顶尖的AI工具，为世(shi)界创造各种利益(yi)，让所有人从中受益(yi)。在未来，所有人都能免费获得 GPT 的算(suan)力(li)，可以(yi)使(shi)用(yong)、转售或捐赠。

你们之前批评我不开(kai)源(yuan)，现在我直接免费，甚至都不用(yong)注(zhu)册，还有话说(shuo)吗？

按照我们的商业(ye)逻辑来看(kan)，这不是纯纯的做慈善？

当然不是，至少不完全是。

首先，新(xin)模型变小了，运行成本大幅降低。

前文提到过：GPT 4o处理速度翻倍，价格(ge)只有GPT 4 Turbo的一半。

原先输入(ru)、输出一百万(wan)token的价格(ge)是10、30美元，现在则只要5、15美元。

其次，是先舍(she)后得的商业(ye)逻辑。

免费是有限(xian)制的。

官方文档里都说(shuo)了，免费用(yong)户目前每3个小时只能使(shi)用(yong)10条GPT-4o，用(yong)完了就回落到GPT-3.5版本。

10条，够什么用(yong)的？

想继续玩(wan)？想玩(wan)得爽？给我充钱！

只要20美刀/月，你就能成为尊贵的plus会员，每小时能享(xiang)用(yong)80条GPT-4o！

这简直！太不划算(suan)了！

就目前的情况而言、对绝大部分人而言，你只要不是无聊到什么都去试着玩(wan)，每3小时10条内容完全是足够了。

照OpenAI这么搞，如今(jin)ChatGPT的忠实付(fu)费用(yong)户（原来免费的只能使(shi)用(yong)GPT-3.4），恐怕都不会充钱了。

为什么OpenAI 要承担丢失付(fu)费会员的风险，去给全民提供免费服(fu)务？

其实，我们的目光可以(yi)放长远一点。

想想看(kan)，人人都能免费用(yong)上高质(zhi)量的AI，这意味着什么？

你如果悲观地去看(kan)，这很可能对现在社会的分工结构造成重(zhong)大冲击，造成广泛的失业(ye)潮。

看(kan)到这里，别的不敢说(shuo)，我们至少能确定一件(jian)事：除非自己感兴趣，以(yi)后的小孩都不用(yong)再学英语了。

GPT-4o完全可以(yi)做到各种口译、同声传译，甚至还带(dai)感情、带(dai)理解。

除此之外，大量的普通家庭教师、程序员、设计师等等，基(ji)本都会被(bei)取代。

这是不可避免的事。

但就像前几次技术革命一样，在一些行业(ye)消亡的同时，一定会有新(xin)的财富风口出现，整个社会的财富总量必然是增(zeng)加的。

乐观点看(kan)，就是另一回事。

03财富大爆炸(zha)

《易(yi)经》“乾”卦“用(yong)九”：见群龙(long)无首，吉。

王阳明也曾说(shuo)：人人心中有仲尼。心之良(liang)知之谓圣。

真正伟大的时代，应该是人人平等、人人如龙(long)、人人成圣的。

从古至今(jin)，这都只能是幻想，但如果能善用(yong)AI、善用(yong)工具，我们未必不能接近这种境(jing)界。

其实从GPT-3.5→GPT-4→GPT-4o，我们能很明显概念感受到，OpenAI想干(gan)什么：

他们要让GPT这个人造大脑，越来越符合“人”的标准。

人是什么？

人不仅仅是劳动力(li)，不论是什么时候、用(yong)什么工具，人才是创造财富的主体(ti)。

随着多模态越来越完善，现有的部分行业(ye)将会被(bei)怎样改变？

我们的主要关注(zhu)点应该在娱(yu)乐方面。

因为物质(zhi)世(shi)界的体(ti)力(li)劳动必然与人类越来越远，人类创造财富的方向肯定将加速集中在精神方面。

从之前投资De的举动可以(yi)看(kan)出，OpenAI早就有意把AI技术引入(ru)到影(ying)视创作领域(yu)。

即便他们不这么干(gan)，其他的影(ying)视公司也一定会干(gan)。

因为未来的趋势就是——“交互式传媒”。

你可以(yi)把这种模式，理解为短视频，每个人都是创作者，没有谁更专业(ye)一说(shuo)。

各种短视频平台上，如今(jin)已经充斥(chi)着大量AI制造的内容。以(yi)前我们还能看(kan)得出来，现在越来越逼真。

而以(yi)后，只要你善用(yong)能模仿人情感的多模态大模型，创造出的内容也将彻底(di)脱(tuo)离“机械感”。

每个人都是最佳导演，一天拍十几部大片都没问题。

想要出圈，就看(kan)谁的点子更有新(xin)意，更迎合受众口味。

与之相(xiang)对的，各种影(ying)视公司，包括现在的一大堆流量明星，都将没有任何发展空间。

未来，能存(cun)活下(xia)来的，只有平台，和无数(shu)个个人。

除了影(ying)视之外，包括音乐、动漫、游戏等任何具备消费价值(zhi)的娱(yu)乐领域(yu)，都将变得一样：

去中心化(hua)。

每个人都是完美的音乐家、漫画家、游戏设计师，只要你有足够的耐心。

你能想象(xiang)，这些将催化(hua)多大的市场吗？

以(yi)游戏为例，到2025年，全球将有35.3亿游戏玩(wan)家。数(shu)十亿人，有多少千奇百怪的点子？

以(yi)前，99%人限(xian)于技术，只是单纯的玩(wan)家，属于被(bei)收割者，只有游戏公司赚钱。

从市场的角度考(kao)虑，这个发展效率是非常低下(xia)的。

以(yi)后，就相(xiang)当于是这35亿人相(xiang)互买(mai)单，金钱流通速度何止提升10倍！？

再比如社交媒体(ti)。

从前是没有技术，当网友分享(xiang)他的游戏、电影(ying)、音乐交互体(ti)验后，其他用(yong)户除了评论就没啥后续了。

但以(yi)后，我们都能在此基(ji)础上，让AI定制自己的二次体(ti)验，不论是语音、视频还是漫画形式，与其他人分享(xiang)。

然后其他人看(kan)到了，再定制，再分享(xiang)……

就这样病毒式传播。

这些描述，很像去年底(di)炒作的Web3.0概念。

它的目的，是创造一个去中心化(hua)、交互式的互联网世(shi)界，打破已经见顶的互联网现有桎梏。

它的驱动力(li)，就是多模态大模型、乃至以(yi)后真正完善五(wu)感的更高级AI。

拥有五(wu)感的GPT，不仅仅是一种技术进步，更是现代商业(ye)社会的一次彻底(di)的娱(yu)乐、消费、社交革命。

总而言之，让每个人都能免费使(shi)用(yong)顶级AI，就相(xiang)当于把生产力(li)赋能给每个人，每个人的价值(zhi)将进一步凸(tu)显，整个互联网世(shi)界也将创造出更大的价值(zhi)。

等到你发现其中的财富效应，乃至未来大多数(shu)人或许都要在这样的大环境(jing)中生活……

等到AI真正成为每个人创造财富的重(zhong)要工具，3小时使(shi)用(yong)10条GPT-4o，你还觉得够吗？

每个月20美刀的会员费，你还觉得贵吗？

就算(suan)再贵十倍，你也心甘(gan)情愿抢着买(mai)！

我们真正应该担心的，不应该是这点鸡毛蒜皮的事，而是：AI 科技的推进速度太快，你有没有意识到要去适应新(xin)时代。

千万(wan)不要做落后的那一批人。

发布于：广东(dong)省(sheng)

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多