业界动态
能画对“夫妻肺片”的文生图大模型来了!与Sora同款架构,混元,南都,场景
2024-05-17 07:21:34
能画对“夫妻肺片”的文生图大模型来了!与Sora同款架构,混元,南都,场景

能理解并生成“夫妻肺片”“胸(xiong)有成竹”的中文开源大模型出现了。

5月14日,腾(teng)讯宣布,旗下混元文生图大模型全面升级(ji)并对外开源,目前(qian)已在(zai) Hugging Face 平台及(ji) Github 上(shang)发布,包含模型权重、推理代码、模型算法等完(wan)整模型,可(ke)供企业与个人(ren)开发者免费商用。

据悉,升级(ji)后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅(jin)可(ke)支持文生图,也(ye)可(ke)作为视(shi)频等多(duo)模态视(shi)觉生成的基(ji)础。南都记者实测(ce)发现,目前(qian)混元文生图大模型已能充分理解中文成语、诗句和(he)快速生成图片,同时支持用户在(zai)多(duo)轮对话中对图片进行调(diao)整。

能理解并生成“夫妻肺片”“胸(xiong)有成竹”的中文开源大模型出现了。

5月14日,腾(teng)讯宣布,旗下混元文生图大模型全面升级(ji)并对外开源,目前(qian)已在(zai) Hugging Face 平台及(ji) Github 上(shang)发布,包含模型权重、推理代码、模型算法等完(wan)整模型,可(ke)供企业与个人(ren)开发者免费商用。

据悉,升级(ji)后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅(jin)可(ke)支持文生图,也(ye)可(ke)作为视(shi)频等多(duo)模态视(shi)觉生成的基(ji)础。南都记者实测(ce)发现,目前(qian)混元文生图大模型已能充分理解中文成语、诗句和(he)快速生成图片,同时支持用户在(zai)多(duo)轮对话中对图片进行调(diao)整。

采用Sora同款架构,中文俚语理解力增强

南都记者了解获悉,升级(ji)后的腾(teng)讯混元文生图大模型采用了Sora和(he)Stable Diffusion 3的同款架构和(he)关键技术。据悉,随(sui)着参(can)数量(liang)的提升,基(ji)于Transformer架构的扩散模型能展现出更好的扩展性,有助于进一步提升模型的生成质量(liang)及(ji)效(xiao)率。

试(shi)验发现,腾(teng)讯混元文生图大模型能实现多(duo)轮对话,其长文本理解能力最多(duo)能支持256字符的内容输入。用户可(ke)实现在(zai)一张初始生成图片的基(ji)础上(shang),通过(guo)自(zi)然语言描述进行调(diao)整,来达到更满意的效(xiao)果。

去(qu)年3月,一批最先推出文生图模型的厂商火出圈的不是产品,而是模型给用户开出的各式脑(nao)洞。比如(ru),当网友对文心一言等模型输入“车水马龙”“鱼香肉丝”等关键成语时,模型大多(duo)按(an)照字面意思输出“一辆车、一滩水、一条龙”和(he)“用肉丝做成的鱼”。

南都记者了解获悉,文生图模型出现这样的开脑(nao)洞现象,多(duo)是因为核心数据集以英文为主(zhu),对中文的语言、美食、文化、习俗都理解不够。腾(teng)讯文生图负(fu)责人(ren)芦(lu)清(qing)林在(zai)沟通会上(shang)表示,过(guo)去(qu)大家通常(chang)都是用国外的东西在(zai)中文的数据上(shang)做一个新调(diao),这种(zhong)情况下意味着首先要把国外的数据做一层翻译,翻译过(guo)程中会造成很多(duo)损失和(he)歧异。但混元文生图并没有经过(guo)这样的翻译过(guo)程,直接用中文原生的数据进行训练,所以它能理解中文。

在(zai)此(ci)次(ci)沟通会上(shang),腾(teng)讯方面还透露,新一代腾(teng)讯混元文生图大模型视(shi)觉生成整体效(xiao)果相比前(qian)代提升超(chao)过(guo) 20%,在(zai)多(duo)轮对话、多(duo)主(zhu)体、中国元素、真实人(ren)像生成等场景下效(xiao)果提升显著,能生成古诗词、俚语、传统(tong)建筑、中华美食等中国元素。

南都记者试(shi)验发现,当输入炎炎夏(xia)日中的“映日荷花(hua)别(bie)样红(hong)”时,混元能理解诗句并生成正常(chang)的荷花(hua)和(he)夏(xia)景。输入去(qu)年在(zai)多(duo)个文生图大模型中“翻车”的“鱼香肉丝”和(he)“夫妻肺片”名菜,模型也(ye)能生成符合人(ren)类理解的菜品。

不过(guo),在(zai)随(sui)机输入“请画一盘蚂蚁上(shang)树”时,混元画出的图片按(an)照字面意思理解,南都记者调(diao)整提示词为“请画一道叫蚂蚁上(shang)树的菜”时,画出来的才是川菜“蚂蚁上(shang)树”。

全面开源,今年将应用到QQ、企业微信等场景

据悉,目前(qian)腾(teng)讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多(duo)项业务及(ji)场景中。今年初,腾(teng)讯广告基(ji)于腾(teng)讯混元大模型,发布了一站式 AI 广告创意平台腾(teng)讯广告妙思,可(ke)为广告主(zhu)提供文生图、图生图、商品背景合成等多(duo)场景创意工具,有效(xiao)提高了广告生产及(ji)投放效(xiao)率。

此(ci)次(ci)沟通会上(shang)腾(teng)讯方面还宣布要把最新的文生图模型开源。这意味着开发者及(ji)企业无需(xu)重头训练,即可(ke)直接用于推理,并可(ke)基(ji)于混元文生图打造专属(shu)的AI绘画应用及(ji)服务,能够节约大量(liang)人(ren)力及(ji)算力。据悉,腾(teng)讯已开源了超(chao) 170 个优质项目,均(jun)来源于腾(teng)讯真实业务场景,覆盖微信、腾(teng)讯云(yun)、腾(teng)讯游戏、腾(teng)讯AI、腾(teng)讯安全等核心业务板块。

在(zai)文生图模型的应用场景上(shang),腾(teng)讯文生图负(fu)责人(ren)芦(lu)清(qing)林在(zai)会后接受群访时表示,去(qu)年文生图模型已经深入和(he)广告场景做了一些协作,也(ye)已经和(he)腾(teng)讯游戏做了深度技术合作、支撑QQ音(yin)乐业务场景。今年文生图模型还会跟社交(jiao)软件包括QQ、企业微信很多(duo)业务场景做联(lian)动。

芦(lu)清(qing)林还表示,在(zai)这个时间段(duan)选择开源,一是因为混元自(zi)己已经准备好了具备开源的条件,二是看到大家越来越多(duo)地选择在(zai)DiT架构上(shang)去(qu)做开发,也(ye)就是说业界(jie)也(ye)需(xu)要开源。“我们原来走的是闭源路线,去(qu)年一直都是把模型迭代、再把接口开放给大家用。但我们发现在(zai)开源社区能让大家都参(can)与进来,大家共建能让这件事情能走得更快。后面我们也(ye)在(zai)考虑把其他大模型的开源。”

采写:南都记者 林文琪

发布于:广东省
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7