能画对“夫妻肺片”的文生图大模型来了！与Sora同款架构,混元,南都,场景20240517-业界动态-www.cyts.ha.cn

能画对“夫妻肺片”的文生图大模型来了！与Sora同款架构,混元,南都,场景

2024-05-17 07:21:34

能画对“夫妻肺片”的文生图大模型来了！与Sora同款架构,混元,南都,场景

能理解并生成“夫妻肺片”“胸(xiong)有成竹”的中文开源大模型出现了。

5月14日，腾(teng)讯宣布，旗下混元文生图大模型全面升级(ji)并对外开源，目前(qian)已在(zai) Hugging Face 平台及(ji) Github 上(shang)发布，包含模型权重、推理代码、模型算法等完(wan)整模型，可(ke)供企业与个人(ren)开发者免费商用。

据悉，升级(ji)后的混元文生图大模型采用了与 sora 一致的DiT架构，不仅(jin)可(ke)支持文生图，也(ye)可(ke)作为视(shi)频等多(duo)模态视(shi)觉生成的基(ji)础。南都记者实测(ce)发现，目前(qian)混元文生图大模型已能充分理解中文成语、诗句和(he)快速生成图片，同时支持用户在(zai)多(duo)轮对话中对图片进行调(diao)整。

能理解并生成“夫妻肺片”“胸(xiong)有成竹”的中文开源大模型出现了。

5月14日，腾(teng)讯宣布，旗下混元文生图大模型全面升级(ji)并对外开源，目前(qian)已在(zai) Hugging Face 平台及(ji) Github 上(shang)发布，包含模型权重、推理代码、模型算法等完(wan)整模型，可(ke)供企业与个人(ren)开发者免费商用。

据悉，升级(ji)后的混元文生图大模型采用了与 sora 一致的DiT架构，不仅(jin)可(ke)支持文生图，也(ye)可(ke)作为视(shi)频等多(duo)模态视(shi)觉生成的基(ji)础。南都记者实测(ce)发现，目前(qian)混元文生图大模型已能充分理解中文成语、诗句和(he)快速生成图片，同时支持用户在(zai)多(duo)轮对话中对图片进行调(diao)整。

采用Sora同款架构，中文俚语理解力增强

南都记者了解获悉，升级(ji)后的腾(teng)讯混元文生图大模型采用了Sora和(he)Stable Diffusion 3的同款架构和(he)关键技术。据悉，随(sui)着参(can)数量(liang)的提升，基(ji)于Transformer架构的扩散模型能展现出更好的扩展性，有助于进一步提升模型的生成质量(liang)及(ji)效(xiao)率。

试(shi)验发现，腾(teng)讯混元文生图大模型能实现多(duo)轮对话，其长文本理解能力最多(duo)能支持256字符的内容输入。用户可(ke)实现在(zai)一张初始生成图片的基(ji)础上(shang)，通过(guo)自(zi)然语言描述进行调(diao)整，来达到更满意的效(xiao)果。

去(qu)年3月，一批最先推出文生图模型的厂商火出圈的不是产品，而是模型给用户开出的各式脑(nao)洞。比如(ru)，当网友对文心一言等模型输入“车水马龙”“鱼香肉丝”等关键成语时，模型大多(duo)按(an)照字面意思输出“一辆车、一滩水、一条龙”和(he)“用肉丝做成的鱼”。

南都记者了解获悉，文生图模型出现这样的开脑(nao)洞现象，多(duo)是因为核心数据集以英文为主(zhu)，对中文的语言、美食、文化、习俗都理解不够。腾(teng)讯文生图负(fu)责人(ren)芦(lu)清(qing)林在(zai)沟通会上(shang)表示，过(guo)去(qu)大家通常(chang)都是用国外的东西在(zai)中文的数据上(shang)做一个新调(diao)，这种(zhong)情况下意味着首先要把国外的数据做一层翻译，翻译过(guo)程中会造成很多(duo)损失和(he)歧异。但混元文生图并没有经过(guo)这样的翻译过(guo)程，直接用中文原生的数据进行训练，所以它能理解中文。

在(zai)此(ci)次(ci)沟通会上(shang)，腾(teng)讯方面还透露，新一代腾(teng)讯混元文生图大模型视(shi)觉生成整体效(xiao)果相比前(qian)代提升超(chao)过(guo) 20%，在(zai)多(duo)轮对话、多(duo)主(zhu)体、中国元素、真实人(ren)像生成等场景下效(xiao)果提升显著，能生成古诗词、俚语、传统(tong)建筑、中华美食等中国元素。

南都记者试(shi)验发现，当输入炎炎夏(xia)日中的“映日荷花(hua)别(bie)样红(hong)”时，混元能理解诗句并生成正常(chang)的荷花(hua)和(he)夏(xia)景。输入去(qu)年在(zai)多(duo)个文生图大模型中“翻车”的“鱼香肉丝”和(he)“夫妻肺片”名菜，模型也(ye)能生成符合人(ren)类理解的菜品。

不过(guo)，在(zai)随(sui)机输入“请画一盘蚂蚁上(shang)树”时，混元画出的图片按(an)照字面意思理解，南都记者调(diao)整提示词为“请画一道叫蚂蚁上(shang)树的菜”时，画出来的才是川菜“蚂蚁上(shang)树”。

全面开源，今年将应用到QQ、企业微信等场景

据悉，目前(qian)腾(teng)讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多(duo)项业务及(ji)场景中。今年初，腾(teng)讯广告基(ji)于腾(teng)讯混元大模型，发布了一站式 AI 广告创意平台腾(teng)讯广告妙思，可(ke)为广告主(zhu)提供文生图、图生图、商品背景合成等多(duo)场景创意工具，有效(xiao)提高了广告生产及(ji)投放效(xiao)率。

此(ci)次(ci)沟通会上(shang)腾(teng)讯方面还宣布要把最新的文生图模型开源。这意味着开发者及(ji)企业无需(xu)重头训练，即可(ke)直接用于推理，并可(ke)基(ji)于混元文生图打造专属(shu)的AI绘画应用及(ji)服务，能够节约大量(liang)人(ren)力及(ji)算力。据悉，腾(teng)讯已开源了超(chao) 170 个优质项目，均(jun)来源于腾(teng)讯真实业务场景，覆盖微信、腾(teng)讯云(yun)、腾(teng)讯游戏、腾(teng)讯AI、腾(teng)讯安全等核心业务板块。

在(zai)文生图模型的应用场景上(shang)，腾(teng)讯文生图负(fu)责人(ren)芦(lu)清(qing)林在(zai)会后接受群访时表示，去(qu)年文生图模型已经深入和(he)广告场景做了一些协作，也(ye)已经和(he)腾(teng)讯游戏做了深度技术合作、支撑QQ音(yin)乐业务场景。今年文生图模型还会跟社交(jiao)软件包括QQ、企业微信很多(duo)业务场景做联(lian)动。

芦(lu)清(qing)林还表示，在(zai)这个时间段(duan)选择开源，一是因为混元自(zi)己已经准备好了具备开源的条件，二是看到大家越来越多(duo)地选择在(zai)DiT架构上(shang)去(qu)做开发，也(ye)就是说业界(jie)也(ye)需(xu)要开源。“我们原来走的是闭源路线，去(qu)年一直都是把模型迭代、再把接口开放给大家用。但我们发现在(zai)开源社区能让大家都参(can)与进来，大家共建能让这件事情能走得更快。后面我们也(ye)在(zai)考虑把其他大模型的开源。”

采写：南都记者林文琪

发布于：广东省

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多