首页 > 原创知识 > 原创知识 > 通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳

通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳

发布时间:2025-08-05 22:14:46

 8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。

该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现

在多个公开基准测试中,包括GenEval、DPG、OneIG - Bench(通用图像生成),GEdit、ImgEdit、GSO(图像编辑)以及LongText - Bench、ChineseWord、TextCraft(文本渲染)等,Qwen-Image在各类生成与编辑任务中均获得SOTA。

通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳

在性能表现上,Qwen-Image能在不同场景中实现高保真文本渲染。例如,在海报制作中,它不仅能准确展示海报风格,还能保留人物姿势和神态刻画,准确生成指定的中英文文字;在分模块案例中,能完成排版并生成各部分的图标、标题和介绍文本;除此之外,即使纸张面积小且段落文字长,也能准确生成文字,还可在双语间灵活切换。

图片

同时,Qwen-Image 在通用图像生成方面支持多种艺术风格,从照片级写实到印象派绘画,从动漫风格到极简设计,能灵活响应创意提示。

图片

通义千问表示,希望Qwen-Image能进一步推动图像生成领域发展,降低视觉内容创作技术门槛,激发更多创新应用可能,同时期待社区积极参与和反馈,共同构建开放、透明、可持续发展的生成式AI生态。

目前,该模型已在魔搭社区与Hugging Face开源。

原创知识更多>>

谷歌Gemini最“小”的一次迭代,姚顺宇为何高呼“不可阻挡”? 佳能EOS R3 Mark II首创双原生分辨率:2400万/5400万像素双模式 蔚来单日换电量突破16万次 春节假期第三次刷新纪录 全民自动驾驶指日可待!特斯拉官宣FSD里程突破128亿公里 比人驾更安全 已修复:微软承认Exchange/Teams本月误杀合法邮件和链接 奥特曼:中国科技进步令人瞩目,ChatGPT将推Instagram式广告 消息称三星为防开发泄密,在公司内部上线“加密聊天”通信系统 Go语言1.26版本正式发布:泛型限制放宽 亚马逊将启动第二轮大裁员:上万人失业 影响云业务等多部门 宇树澄清2025年销售数据:人形机器人实际出货量超5500台 英特尔Q4营收137亿美元净亏6亿,2026年Q1盈利指引归零 小学生组团刷差评 竟然惊动千问官方专门开了个会 财讯传媒更名BFB HEALTH:市值超12亿,切入远程医疗健康管理赛道 苹果首款折叠屏蓄势待发 iPhone Fold模型上手 AI时代的教育差距,体现在资源使用的效率与质量上 写在微信15周年:拒绝59秒语音,邮件才是职场文明 前OpenAI高管穆拉蒂新公司两位联合创始人离职,转头回老东家 DeepSeek与字节跳动踏进同一条河 “棋圣”聂卫平逝世 雷军发文悼念偶像 继摩尔、沐曦之后,2026年A股还有令人沸腾的IPO诞生? 国产RISC-V芯片新动向 进迭时空融资超6亿元 马自达首款自有纯电平台车型“难产”,最早得等到2028年 消息称苹果遭遇供应链危机,一块“玻璃布”卡住iPhone 18系列命脉 格罗方德将收购Synopsys新思ARC业务,进一步丰富半导体IP产品组合 波士顿动力人形机器人CES首秀,计划2028年进厂造车 吉大正元:VPN综合安全网关获IPv6认证 冯提莫分享减肥后肚皮松弛原因 快速减重50斤导致体质变化 古力娜扎宣发时跳舞,肩带突然断裂,险些走光,面红耳赤太尴尬 2025内娱“新”面孔之谁是你心中的短国天降紫微星? “你为什么这么老才生我?”71岁老戏骨发文称被18岁儿子嫌弃,看得人心酸:他用半生演活了别人,却演砸了自己的父亲角色