93亿参数小个子,怎么打赢800亿巨无霸
如果你用过AI生图,应该经历过一种微妙的崩溃。输入做活动海报的要求,几秒钟后AI生成的图,构图、光影、配色都很好,但上面的字要么拼错,要么缺胳膊少腿,甚至是乱码。这是整个AI生图行业持续三年多的集体尴尬:画啥像啥,写字就废。不管用Midjourney还是Stable Diffusion,面对带文字的图,结果都差不多。
直到昨天,一家叫Ideogram的加拿大公司,推出了一个9.3B参数的开源模型Ideogram 4.0。在文字渲染这个“行业绝症”上,它有惊人表现。
主流的AI生图模型,如Stable Diffusion、Midjourney、DALL - E,它们的“大脑”分文本编码器和图像生成器两部分,靠“交叉注意力”沟通。信息在传话环节有损耗,就像让人描述路牌上的“STOP”给另一个人画,画出来可能变成“SOTP”。CLIP和T5等传统文本编码器,擅长理解“这张图里有什么”,不擅长理解“这个字长什么样”。所以Midjourney花了三年、七个大版本迭代,文字准确率依然只有40%左右。
而Ideogram 4.0不走老路。一是采用“单流DiT架构”,把文字token和图像token拼接成统一序列,扔进同一个34层Transformer里,让文字和像素、颜色、构图一起作为画面的“原生组成部分”被思考。二是文本编码器用了Qwen3 - VL,能“看懂图”,且从13个中间层同时抽特征。三是训练数据在结构化JSON标注上训练,让模型学到“理解排版逻辑”。
ContraLabs搞的文字渲染盲测排行显示,Ideogram 4.0表现出色。而且它功能丰富,原生2K分辨率、支持6:1超宽画幅、色板调色控制、JSON结构化提示,能做海报、LOGO、横版封面、竖版手机壁纸,还能精确指定配色。
开源这把刀,砍在了谁身上
Ideogram 4.0是“开放权重”的开源模型,可在自己机器上跑、用自己的数据微调、在自己产品里集成,但商业使用要付费。
AI生图赛道过去有三种生存策略:Stable Diffusion的“全开源赌生态”,结果SD3崩了,创始人跑路;Midjourney的“全闭源赌品质”,赚到钱但用户被锁在Discord里;GPT - Image和Imagen的“大厂绑套餐”,技术强但贵。Ideogram选了第四条路:权重白嫖,商业再说,发布24小时内,14个以上平台宣布接入。
这意味着设计师能在熟悉的工具里用上Ideogram 4.0,而Midjourney还和Discord绑死。其API价格也很实惠,最快模式0.03美元一张,最高质量0.1美元一张。
Midjourney在文字渲染上一直是软肋,现在Ideogram 4.0碾压它,在商业设计场景,Midjourney基本被降维打击。真正可能被冲击的是Canva和稿定设计这类模板工具。不过,目前Ideogram 4.0中文文字渲染效果不明确,评测主要基于英文,且它的“开源”有限制,非商业免费,商业要买许可证。
文字之后,下一个战场
Ideogram 4.0证明了AI生图最被低估的短板可通过架构创新填补,不一定堆更大的模型。但文字渲染被解决后,AI生图还有几块短板。
一是角色一致性,生成主角的十张图,十张脸都不一样,至今没模型能完美解决。二是精细编辑,多数模型对“把标题改成绿色”这类要求处理不好。不过Ideogram官方预告“可编辑文本和图层功能即将上线”。三是中文支持,全球顶尖生图模型对中文支持基本为零,这是国产模型的机会。
文字的窗口期不会太长,Midjourney V8和FLUX都在改进文字渲染,估计6 - 12个月内,“AI能写字”会成标配,届时拼的就是“谁能设计”了。从“AI画啥像啥、写字就废”到“开源模型把Midjourney给秒了”,走了三年多,Ideogram 4.0成了破局者,它的对手是“AI到底能不能真正干活”这个终极问题,文字渲染只是第一步。以前让AI做海报,得先祈祷写对字再用Photoshop改,以后可能说句话AI就给成品。问题是,到那时你打算用它做什么?