图像生成技术是人工智能创作中最成熟的形式之一,能够将一个简单的想法转化为图形照片或任何类型的图像
嗯,其底层技术已相当成熟。一个模型与另一个模型之间仍然存在很大的差异,甚至同一家公司部署同一版本模型的方式也可能与另一家公司完全不同。
在某些领域,存在很多共性,特别是在超逼真的人脸方面;但在其他方面,则存在明显差异,尤其是在文本渲染、皮肤纹理和提示遵循等方面
为了能更好地知晓人工智能是如何处理颇为复杂的提示的,我向 7 个处于领先地位的人工智能图像生成器发出了相同的免费请求,其中包括 DALL-E、Flux、Ideogram、Mystic、Phoenix、Midjourney 以及 Haiper。
创建提示
我排除的模型可能比包括的模型更多,包括非常强大的谷歌的 Imagen 3和meta 的 Imagine AI。排除它们的原因是它们在全球范围内不像我所包括的那些那样广泛可用。
这三个提示大不相同。第一个会导致创建具有特定位置元素的复杂场景;第二个对文本渲染提出了特定要求;第三个侧重于皮肤纹理和真实感。
倘若您不认同我的任何决定,或者想要尝试具有特定设置的提示(我都是使用默认设置来运行它们的),我已经把提示完整地包含在内了。
提示一:年轻女子
一位 20 多岁年轻女子的超逼真智能手机自拍照。这张照片具有高端智能手机相机的鲜明清晰度和生动色彩,一侧有轻微的运动模糊。图像是在自然日光下拍摄的,导致她脸部一侧有轻微的过度曝光。她留着齐肩的卷发,挑染部分已经长长,化着简约的日常妆容,眼线有点晕染。她的表情是真诚的、有点歪斜的微笑,眼睛周围略带倦意。她穿着一件舒适、磨损的印有褪色乐队标志的图形 T 恤。一条细银项链部分缠在她衣领附近的头发里。背景是一个有人居住的工作室公寓,一张未整理的床和一个小书架可见。她身后的窗台上有一株有几片黄叶的室内植物。她衬衫领口上有一个几乎看不见的小咖啡渍。
中途创作
对于所有这些提示,我都使用了所有默认设置,不幸的是,这对中途创作不利,因为它是所有 AI 图像模型中可定制性最强的。在这里,由于其默认的追求完美的行为,它错过了提示中的一些要点。尽管如此,我认为它对这位女士的描绘非常出色。
DALL-E
在测试显示真人的提示时,DALL-E 几乎没有竞争力,因为它让每个人看起来都有点像布拉茨娃娃。
表意文字
表意文字在遵循提示中的“不完美”元素方面做得很好,但在动态模糊方面有点过头了——稍微有点。然而,我认为这是所有人像中最自然的。
Freepik Mystic
我喜欢 Mystic 的灯光,这位女士看起来最逼真。提示遵循得不错,但存在一定程度的恐怖谷效应。它也有中途创作的“太完美”的问题。
Flux(使用 Grok)
Flux 可能是我最喜欢的整体图像。我认为就遵循提示或逼真描绘而言,它不是最好的,但它不错,总体看起来更可信。
莱昂纳多·菲尼克斯
我真的相信这是一张真实的照片。它完美地捕捉到了不完美之处,但灯光仍稍有偏差,构图也很怪异。
海珀
海珀做得很好,但灯光不对,皮肤太“完美”。否则,这是这套生成的角色中我最喜欢的。
获胜者: 表意符号
提示二:便士巷
一个繁忙的 20 世纪 60 年代伦敦的雨下午街道场景。街道两旁排列着标志性的红色双层巴士、黑色出租车和拿着五颜六色雨伞的人们。一个受披头士启发的乐队在街角表演,他们的乐器在潮湿的人行道上反光。在背景中,大本钟透过一层薄雾可见。一家小咖啡馆上方的霓虹灯招牌上用发光的字母写着“便士巷”。在右边,一位穿着时髦的 20 世纪 60 年代连衣裙的女士正在等公共汽车,手里拿着一份标题为“人类登上月球”的报纸。雨滴清晰可见地落下,在水坑中形成涟漪,整个场景融合了怀旧和现实主义。
Midjourney
Midjourney 在遵循场景方面做得很好,并“试图”准确地呈现标志,但混淆了两个文本请求。
DALL-E
同样,DALL-E 试图显示文本,但未能准确呈现,以奇怪的方式混淆了两个不同的陈述。这个场景也比其他的更卡通化。
表意符号
表意符号是唯一一个几乎完全正确的。它呈现了便士巷,并提供了一位拿着报纸的女士。它的视觉效果不像 Midjourney 那样有氛围感,但场景结构更好。
Freepik Mystic
Freepik Mystic 基于 Flux 模型,且进行了一些额外的微调,其表现也令人印象深刻。它正确地呈现了文本,并放置了一位拿着报纸的女士。视觉效果比表意符号好,场景结构不如表意符号好,因为女士在马路上。
Flux(使用 Grok)
使用 Grok 生成的 Flux 令人惊讶地聪明,因为它有拿着报纸的女士,在广告牌上写有“便士巷”、“披头士”以及“人类登上月球”。然而,虽然视觉效果不错,但场景结构很糟糕,包括创建了两个伊丽莎白塔(大本钟)。
莱昂纳多·菲尼克斯模型
莱昂纳多·菲尼克斯模型可能是我尝试过的所有模型中对提示的遵循程度最好的。它的文本呈现也令人印象深刻,但它的视觉外观、场景创建和面部都很糟糕。
海珀
海珀的视觉效果和氛围是最好的,但它甚至没有尝试处理文本,并且忽略了提示本身的许多元素,因此对提示的遵循程度也失败了。
获胜者:表意文字模型
提示三:维多利亚时代的伦敦
黄昏时分熙熙攘攘的维多利亚时代伦敦街道,马拉的马车在鹅卵石路上行驶。一位穿着深红色连衣裙和帽子的穿着得体的女士站在煤气路灯下,正在阅读一份折叠的报纸,标题为:“新发明改变世界!”。路灯的光芒在她的脸上投下温暖的光。附近一个卖烤栗子的街头小贩的推车冒出蒸汽,而穿着破烂衣服的孩子们在背景中欢快地奔跑玩耍。在远处,大本钟的钟楼若隐若现,一半被薄雾笼罩。现实主义应该突出街道的纹理、女士的详细面部表情以及薄雾和灯光的细微差别。
中途之旅
中途之旅模型捕捉到了场景的基本要素,包括准确地呈现了戴帽子的女士,尽管它似乎把雾渲染成了烟。
DALL-E
DALL-E 模型没有尝试处理文本,但它确实准确地捕捉到了场景。它又有点偏向卡通风格而不是现实主义。它看起来有点像维多利亚时代的明信片。
表意文字
表意文字模型在渲染框架方面做得还算合理。不太喜欢轻微的卡通感或街上的孩子,但女士看起来很自然,它几乎符合文本描述。
Freepik 神秘图像
神秘图像在整体上表现最佳,因为它精准地描绘了场景,营造出十分逼真的氛围,但在文本呈现方面确实有所不足。
Flux(使用 Grok)
Flux(在 Grok 中)在报纸上的文本显示方面做得最为出色,甚至所生成的图像中,阅读报纸的女人的姿态显得更为自然。
莱昂纳多·菲尼克斯
莱昂纳多·菲尼克斯精准地框定了场景,也捕捉到了报纸上的文字,但其图像确实给人一种卡通般的感觉。
海珀
海珀的场景给人的感觉更为真实,它并非通过展示大本钟来试图展现伦敦。相反,似乎呈现了一个维多利亚时代的场景,其中包括煤气灯以及鹅卵石街道上的马车。
获胜者: Flux(在 Grok 中)