Imagen 3与ChatGPT DALL-E 3图像能力全方位对比 - 人工智能的图像应用探索
近年来,图像生成已成为人工智能领域最令人兴奋的应用之一。在这一领域中,Imagen 3和ChatGPT DALL-E 3是两个最突出的模型。尽管这两个模型在图像相关任务中都表现出色且功能多样,但它们之间仍存在一些差异。本文旨在探索和比较这两个模型的各种功能和能力,以找出Imagen 3与DALL-E 3之间的终极赢家。
图像生成能力对比
我们首先测试了这两个模型在图像生成方面的能力,涵盖了三个类别:写实照片、室内设计布局和想象力丰富的插图。为此,我们向ChatGPT-4o和Google Gemini Advanced提供了三个不同的提示,并比较了由ChatGPT DALL-E 3和Google Imagen 3生成的响应。
写实照片
提示:生成一张超写实的日出时宁静山湖的照片,湖水清澈见底,反射着周围白雪皑皑的山峰和松树。
分析:两个模型都为这个提示生成了令人惊叹的视觉效果,展示了雪山、松树及其在湖中的倒影。Imagen 3的图像显示了水下的石头,使其看起来更加真实。然而,图像中没有显示出日出的迹象,更像是下午拍摄的照片。ChatGPT DALL-E 3的图像正确地显示了从一侧照射的阳光,表明是日出。但图像的色彩和对比度使其看起来更像一幅数字绘画,而非写实照片。
评分:Imagen 3: 1, DALL-E 3: 0
室内设计布局
提示:生成一张现代简约客厅的图像,色调为红色和黑色,包括沙发、地毯、桌子、灯具、墙艺和俯瞰海洋的落地窗。
分析:两个模型都生成了符合提示的准确图像。使用Imagen 3生成的图像看起来更加真实,可以直观地感受到不同材料的质感。窗外的海滩也准确地生成了。另一方面,使用DALL-E 3生成的图像存在一些错误。地板上有一只鸟,窗格看起来不合适,灯具在白天亮着。此外,设计不如Google Imagen 3那样简约。海滩和外部照明看起来也不太真实和模糊。因此,这个提示的明显赢家是Imagen 3!
评分:Imagen 3: 2, DALL-E 3: 0
想象力丰富的插图
提示:生成一张红色巨龙在埃菲尔铁塔上喷火的插图。
分析:尽管两个模型都生成了符合提示描述的图像,但这次Imagen 3似乎出了一些问题。火焰没有从龙的嘴里喷出,也没有对准塔。很明显,塔在背景中的另一个框架中,而龙站在更前面的位置。DALL-E 3在生成想象力丰富的插图方面做得更好,清晰地展示了一个电影场景!月亮和闪电的额外添加进一步展示了生成模型的艺术技巧。
评分:Imagen 3: 2, DALL-E 3: 1
图像分析能力对比
Gemini Advanced和ChatGPT-4o都是视觉模型,这意味着它们可以处理和理解图像。因此,图像分析是评估这些模型视觉能力的重要方面。在本节中,我们将尝试三种不同的图像:城市景观、图表和股票市场图,看看Imagen 3和DALL-E 3在分析它们方面的表现如何。
描述城市景观
提示:详细描述图像。识别图像中的城市和所有突出的建筑物。
分析:两个模型都准确地将图像识别为伦敦的天际线。它们识别了图像中的不同建筑物以及泰晤士河。然而,ChatGPT-4o识别了更多的建筑物,并给出了它们的昵称,显示了对图像的更好理解。图像的描述也更加详细,甚至简要描述了伦敦,称其为英国的首都。另一方面,Gemini Advanced可以识别出更小的细节,如水中的船只。
评分:Gemini Advanced: 0, ChatGPT-4o: 1
理解图表
提示:描述图表中显示的电路,并识别所有使用的电气符号。
分析:两个模型都准确识别了图表及其组件,但都错过了识别电路中的开关。ChatGPT-4o更详细地解释了电气组件,并以结构化的方式进行了解释。Gemini的分析和解释更偏向于教育性,像是在向学生解释。尽管它不准确地指出电压表仅测量10 Ω电阻上的电压。另一方面,ChatGPT错误地解释了电阻的配置,指出只有5 Ω和10 Ω电阻并联,而2 Ω电阻也并联。因此,这个提示的评分是双方平分。
评分:Gemini Advanced: 1, ChatGPT-4o: 2
分析股票市场图
提示:为初学者解释公司的股票图。突出显示关键趋势、模式和显著的价格变化。同时,为潜在投资者提供见解。
分析:两个模型都准确分析了图表并描述了特斯拉的6个月股票图,但它们的处理方式显著不同。ChatGPT-4o提供了高度详细和结构化的解释,将分析分为关键趋势、观察和投资者见解等清晰的部分。它使用了具体的例子和时间线,如7月和11月的价格飙升,并突出了独特方面,如盘后交易活动。相比之下,Gemini Advanced提供了更一般的概述,重点关注了上升势头和波动性等更广泛的趋势。因此,这个任务中,我的投票给ChatGPT-4o。
评分:Gemini Advanced: 1, ChatGPT-4o: 3
图像编辑能力对比
Imagen 3和DALL-E 3不仅能够生成图像,还能编辑图像。尽管它们不提供直接的像素级编辑,但它们可以根据提示重新创建编辑后的图像。这样,它们可以替换图像中的对象、合并图像、将图像转换为不同的风格等。因此,让我们尝试其中一些功能,并比较这两个模型的编辑技能。
更改图像中对象的颜色
提示:将图像中的包的颜色更改为红色。
分析:两个模型都尝试重新创建图像,并融入了提示中提到的编辑。然而,正如你所看到的,图像与原始图像有很大的不同。虽然Google Imagen 3设法保留了瓶子的颜色,但ChatGPT DALL-E 3将瓶子替换为一个完全不同的瓶子,甚至将一些水倒入玻璃杯中。在这两种情况下,包都被替换为一个新的红色包(或在DALL-E 3的情况下是红黑相间的包)。这表明DALL-E 3在图像中添加了更多的上下文,而Imagen 3则严格遵循提示。
评分:Imagen 3: 1, DALL-E 3: 1
最终结论
通过以上对比,我们得出了Imagen 3与DALL-E 3的最终结论。这两个生成式AI模型在图像生成、分析和编辑方面都表现出色,各有独特的优势。Google Imagen 3在生成超写实图像和严格遵循提示方面表现出色,使其成为需要精确和真实感的应用程序的理想选择。另一方面,ChatGPT DALL-E 3在想象力丰富的插图和创建上下文丰富的输出方面表现出色,使其成为创意任务和幻想主题项目的理想选择。然而,这两个模型在编辑图像方面仍有很大的改进空间。
其他观察
- Google Gemini Advanced目前不允许用户生成、编辑或分析人物图像,包括医学图像。尽管这是朝着伦理AI迈出的正确一步,但它限制了Imagen 3的应用。
- Gemini Advanced的另一个缺点是它无法直接编辑图像。它只能使用Imagen 3重新创建与参考图像相似的图像。另一方面,ChatGPT-4o至少尝试使用ChatGPT DALL-E 3直接编辑图像,尽管不成功。
- ChatGPT-4o支持上传多张图像进行比较分析和风格转换,这在Gemini中是不可能的。后者一次只能接受一个文件作为输入,进一步限制了Google Imagen 3的应用。
- 这两个模型都无法生成准确标记的图表、合理的流程图或包含文本的图像。
- 很多时候,Gemini会响应一段文字,如“这是带有…的图像”,但没有图像。希望这只是暂时的故障,并很快得到解决。
结论
选择Google Imagen 3还是DALL-E 3最终取决于用户的具体需求。对于那些寻求精确、真实图像输出的用户,Imagen 3是更好的选择。相反,对于想象力丰富和创意图像生成或需要丰富上下文的任务,DALL-E 3表现更佳。然而,这两个模型在准确标记图表、生成图像中的文本或编辑图像等任务上仍有改进的空间。
版权声明:
作者:5ifenxi
链接:https://5ifenxi.com/archives/1525.html
来源:爱分析网(5iFenXi.com)
文章版权归作者所有,未经允许请勿转载。