原文:ChatGPT’s new Images 2.0 model is surprisingly good at generating text

过去,区分人造图像和人工智能生成的图像很容易——就在两年前,如果不发明“enchuita”、“churiros”、“burrto”和“margartas”等新的美食,就无法使用图像模型为墨西哥餐厅创建菜单。

现在,当我向全新的 ChatGPT Images 2.0 模型询问墨西哥美食菜单时,它会创建一些可以立即在餐厅使用的东西,而顾客不会注意到有什么问题。 (然而,售价 13.50 美元的酸橘汁腌鱼可能会让我质疑鱼的质量。)

图片来源:ChatGPT Images 2.0

作为比较,这是我两年前从 DALL-E 3 得到的结果(当时 ChatGPT 没有生成图像):

图片来源:Microsoft Designer (DALL-E 3)

人工智能图像生成器在历史上一直难以拼写,因为它们通常使用扩散模型,该模型通过从噪声中重建图像来工作。

Lesan AI 创始人兼首席执行官 Asmelash Teka Hadgu 在 2024 年告诉 TechCrunch:“扩散模型 [...] 正在重建给定的输入。我们可以假设图像上的文字是非常非常小的部分,因此图像生成器会学习覆盖更多这些像素的模式。”

此后,研究人员探索了其他图像生成机制,例如自回归模型,它可以预测图像的外观和功能,更像法学硕士。

不幸的是,OpenAI 在本周的新闻发布会上拒绝回答有关 ChatGPT Images 2.0 的模型类型的问题。

Techcrunch 活动 在 Disrupt 与您的下一个投资者或投资组合初创公司见面

你的下一轮。你的下一个雇员。您的下一个突破机会。在 TechCrunch Disrupt 2026 上找到它,超过 10,000 名创始人、投资者和技术领导者齐聚一堂,参加为期三天的 250 多场战术会议、强有力的介绍和市场定义的创新。立即注册可节省高达 410 美元。在 Disrupt 认识您的下一个投资者或投资组合初创公司

你的下一轮。你的下一个雇员。你的下一个突破机会

阅读原文 →