ChatGPT 的新 Images 2.0 模型在生成文本方面出奇地好

原文：ChatGPT’s new Images 2.0 model is surprisingly good at generating text

过去，区分人造图像和人工智能生成的图像很容易——就在两年前，如果不发明“enchuita”、“churiros”、“burrto”和“margartas”等新的美食，就无法使用图像模型为墨西哥餐厅创建菜单。

现在，当我向全新的 ChatGPT Images 2.0 模型询问墨西哥美食菜单时，它会创建一些可以立即在餐厅使用的东西，而顾客不会注意到有什么问题。（然而，售价 13.50 美元的酸橘汁腌鱼可能会让我质疑鱼的质量。）

图片来源：ChatGPT Images 2.0

作为比较，这是我两年前从 DALL-E 3 得到的结果（当时 ChatGPT 没有生成图像）：

图片来源：Microsoft Designer (DALL-E 3)

人工智能图像生成器在历史上一直难以拼写，因为它们通常使用扩散模型，该模型通过从噪声中重建图像来工作。

Lesan AI 创始人兼首席执行官 Asmelash Teka Hadgu 在 2024 年告诉 TechCrunch：“扩散模型 [...] 正在重建给定的输入。我们可以假设图像上的文字是非常非常小的部分，因此图像生成器会学习覆盖更多这些像素的模式。”

此后，研究人员探索了其他图像生成机制，例如自回归模型，它可以预测图像的外观和功能，更像法学硕士。

不幸的是，OpenAI 在本周的新闻发布会上拒绝回答有关 ChatGPT Images 2.0 的模型类型的问题。

Techcrunch 活动在 Disrupt 与您的下一个投资者或投资组合初创公司见面

你的下一轮。你的下一个雇员。您的下一个突破机会。在 TechCrunch Disrupt 2026 上找到它，超过 10,000 名创始人、投资者和技术领导者齐聚一堂，参加为期三天的 250 多场战术会议、强有力的介绍和市场定义的创新。立即注册可节省高达 410 美元。在 Disrupt 认识您的下一个投资者或投资组合初创公司

你的下一轮。你的下一个雇员。你的下一个突破机会

阅读原文 →