绘图模型DALL-E-3教程

生成型人工智能（AI）是一种能够利用生成模型生成文本、图像和其他媒体的人工智能技术。自从ChatGPT发布以来，关于生成型AI的讨论就无处不在，人们一直在期待这一领域的下一个发展，现在它终于来临。

OpenAI，即ChatGPT的开发者，最近发布了Midjourney的最新竞争产品DALL-E 3。据说，该模型在许多方面改进了其前身DALL-E和DALL-E 2的局限性，同时生成的媒体比Midjourney更准确地符合提示词。

本文旨在介绍DALL-E 3，包括如何获取和使用它。

什么是DALL-E 3？

DALL-E是由OpenAI创建的一款图像生成型生成AI模型。它最初于2021年1月推出，最新版本是其第三代。

该模型根据自然语言输入（即提示词）生成图像。具体来说，只需几个简短的短语，模型就能理解语言并创建出准确代表所给描述的图片。

有趣的是，创造者将著名的西班牙超现实主义艺术家达利（Salvador Dali）和皮克斯2008年的电影《机器人总动员》（WALL-E）的名字结合起来，命名为“DALL-E”。

如上所述，自从DALL-E诞生以来，该模型已经经历了多次升级。

DALL-E系列的演变

DALL-E、DALL-E 2和DALL-E 3有一个共同点，那就是它们都是使用深度学习技术开发的文本到图像模型，使用户能够从自然语言生成数字图像。除此之外，它们之间还有很多不同。例如，OpenAI在2021年的一篇博客中透露的DALL-E的第一版，是使用修改版的GPT-3来从文本生成图像的。

更具体地说，DALL-E 1使用了一种名为离散变分自编码器（dVAE）的技术，该技术基于Alphabet旗下DeepMind部门的向量量化变分自编码器研究。

快进到一年后的2022年，OpenAI宣布了DALL-E的继任者DALL-E 2。DALL-E 2旨在生成更加逼真、高分辨率的图像，结合了概念、属性和风格。

为了实现这一壮举，DALL-E 2改进了使用的技术。例如，DALL-E 2使用稳定扩散模型生成更高质量的图像，该模型整合了从400万标记图像中训练得到的对比语言-图像预训练（CLIP）模型的数据。这个模型（CLIP）有助于通过评估哪个标题最适合生成的图像来评估DALL-E的输出。

这就带我们来到了现在。2023年9月，OpenAI宣布了DALL-E系列的最新产品DALL-E 3。根据OpenAI团队的说法，DALL-E 3可以理解“比其前任更多的细微差别和细节”。这款模型遵循更复杂的提示词，生成更连贯的图像。它还集成到了另一款OpenAI生成型AI解决方案ChatGPT中。

DALL-E 3功能与能力

让我们来看看DALL-E 3带来的一些主要特性，尤其是与之前的模型相比。

增强的上下文理解

与前代产品相比，DALL-E 3展示了更先进的细节识别和更精细的理解能力，能够无缝地将您的想法转化为精确的视觉图像。传统的文本到图像技术已显示出对某些单词或描述的忽视，促使用户完善提示词工程的艺术。

OpenAI指出，DALL-E 3在理解上下文方面具有卓越的能力，其突出特点是提高了精度和效率的图像生成。DALL-E 3在根据用户提供的文本描述生成与之对应和符合的视觉效果方面，取得了进步。

其目标是通过输入更详细、更符合用户需求的信息，减少生成图像的复杂性和麻烦。

与ChatGPT的集成

由ChatGPT构建，DALL-E 3可以保证快速的提示词精炼和轻松的图像调整。用户可享受与ChatGPT合作的便利，将其作为“创意伙伴”来帮助生成图像概念。

安全和法律协议

在强调安全措施的同时，DALL-E 3禁止生成明确的、侵犯性的或歧视性的图像，以保护更广泛的社区。为了尊重知识产权并避免侵犯版权，DALL-E 3避免生成类似于在世公众人物的图像或模仿在世艺术家的独特风格。

与其他AI平台一样，DALL-E 3的知识来源于公开可获取的视觉和文本数据。吸收这些数据后，DALL-E 3利用它们创造出受以前数据启发的新图像。

然而，并非所有艺术家希望他们的数据被DALL-E 3使用，因此，OpenAI为内容创作者提供了两种途径来排除其图像被用作训练材料。他们可以通过填写在线表格来选择退出，或阻止GPTBot这一网络数据采集器访问其内容。

可访问性和发布

微软Bing已无缝整合OpenAI的DALL-E 3和ChatGPT，为所有人民主化了访问。您也可以通过ChatGPT Plus订阅来访问DALL-E 3。

分阶段发布策略

微软和OpenAI都采用了分阶段发布策略，确保DALL-E 3能与Bing无缝集成。起初，DALL-E 3仅对选定的用户和开发者开放，以收集反馈和解决潜在问题。随着时间的推移，访问权限被扩展到广泛的用户群体。

公众访问 OpenAI一直致力于确保其技术对公众开放。DALL-E 3的免费公共版本现已可用，使更广泛的社区能够探索AI的能力，无需负担费用。OpenAI继续与教育机构积极合作，使用其技术进行学习目的。

输入您想生成的图像的详细文本描述，然后按Enter提交。

使用的提示词是：“为一部名为‘隔壁的男人’的恐怖电影制作一张电影海报。”

下面是它生成的内容：

理解输出

DALL-E 3根据您的文本描述生成多个图像输出。浏览生成的图像，并选择最符合您需求的图像。

高级技巧

为特定任务微调DALL-E 3

您可能想要更进一步，提供更具体的关键词以指导DALL-E 3精确地生成您所期望的内容。例如，如果您想生成一幅图像，您可以寻找特定的主题或风格。

使用形容词。在您的提示词中使用描述性形容词可以帮助您更好地实现具体性。例如，您可以将“海上的日落天空”具体化为“宁静的蓝海上的炽热红日落天空”。
层次化描述。在您的提示词中添加层次，可以让DALL-E 3结合多个元素。例如，“东北方向飞翔的鸟儿与宁静的蓝粉色天空”。
艺术风格。如果您心中有特定的艺术风格，可以将其添加到您的提示词中——例如，照片现实主义、插画或梵高风格。
迭代精细化。您的初始提示词可能不会产生您所希望的结果。因此，您可以继续尝试并进行细化。

使用DALL-E 3的最佳实践和技巧

为了使您使用DALL-E 3的体验更加顺畅和有效，以下是一些您可以遵循的最佳实践和技巧：

具体化。上下文是关键，尤其是在使用DALL-E 3时。在您的提示中具体和详细会产生更好的输出效果。
例如，当您输入“一个男人”时生成的效果是

而当您输入“一个穿西装的男人，站在城市区域，戴着太阳镜，手持黑色公文包和滑板”时的差别是…

实验。与DALL-E 3进行各种尝试，直到您了解其优势和局限。最出乎意料的提示有时能产生最佳结果。
认识局限性。理解系统的局限性将帮助您更好地使用它，并允许您不断完善您的提示。
关注更新。随时了解任何更新，以确保您了解最新变化，并充分利用DALL-E 3。

实际应用和使用案例

DALL-E 3在AI驱动的图像生成领域标志着一个重要的里程碑。

现在我们已经连接到DALL-E 3并理解了其可能性，是时候深入探讨其具体应用了。凭借其生成性AI能力，DALL-E 3提供了广泛的可能用例，以帮助个人和组织，如下所示：

商标设计

无论规模大小，企业都可以使用DALL-E 3创建独特而引人注目的商标，无需广泛的设计技能。商标作为品牌的视觉身份，因此被视为极其重要。通过DALL-E 3，企业可以直接从文本描述生成独特的商标，这提供了一个独特、高效且经济的选择。

操作方式：通过输入所需商标的文本描述，DALL-E 3将为用户展示各种设计可能性。这使企业能够迅速迭代思路，细化并选择与其品牌精神相契合的商标。
这里有一个您可以使用的示例提示：“由Ivan Chermayeff设计的简约平面几何向量图形营地形状商标，黑色，简洁。”

好处：这一过程避免了重复设计的循环，节省了时间和资源。企业受益于快速调整，例如季节性商标变化或事件。
广告海报
企业和个人也可以利用DALL-E 3制作引人注目的海报，展示他们的产品和服务，吸引潜在客户。
操作方式：向DALL-E 3输入具体的产品细节，如色彩配方、主题和标语，提供足够的文本上下文，以生成适用于不同社交媒体的定制海报。
这里有一个您可以使用的示例提示：“为电影《搏击俱乐部》制作电影海报，特色是Tyler Durden，大量的黑色，采用Saul Bass的风格——比例2:3。”

好处：这确保了在所有平台上统一的品牌呈现，增强了品牌识别和顾客忠诚度，而无需承担传统设计过程的全部成本。
艺术和设计
艺术家可以将DALL-E 3作为补充工具，利用它增强他们的创造过程。从为时装线制作基础草图、绘制一系列纹身设计，到制作独特的音乐专辑封面，DALL-E 3都可以作为艺术家进一步精细化的起点。它为艺术表达和实验引入了新的途径，使创造过程更加动态和多样化。
操作方式：艺术家可以从一个基本的想法开始，使用详细的文本提示生成图像，然后进一步精细化以满足他们的具体需求。
这里有一个您可以使用的示例提示：“由Roy Lichtenstein绘制的满天烟花的夜空。”

好处：艺术家自然会遇到创造性的阻碍，DALL-E 3通过提供一系列起点来消除这一点。艺术家可以探索他们通常不涉及的风格和主题。
信息图
记者可以利用DALL-E 3设计信息图，将复杂的数据转化为观众易于消化的视觉内容。
操作方式：记者可以向DALL-E 3提供主题、详细描述以及所需的可视化类型。AI将提供信息图的文本描述，然后可以输入到DALL-E 3中为您可视化。输出结果可以进一步精细化以符合所需的美学。
这里有一个您可以使用的示例提示：“钢铁侠服装的信息图绘制。”

好处：使用DALL-E 3加速数据可视化过程已被证明可以节省时间和资源。精确且引人注目的视觉内容通常耗时较长；因此，使用DALL-E 3可以提升新闻内容的整体质量。

伦理考量与安全措施

OpenAI一直将伦理考虑和安全措施置于技术开发的前沿。随着更广泛的社区对使用人工智能系统及其在社会中的实施表示关注，确保社会安全与安定是这些人工智能系统所有者的责任。

DALL-E 2的反响

DALL-E 3的前身DALL-E 2在创建虚假、不当和歧视性内容时面临反对。例如，DALL-E 2生成了一张五角大楼附近爆炸的假图像，这导致股市崩溃。DALL-E 2依赖公共数据集也影响了其输出，显示出偏见。

例如，生成的图像中包括男性的数量比女性多。这导致DALL-E 2面临另一个挑战，因为用于训练的数据被过滤掉了被视为暴力或性的内容，这随后减少了在图像中生成女性的数量。

深度伪造和错误信息

广泛社区共有的一个重大关切是生成深度伪造和其他形式的错误信息。许多人担心在实施人工智能系统后如何区分真假。OpenAI为缓解这一挑战采取的一种方式是拒绝涉及公众人物的提示和包含人脸的图像上传。此外，包含上传图像的提示将进一步分析以评估它们是否包含攻击性材料，并阻止不当内容。

然而，基于提示的过滤存在的一个挑战是，用户可以通过替代措辞轻松绕过并破解过滤器。这将使人工智能系统提供类似的结果；例如，用户可以将提示中的“血”字替换为“红色液体”。

失业问题

基于我们对DALL-E及其潜在用例的了解以及它如何惠及组织和个人，它也引发了对艺术家、摄影师和平面设计师等创意人员失业率增加的担忧。

OpenAI的安全措施

OpenAI致力于确保负责任的人工智能治理，并正在与微软、谷歌和Meta等科技巨头合作，以确保人工智能生成的音频和视觉内容被加水印。然而，这一水印功能尚未在测试版本中提供，这引发了对测试阶段缺乏安全功能的担忧。

但这并不意味着OpenAI没有安全功能和计划。他们与红队合作——这些人被称为故意尝试破坏系统以揭示其脆弱性、弱点和其他改进领域的人。这使OpenAI能够对DALL-E 3进行压力测试，并制定适当的风险评估和缓解措施，以减少错误信息的传播。

如果您想更深入了解人工智能伦理的基础，并学习如何自信和负责任地应对复杂世界，请立即报名参加我们的人工智能伦理课程！

结论

活在这样一个时代真是太好了。基于其前身的基础，DALL-E 3的演化显示出了无与伦比的准确性、速度和理解上下文的能力。

OpenAI与微软的战略合作承诺向公众广泛提供可访问性，民主化人工智能驱动的图像生成。它与ChatGPT的整合增强了提示的细化和图像生成的协作方法。

DALL-E 3证明了机器学习的潜力及其为我们指尖提供视觉内容生成的高效解决方案。