FLUX.1 [pro]刚刚与成年人一起加入了txt2img表。

FLUX.1 [pro] 刚刚加入了成年人的 txt2img 表格

我也不确定是否有人预料到了这一点……

我们将逐步介绍如何使用它，以及它的渲染效果是什么样子的——但首先，这里有一些关于平台的预习作业。截至本文发布之时，FLUX.1 文本到图像模型已经发布了24小时。FLUX.1 是一个开源的、快速渲染（确实很快）、最先进的GenAI深度学习模型，由以下团队开发：

Black Forest Labs

这家公司有多新？（关注他们的）

LinkedIn

.) 相当新的消息……在2024年8月1日，他们在其网站“公告”部分发表了一份声明……

黑森林实验室团队包括：Andreas Blattmann, Andi Holmes, Axel Sauer, Dominik Lorenz, Dustin Podell, Frederic Boesel, Harry Saini, Jonas Müller, Kyle Lacey, Patrick Esser, Robin Rombach, Sumith Kulal, Tim Dockhorn, Yam Levi, Zion English FLUX.1 GenAI txt2img 模型擅长于：

1 • 视觉元素：复杂构图 • 逼真的有机纹理 • 多样的艺术风格 2 • 文本处理：卓越的语言理解能力 • 精确的文本生成和定位 3 • 性能：快速图像生成（比Midjourney V6标准速度快10倍） 作为比较的一点，Midjourney有三个“速度”，这在技术上是图像生成的不同等待时间。 放松 * 动态等待时间，通常每个作业在0-10分钟之间。标准和专业计划的订阅者拥有无限的Relax生成次数。 快速 * 默认层级，使用订阅的每月GPU时间提供即时GPU访问。平均图像处理时间不到一分钟。基础计划会员每月可获得200次有限的快速生成。 涡轮增压 * 可以添加的参数，用于覆盖特定提示的默认生成速度。 标准、专业和超级计划的订阅者可以使用“/relax” + “/fast”命令在模式之间切换，或者在Alpha的提示栏下拉菜单中的‘速度’选项之间切换。使用FLUX.1

乍一看，对于Midjourney用户来说，这可能看起来有点令人困惑。它在某种程度上感觉有点像Stable Diffusion。我还没有探索API（尚未），但计划在不久的将来详细研究它。操场

有两个关键区域 — 输入和结果。这相当直观。我们将在输入部分添加我们所有的提示要求。输入可以被视为表单（就像你在下面看到的那样）和JSON格式。

JSON (JavaScript Object Notation) is a lightweight data interchange format that is easy for humans to read and write and easy for machines to parse and generate. For a prompt, a JSON object might look something like this:

json { "prompt": "What is the capital of France?", "options": ["Paris", "London", "Berlin", "Madrid"], "correct_answer": "Paris", "explanation": "The capital and most populous city of France is Paris, which is also one of the world's major global cities." }

In this example, the JSON object contains a key "prompt" with a string value that represents the question being asked. The "options" key is associated with an array of possible answers, and the "correct_answer" key points to the correct answer among those options. The "explanation" key provides additional information or context for the question.

在表单模式下，您需要考虑以下调整：提示

生成你的图像的基于文本的提示图像大小

默认，正方形 (512x512)，正方形高清 (1024x1024)，纵向 4:3 (768x1024)，纵向 16:9 (576:1024)，横向 4:3 (1024:720)，横向 16:9 (1024:576)
术语名称和结果大小存在一些差异。因此请注意数值比例。
您也可以选择“自定义”并设置您自己的数值比例。我为4:5的比例（未列出）这样做了。如果您不确定它应该是哪个尺寸——做基本的数学计算。如果您想要一个4:5的比例，并且1024是您的第一个值——将其除以4并乘以5。（1024 / 4 x 5 = 1280）数字推理步骤

执行的推理步骤数量。默认值：28。范围是1到50。 * 如果你不知道这是什么，生成式AI文本到图像模型中的推理步骤指的是模型进行迭代的次数，以逐步细化并从初始噪声中创建最终图像。 这里是简要的解释： 1 • 初始状态： 这个过程始于一张随机噪声图像。 2 • 迭代细化： 然后，模型通过一系列步骤逐渐将这些噪声转化为与文本提示相匹配的连贯图像。 3 • 每个步骤： 在每个推理步骤中，模型： * 分析图像的当前状态 * 将其与文本提示进行比较 * 进行小的调整，使图像更接近匹配提示 4 • 持续改进： 每一步，图像变得更加清晰和详细。 5 • 最终输出： 在完成所有推理步骤后，模型生成最终图像。推理步骤的数量通常可以由用户调整。更多的步骤通常会产生更高质量和更详细的图像，但也会延长生成时间。较少的步骤更快，但可能产生不够精细的结果。不同的模型和实现可能有不同的最佳推理步骤数。有些模型可能只需20步就能产生良好的结果，而其他模型可能需要50步或更多步骤才能受益。种子

相同的种子和相同的提示给同一个版本的模型，每次都会产生相同的图像。一个随机的种子将在每次运行渲染时生成（默认情况下），但如果您愿意，也可以设置一个种子号码——用于自定义结果，或者使用已经声明的种子来获取之前渲染结果应用于新的提示。指导量表（CFG）

CFG（无分类器引导）量表是衡量您希望模型在寻找相关图像以展示给您时，与您的提示保持多紧密程度的一个指标。默认值：3.5 CFG范围是1到20。同步模式

如果设置为true，函数将在生成并上传图像后才返回响应。这将增加函数的延迟，但它允许您直接在响应中获取图像，而无需通过CDN。数字图像

生成图像的数量。默认值：1 应该明确写成“图像数量”……这样会更有意义。范围是1到4。安全容忍度

生成图像的安全容差级别。1是最严格，5是最宽松。默认值："2" 太好了——那么渲染效果如何？

一只老虎眼睛的极端特写，正面直视。详细的虹膜和瞳孔。眼睛纹理和颜色的清晰焦点。自然光线捕捉真实的眼睛光泽和深度。“FLUX”这个词用大号白色笔触涂在上面，纹理可见。 * 图片尺寸： 竖屏 768:1024 * 推理步骤数量： 28 * 指导量表（CFG）： 3.5 * 图像数量： 1

我已经汲取了我丰富的经验——并将它们全部整合在一起，为面对这个人工智能新时代的创意专业人士提供资源。 *

A.I. Explore

— 资源和书籍嘘... 你知道吗，我写了一本书？实际上我已经写了6本关于人工智能的书——但我最新的一本是在7月中旬发布的：

Midjourney — Back to Basics • Beginner’s Guide

立即获取您的副本，今天就开始精通Midjourney！

推荐阅读：

图文

历史上最快的人工智能芯片“Sohu”，比B200快10倍，由哈佛……

图文

MidJourney 更新 V6.1：将 AI 艺术提升到前所未有的高度。

图文

这个 Pandas 替代品在处理 1 亿行时快了 350 倍

赋迪奥本AI

上海赋迪网络科技