Midjourney是一个基于人工智能的图像生成平台,用户通过输入文字描述就能生成高质量的图像。其操作简便,支持多种风格,广泛应用于艺术创作、设计和广告等领域。然而,用户在实际使用中遇到一个问题:Midjourney难以直接生成符合用户意图的图像。通常需要多次调整提示词,耗时较长,有时甚至比从头开始制作一张图片还要费时。因此,如何让Midjourney更准确地理解用户意图,快速生成理想图片呢?今天总结了3个方法。 方法一 垫图 在Midjourney中,最常用的图像生成控制方式是进行垫图操作。这种操作让我们能够直观地对生成的图像进行控制。生成的图像通常会在构图和色彩上与我们选择的底图素材存在一定的相似性,但我们无法精确控制生成图像与底图素材之间的相似程度,因此仍然存在一定的随机性 以这两张图像为例,生成的图片在构图和脸部表情上与底图相近,但整体画面的背景和主体的相似度与原图相比则相差较远。这种情况下,我们可能需要进行进一步的调整,或者通过多次生成来实现与底图更为相似的图像。 方法二 添加后缀 在Midjourney中,有一些功能性的提示词,它们并不是用于描述画面内容,而是用于调整画面的结构。这类提示词可以用来设置画面的长宽比、指定生成图像的次数,以及添加反向提示词(即画面中不应出现的元素)等。在这些功能性提示词中,有一个名为“--sref”的提示词,它的主要作用是保持生成图像与目标图像的风格一致。通过使用“sref”,用户能够更好地控制生成图像的风格特征,使其与预期效果更加契合。 通过对原图和生成图的对比观察,我们可以发现,生成图像在画面风格和整体色调上与目标图像较为相似。然而,生成图像的构图和人物主体形态与原图存在较大差异。因此,我们需要在提示词等方面进行进一步的调整和控制,以提升生成图像与目标图像之间的相似性。这样的优化过程将有助于更精准地实现预期效果。 方法三 图像反推文本再生成 我们还可以通过图像文本生成的方式来控制画面内容。这种方法的主要原理是通过提示词对画面进行详细描述。然而,它的局限性在于控制能力的强弱主要依赖于从图像反推得出的文本是否足够准确。如果图像的主体内容和风格描述不够准确,就可能导致生成的图像偏离我们的预期方向。因此,确保提示词的准确性和相关性是实现理想效果的关键。有时候midjourney内置的图像反推文本模型的效果不好,也可以通过使用外部模型进行反推文本的方法对图像内容进行识别,比如chatgpt4等。 通过对原图和生成图像的对比,我们可以看到,画面主体内容较为相似,人物主体、画面内容以及背景风格与原图相符,因此这种方法在还原原图方面表现较好。然而,这种方法生成的图像常常会出现一个问题,即“神似但形不似”。虽然画面内容相似,但整体感觉却存在差异。例如,如果原图是一朵白色的玫瑰,生成的结果可能是一朵白色的百合。这种情况的发生是因为在文本反推和生成图像的过程中,系统将白色玫瑰简化为“白色的花”,从而导致生成了一朵不符合预期的白色百合。这正是由于文本识别不够精准,导致控制能力下降所造成的结果。 |