- AIGC智能营销:4A模型驱动的AI营销方法与实践
- 栗建
- 5541字
- 2025-03-13 17:59:35
1.2.4 图像生成工具选型
AIGC技术能够生成多种风格的高质量图像,这是生成式AI的重要应用领域之一。Midjourney、DALL·E和Stable Diffusion等工具均能创造出逼真的真人实景照片和充满创意的图像。
目前,由AIGC生成的真人照片已经达到很高的真实度。如果我们在AIGC的生成指令中加入相机参数、滤镜、风格等参数,其图像生成效果甚至可以与专业摄影师的作品相媲美。
这些工具的核心技术是基于深度学习的图像生成模型,特别是变分自编码器、扩散模型(如Stable Diffusion)或Transformer架构(如DALL·E)。这些新模型通过海量文本图像数据的训练,使AIGC图像生成工具能够理解自然语言,并根据指令提示创造出相匹配的图像。
此外,AIGC可以根据我们的具体需求和情景描述生成图像,从而更精准地匹配图文信息,增强文章、推文以及其他文本的吸引力。
AIGC工具生成的图像可以用于微信、小红书等社交媒体配图,不仅高效解决了插画和配图的难题,还从根本上降低了因误用网络图片而引发的版权风险。
AIGC图像生成工具主要分为4类:图像生成、3D图像生成、智能图像编辑和智能设计,见表1-5。
表1-5 AIGC图像生成工具分类与工具举例

AIGC图像生成工具的应用场景几乎覆盖了所有行业,包括Logo设计、商品设计、模特展示、建筑设计等。此外,某些AIGC工具还提供模型训练功能,如Stable Diffusion的强大模型库和个性化训练库,这些功能使生成的图像能够贴合特定产品的特征和品牌调性。
在使用AIGC图像生成工具时,同样需要注意潜在的风险,特别是版权归属和商用限制。商用通常指的是以营利为目的的商业活动,包括使用AIGC生成的图像进行生产和销售商品、提供服务、开设店铺或网站进行线上或线下销售、参与进出口贸易、开发和运营互联网平台等。
大多数AIGC图像生成工具的服务条款中会明确版权归属。一些平台允许用户拥有生成图像的版权,而其他平台则保留某些权利。一些AIGC图像生成工具允许个人将生成的作品用于商业目的,但通常有一些限制条件,例如禁止使用生成的图像制作仇恨言论、色情内容或侵犯版权的作品。尤其是涉及肖像时,需要特别注意版权问题。
使用AIGC工具生成图像时,用户需要仔细阅读并理解平台的许可条款和版权政策,以明确自己是否拥有这些AI生成图像的版权,以及是否可以将这些图像用于商业用途。某些工具允许用户对生成的图像拥有完全的版权,而有些工具则保留某些权利或限制商业使用。例如,使用Stable Diffusion的某些Checkpoint模型时,模型的出品方可能会要求使用这些模型生成的图像不能用于商业用途。对于企业用户,有的平台可能会要求购买商业许可或订阅更高级别的服务才能将生成的图像用于商业目的,如Midjourney。
我们把一些工具的版权和商业使用政策摘录如下。
1)Midjourney。无论是付费用户还是非付费用户,都不能声明Midjourney生成图像的版权。
对于非付费用户,Midjourney提供的是知识共享非商业性使用4.0协议国际版(Creative Commons Attribution-NonCommercial 4.0 International License,CC BY-NC 4.0)。这意味着用户生成的图像不可以用于商业目的。
对于付费用户,Midjourney允许图像用于任何目的,包括商业用途,但用户必须遵守特定条件。例如,用户不能声称对图像拥有所有权或作者权,不能以违法、诽谤、传播淫秽内容、有害或侵犯他人权利的方式使用Midjourney生成的资产。
对于企业和品牌,年收入超过100万美元的公司必须订阅Pro计划(订阅费每月60美元)或者Mega计划(订阅费每月120美元),才能把生成的图像用于商业目的。
2)DALL·E 3。用户拥有他们使用DALL·E创建的图像的版权,包括重印、销售和商品化的权利,无论这些图像是免费还是付费生成的。用户可以自由地将这些图像用于商业项目,包括但不限于NFT(非同质化代币)创作和自媒体等商业用途。
3)Stable Diffusion。Stable Diffusion作为一个开源模型,其代码和架构均对公众开放。然而,用于训练该模型的数据集可能包含受版权保护的作品,这一点在法律上存在争议。
目前尚无明确的法律界定Stable Diffusion生成图像的版权归属。一种观点认为,版权应归用户所有,因为用户是输入提示并生成图像的人。另一种观点则认为,版权应归Stable Diffusion的开发者所有,因为开发者是创建模型的主体。还有一种观点认为,版权应归数据集中被使用作品的版权所有者所有,因为模型的训练过程中使用了这些作品。
由Stable Diffusion官方模型生成的图像,并未明确限制其商业使用。
对于社区和第三方模型,如果模型作者使用了Creative Commons(CC)许可证,则CC BY许可证要求在商业使用时需署名模型作者,而CC BY-NC许可证则禁止用于商业用途。用户在使用这些模型时,应仔细查询相关许可证的许可范围和商用限制,以免侵犯版权。
对于用户自行训练的LoRA或Checkpoint模型,建议仅使用未受版权保护的作品进行训练,或在使用前取得版权所有者的明确许可。
4)百度文心一格。使用百度文心一格AI创作服务生成的图像,下载后允许个人使用和在合法合规范围内的商用。
AIGC工具在图像生成方面存在一些局限性,主要包括生成系列图像时的一致性、输出结果的可控性以及图文混排问题。
● 一致性问题:AIGC工具在处理新的生成请求或修改要求时,可能难以保持特征(如同一人物的面部)或细节(如衣服)的一致性。为解决这个问题,可以使用种子(Seed)、参数控制(Midjourney)或图生图功能(如Stable Diffusion的图生图模块)。
● 可控性问题:在某些情况下,AIGC可能会错误地将小狗生成为羊的形象,例如在尝试生成一群小狗在草地上奔跑的图像时。这可能是指令描述不够准确,或AIGC工具及其背后的生成对抗模型的限制所导致的。为提高输出结果的控制力,可以尝试使用特定于文化或风格的模型,如majicMIX realistic麦橘写实或国风3模型,来生成符合亚洲审美的面孔。此外,一些AIGC工具(如Midjourney和DALL·E)提供局部修改功能,允许用户标出需要修改的地方,并通过指令进行修改。
● 图文混排问题:在制作含文字的海报时,将文字嵌入图像可能较为困难。这是因为大多数AIGC模型专注于整体图像生成,而不太注重细部元素(如文字)的添加和编辑。为解决这个问题,可以先将文字制成图像,然后在AIGC工具(如Stable Diffusion)中进行图生图操作,或在生成图像后使用Canva、创客贴等工具进行二次创作。
我们选取了几个常用的AIGC图像生成工具做简单介绍。
1.DALL·E
DALL·E是由OpenAI于2021年1月推出的图像生成系统。该系统的命名灵感来源于著名画家达利(Dalí)和皮克斯动画电影中的角色WALL·E。
DALL·E的核心功能是根据用户提供的文本描述生成相应的图像。它的能力不局限于基本的图像生成,还涵盖了广泛的艺术风格和类型。无论是插画、风景、肖像还是抽象艺术,DALL·E都能够根据用户的描述灵活地创造出符合要求的图像。DALL·E还能生成文字来制作建筑物上的标志,以及制作同一场景的草图和全彩图像。这意味着DALL·E不仅能够生成独立的图像,还能够生成具有特定功能和用途的图像。无论是为了商业宣传、艺术创作还是个人娱乐,DALL·E都能够提供相应的图像生成服务。
DALL·E是一款基于扩散模型、GAN、VAE和Transformer模型的图像生成系统。它利用GAN的生成器和判别器来制作并区分图像,利用VAE来学习数据的概率分布以生成新数据,以及利用Transformer来理解文本描述并将其转换为图像特征。这些模型的结合使DALL·E能够根据文本描述生成与之高度匹配的图像,开启创意营销的新时代。
DALL·E目前已经更新到了DALL·E 3版本。这个版本可以通过ChatGPT、Bing、Microsoft Paint以及其他使用其API的服务来使用。通过ChatGPT或者Poe来使用的体验较好,但是需要注意在ChatGPT上使用会消耗对话次数。
对AI工具的新用户而言,DALL·E 3具有直观、易上手的界面,只需输入提示语即可一键生成图像。此外,用户还可以上传自己的图像并使用内置的inpainting(修复)或outpainting(拓展画布)工具进行修改,基于提示语调整已有图像部分或扩展图像内容。
DALL·E可以和ChatGPT完美搭配,我们可以输入中文关键词和指令,让ChatGPT生成更准确、更有效的DALL·E指令,从而生成更符合我们预期的图像。
例如,我们可以让ChatGPT生成一条给DALL·E的指令,指示DALL·E使用专业的相机和设置来拍摄一张肖像照。指令如下:
选择一台专业的全画幅DSLR相机,如佳能EOS 5D MarkⅣ。使用85mm f/1.4镜头,以获得柔和的背景散景和精确的焦点。设置光圈为f/2.8以提供适度景深并保持主体锐利,快门速度为1/200秒以冻结任何轻微动作并确保清晰的图像。使用自然光作为主要光源,并添加一个反光板在相机左侧轻微补光,以平衡阴影,并在主体脸部创造柔和的轮廓光。
相比Midjourney,DALL·E可以更准确地理解这条指令,并且根据指令来生成图像。
(1)优点
● 自然语言理解能力强:得益于与ChatGPT相同的Transformer架构和语料库,DALL·E 3能够深入理解和捕捉自然语言的模式,并根据广泛、模糊或简短的文字提示精确生成所需内容。
● 快速响应和高效生成:DALL·E 3在生成图像时的表现出色,速度通常比其他同类工具快三四倍,在相同条件下能够迅速提供多幅图像结果。
● 明确的图像所有权:无论是免费版用户还是付费版用户,使用DALL·E 3创建的图像所有权归用户所有,包括重印权、销售权以及商品化权利。这为用户提供了较高的创作自由度和商业利用空间。
● 商业用途友好:与某些免费服务(如Midjourney)不同,DALL·E 3允许用户对其生成的图像拥有完整的商业使用权,不需要额外升级付费。这对于需要将AI生成的图像用于商业目的的用户来说是一个显著优势。
(2)缺点
● 指令要求较高:若要生成细节丰富的图像,DALL·E 3需要用户输入详细、精确的描述性提示。
● 人像生成表现一般:相较于Midjourney等工具,DALL·E 3在生成逼真的人物图像上表现一般。
2.Midjourney
Midjourney是一款备受瞩目的图像生成工具,以其逼真的人物照片、多元的艺术风格和丰富的功能而闻名。公开信息显示,Midjourney是由位于美国旧金山的独立研究实验室Midjourney Inc创建的。该公司的创始人David Holz在2021年8月离开Leap Motion后创立了Midjourney。
Midjourney的独特之处在于它将大语言模型和扩散模型两种机器学习技术相结合。用户通过文字描述、图像上传或参数设定等方式发出指令,语言模型便能理解用户的意图,并将指令转换为向量指引后续的图像生成过程。
尽管Midjourney的具体工作原理尚未完全公开,但可以看出,它通过对CLIP数据集的训练,学会了图像与文本描述之间的内在关联,从而实现文本到图像的转换。用户可以通过调整文字指引权重(Image Weight)、创意发散(Chaos)、原创程度(Style)、图像源(Seed)、放大(Upscale、Zoom Out)等参数,更好地控制生成的图像。
Midjourney目前只能通过Discord或第三方API平台(如文山等)使用。用户可以直接向机器人发送消息,或创建自己的Discord服务器并配置机器人后使用。
(1)优点
● 用户社区活跃:Midjourney通过在Discord上的公共服务器提供了一个独特的社区环境,用户不仅可以查看他人的指令和生成的作品,还能参与到一个充满活力的交流平台中。这种设置鼓励了用户间的学习、分享和协作,极大地丰富了用户体验。对于新手用户而言,这样的环境尤其友好,他们可以轻松获得灵感和实用建议,加速自己的学习过程。
● 易于使用:Midjourney通过结合简单的文本提示和直观的Discord操作界面,使得图像生成不需要复杂的技术知识。
● 生成速度和多样性:Midjourney优化了图像生成的速度,允许用户在短时间内生成多个图像变体。这一特点不仅加快了创意过程,也使用户能够快速迭代和改进他们的想法。通过比较不同的图像变体,用户可以更精确地细化他们的视觉目标,从而更有效地实现创意潜力的最大化。
● 详细的控制参数:Midjourney允许用户通过多个参数来精细调整生成的图像。例如,用户可以调整图像的局部、长宽比、创意程度等。
(2)缺点
● 付费:与一些免费的AI模型相比,Midjourney的订阅模式会产生额外的成本。
● 功能限制:Midjourney可能没有Stable Diffusion的个性化模型训练功能。
3.Stable Diffusion
Stable Diffusion是一款开源且功能强大的AI图像和视频生成模型,能够基于文本和图像提示生成具有照片级真实感的图像。该模型于2022年推出,不仅可以生成静态图像,还能创建视频和动画。
Stable Diffusion采用了多种先进技术,包括VAE、扩散模型、CLIP技术,以及LoRA(Low-Rank Adaptation)等模型调整技术。这些技术的综合应用使得文本到图像、图像到图像、文字到视频的转换成为可能。
Stable Diffusion可以在配备GPU或苹果M3芯片的设备上本地运行。我们可以搜索网络上的整合包来下载和安装。
Stable Diffusion提供了大量的预训练模型,其中最重要的是Checkpoint模型。Checkpoint存储了所有的权重和偏置参数,这些参数通过在大规模数据集上的训练获得,可以捕捉数据的分布特性。例如,国风系列的Checkpoint模型可以生成具有中国风格的绘画或图像,而Product Design模型则用于生成产品设计图。
LoRA模型与Checkpoint模型结合使用,可以对图像的风格(例如人物面部特征)进行微调。LoRA通过在特定层添加低秩矩阵来调整权重,允许在不重新训练整个模型的情况下进行微调。用户还可以下载“赛博丹炉”等集成包或者通过网站的LoRA训练器来训练自己的LoRA模型。
此外,Stable Diffusion提供了众多插件和控件,允许用户微调生成算法、扩散参数和人物动作等。Stable Diffusion还具备强大的图生图功能,支持人物换脸、模特换装、风格转换等多种操作。
(1)优点
● 开源性:Stable Diffusion是开源项目,允许开发者和研究人员自由访问和修改其代码,从而促进技术的透明和创新。
● 高自定义能力:用户可以在本地环境中运行Stable Diffusion,并对生成过程进行精细的调整和控制,以满足个性化需求。
● 活跃的社区:开源项目往往能够迅速积累一个活跃的社区,为用户提供技术支持、新功能和改进反馈,形成一个不断进化的生态系统。
● 免费使用:Stable Diffusion允许用户在本地计算机上免费运行,并且可以免费生成图像,无须支付额外的费用。
(2)缺点
● 硬件要求高:为了保证图像生成的效率,Stable Diffusion对硬件配置,尤其是对GPU的性能要求较高,因此它可能不适合那些没有高性能计算资源的用户。
● 安装复杂:作为开源项目,Stable Diffusion的安装对新手用户来说可能较为复杂。用户可以通过搜索并下载相关的整合包(如秋叶整合包)来简化安装过程。
● 学习曲线陡峭:用户需要进行专门的学习和训练,才能真正掌握Stable Diffusion的功能和操作,这可能需要一定的时间和努力。
利用AIGC图像生成工具,我们能够迅速生成广告创意、社交媒体配图、产品视觉效果图等内容,极大地缩短设计制作的时间。这些工具为品牌提供了前所未有的创意自由度和创作空间,减少了对专业设计人才的依赖,从而降低设计成本。
在遵守版权法律和道德规范的前提下,无论是甲方还是乙方,都应重新考虑和定义设计与创意工作的分工,鼓励更多的尝试、创新和实践。这不仅能推动创意产业的发展,还能激发市场上出现更多创新的可能性。