先上几张图我上周用 AI 生成的图给大家看,我所负责的部分,就只是输入了几句文字描述 ( Prompt, 单词原意为“提示,给表演者的提词” )。Prompt: "A beautiful painting of A beam of light shines over a dream palace under the sea, by Dan Mumford, artstation, light effect, high-definition, saturated color"Prompt: "a detailed matte landscape painting of a big cherry tree with petals flying in the sky, moonlight, by Victo Ngai, artstation, Detail, HD."除了只用文本向 AI 输入你的创作指令,还可以提供一张底图 (初始化图片,initial image)去控制构图、布局、形状或颜色,提高对创作结果的控制。Prompt: "Dragon, By Dan Mumford, Saturated color, high-definition."这个系列图片是我用来对同一张 intial image,更换不同的 prompt 来测试不同的风格主题。使用的 Initial image 就是一张骷髅的灰度照片。下图 prompt 与上图 几乎完全一样(去掉了一条对色调的定义)。AI 依此生成的两批图风格接近,但又不完全一样。复古科幻主题:Prompt: "Sci-fi, by Bruce Pennington, Artstation"上世纪科幻杂志封面复古调调的异星文明 Alien Landscape哥特风格Prompt: "gothic, lithograph style, printmaking style, black and white, high-contrast."黑暗童话风格下面三张我是对现代风格的山水画主题的测试
风格写实的场景概念设定 matte landscape painting 也可以胜任。对于做游戏或影视戏剧美术行业,这应该有很值得探索的可应用潜力。 (使用了initial image 控制构图) 传统艺术风格 Fine Art Style 也能轻松驾驭。 将十七世纪荷兰黄金时代 Dutch Golden Age 的花卉静物画与水母的形态相嫁接(我使用了水母图片作为 initial image)
Disco Diffusion v5.2 生成的图片的视觉效果及风格让我感到颇为惊讶,从中可以看到了极大的应用潜力、探索空间和创作自由度。这也是为什么它从4月以来,吸引了插画美术设计行业的关注。也让许多普通人,之前不具备图像绘制或处理能力,却一下子看到了为自己的小说、诗歌、桌游卡牌、唱片专辑、MV 亲手创作概念图或封面图的可能。心理学分析从业者也从中窥见了应用灵感,例如用它帮助用户描绘梦境或将意识里的场景可视化。甚至,你可以跟家里小朋友一起玩“你说我画”,画怪兽再也难不倒爸爸了,要多少有多少 当然这样一个在应用效果上颇为成功的 AI 项目是不可能从是石头缝里蹦出来的。它基于整个机器学习行业里许多开发者、公司、数据集和科学家们的多年累积的成果。同时在 Disco Diffusion 之外,还有不少同类的 TTI generator 项目值得关注。
AI 艺术创作的第一步,“听懂”人话——CLIP 是什么?
下面写的都是一些我的个人理解和学习笔记,希望分享出来,让跟我一样对此有兴趣的普通人们多了解一点 “人工智能 + 数字视觉创作” 正在发生什么,有什么新方向值得关注,什么上下游工具值得探索。在 AI 视觉艺术创作这么新的一个领域,大家都是漫长道路上的学习者、巨大迷宫里的探寻者。我只是个写码不能、数学稀烂的视觉艺术从业者,我尽个人最大努力。如果有 AI 或 CV 领域的专业人士不幸看到本文,请高抬贵手,切勿见笑。不吝赐教,多多指点我的错误。要让 AI 作画,先要让程序“听懂”你的指令,比如 “a big cherry tree above a lake with flying petals in the sky, lake reflection.” (描绘一棵浮在湖面上的樱花树,花瓣漫天飘舞,湖面有倒影 )对这么一个相对复杂场景的文本描述,AI 需要能“理解”并匹配到对应的画面,大部分同类项目依赖的都是一个叫 CLIP 的模型。有人把它比作 "自然语言处理的方向盘" (natural language steering wheel),帮助艺术家仅通过输入文本:一行标题、一首诗、一组关键词,就有可能创造出各种有趣的视觉艺术。CLIP 和 各类图片生成模型结合后,拥有非常大的创造力,能生成不可思议的风格,从写实到抽象、魔幻到唯美的风格的图片,虽然其中大部分作品看了会让人 san 值掉光。在 AI art 创作中,提词的设计是关键。CLIP 是一个开放沙盒,你可以放心往里面输入任何描述,无论是否存在于世界上,从 “正在金字塔顶上阅读浮士德的猫” 到 “长着八条腿的绿毛水怪躺在河岸边”——可以创造任何东西。”CLIP 经过了对一组组文本-图像对照数据的海量训练,数据集使用的是 LAION-400M,包含4亿组从互联网上收集的文本-图片对。文本编码器提取文本特征,图片编码器提取图片特征,两个放到一起对比相似度。选择相似度最高的文本所对应的类别作为图像分类预测结果,用相似度的数值用于以后计算每个类别的预测概率,使得一个未知数据通过这个分类器的时候能够以相对高的概率的预测出其所属分类。从而让 AI 先“掌握”文本-图像对的匹配关系,所以 CLIP 的全称是 Contrastive Language–Image Pre-training,一种基于对比的图片-文本学习的跨模态预训练模型。
但只依靠这样训练数据集去实现分类器,即使向 CLIP 输入了4亿个文图对,也是不够的。没有任何一个文图对里有我们想要的“八腿绿毛水怪”对吧。而 CLIP 的一大优势就是可以直接实现 zero-shot 的图像分类,来推测出“八腿绿毛水怪”的图像。Source: Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020Zero-shot learning 就是让模型能够对其从没见过的输入样本进行分类,这不是很难理解,因为跟人类思维的推理及学习过程很接近。零次(Zero-shot)指的就是对需要分类的类别对象,学习次数为零。业内最常拿来举例子是斑马。
DALL·E 跟 Disco Diffusion 属于同一类工具,但所生产图片的风格差别很大。DALL·E 生成的图片更接近现实中的照片,也擅长创建卡通漫画,比如 “穿燕尾服抽雪茄的臭鼬”或 “会说话的挖掘机的卡通版本”,以合理的方式组合不相关的概念,比如生成 “牛油果形状的躺椅”、“刺猬表面的椅垫”,还能在图片中指定位置插入指定风格的文字,比如“加一块写着 CLOSED 的霓虹灯招牌”,或根据现有图像,对局部做编辑或补充 “在沙发上添加一只牛油果”。Prompt: “an illustration of a baby daikon radish in a tutu walking a dog” 一张插画:穿芭蕾舞裙遛狗的萝卜宝宝
Prompt: “an armchair in the shape of an avocado.” 牛油果形状躺椅上面两张图片均来自 OpenAI 官网 https://openai.com/blog/dall-e/
好了。这篇写得够多了。下篇我会介绍一下 DALL·E 2,今年4月由 OpenAI 发布后,吸引了无数开发者和艺术家在内测 waiting list 翘首等候。目前DALL·E 2 没有开放测试,如果你有兴趣,建议先在 wainting list 占上位置。下面是申请地址: https://labs.openai.com/waitlist下一篇文章里我还会重点比较一下同一 Prompt 下, DD5 和 DALL·E 2 会分别出来什么不一样的作品。先看一张效果,同一个Prompt: “group of angels having a board meeting in a summer garden, by Asher Brown Durand” 译:一群天使在夏日花园里开董事会,阿什·布朗·杜兰德的画风。Disco Diffusion 生成DALL·E 2 生成(图片经作者 Tom Mason @nin_artificial 授权转载,他也是DD团队的开发者之一)而下图是 十九世纪美国浪漫主义风景画家 阿什·布朗·杜兰德 的真人原作:(他的作品中没有画过天使,也罕有群像主题)
最后看几张 Disco Diffusion 大师的作品赏析
TOP artist works !下面所有作品推荐全部得到了作者的授权,除了最后一张实在找不到。我加了个 AI art QQ 群里,分享两位调参高手的作品。两位都做了不错的教程视频,组织了国内的 AI 创作社群。JZ_打个比方 作品。国内最早的DD玩家之一。作品风格非常多样。 https://space.bilibili.com/7213238
最后我想引用我一位做DL研究朋友的看法结束这篇长文:“比如不管是 CLIP 还是各种 Diffusion,还只是起步阶段的玩具,未来有更多数据和更好的模型框架,它们绝不会局限在现在的框架里,你所看到的现在某个模型的局限性,极大概率都不是 AI art 未来的局限范围。以前蒸汽机只能抽水,但人类的想象力让发动机上了天。” 谢谢观看拥抱你们 Disco Diffusion V 5.2 Colab 地址: https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynbDisco Diffusion Github:https://github.com/alembics/disco-diffusionDisco Diffusion Discord:Disco Diffusion User Discord 因为最近十分上瘾,下面我会更新一系列 AI ART 创作方面的文章和教程。漫画我也会接着画的,说不定还会增加 DL 相关主题的故事哦。请大家不要跑(拖住大腿.GIF)