不会PS没关系，AI拼图技术已能以假乱真｜斯坦福研究--粉丝服务平台-粉丝头条-fensifuwu.com

不会PS没关系，AI拼图技术已能以假乱真｜斯坦福研究

日期： 2023-03-28 10:48:49 来源：量子位收集编辑：关注前沿科技

Alex 发自凹非寺
量子位 | 公众号 QbitAI

这是一份看似平平无奇的日式便当。

但你敢信，其实每一格食物都是P上去的，而且原图还是酱婶儿的：

△直接抠图贴上去，效果一眼假

背后操作者并不是什么PS大佬，而是一只AI，名字很直白：拼图扩散（Collage Diffusion）。

随便找几张小图拿给它，AI就能自己看懂图片内容，再把各元素非常自然地拼成一张大图——完全不存在一眼假。

其效果惊艳了不少网友。

甚至还有PS爱好者直呼道：

这简直是个天赐之物……希望很快能在Automatic1111（ Stable Diffusion用户常用的网络UI，也有集成在PS中的插件版）中看到它。

为什么效果这么自然？

实际上，此AI生成的“日式便当”还有好几个生成版本——都很自然有木有。

至于为啥还有多种版本？问就是因为用户还能自定义，在总体不变得太离谱的前提下，他们可以微调各种细节。

除了“日式便当”，它还有不少出色的作品。

比如，这是拿给AI的素材，P图痕迹明显：

这是AI拼好的图，反正我愣是没看出什么P图痕迹：

话说这两年，“文字生成图像的扩散模型”着实大火了一把，DALL·E 2和Imagen都是基于此开发出来的应用。这种扩散模型的优点，是生成图片多样化、质量较高。

不过，文字终究对于目标图像，最多只能起到模糊的规范作用，所以用户通常要花大量时间调整提示（prompt），还得搭配上额外的控制组件，才可以取得不错的效果。

就拿前文展示的日式便当来说：

如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”，那就既没描述哪种食物放到哪一格，也没有说明每种食物的外观。但如果非要讲清楚的话，用户恐怕得写一篇小作文了……

鉴于此，斯坦福团队决定从别的角度出发。

他们决定参考传统思路，通过拼图来生成最终图像，并由此开发出了一种新的扩散模型。

有意思的是，说白了，这种模型也算是用经典技术“拼”出来的。

首先是分层：使用基于图层的图像编辑UI，将源图像分解成一个个RGBA图层（R、G、B分别代表红、绿、蓝，A代表透明度），然后将这些图层排列在画布上，并把每个图层和文字提示配对。

通过分层，可以修改图像中的各种元素。

到目前为止，分层已经是计算机图形领域中一项成熟的技术，不过此前分层信息一般是作为单张图片输出结果使用的。

而在这种新型“拼图扩散模型”中，分层信息成了后续操作的输入。

除了分层，还搭配了现有的基于扩散的图像协调技术，提升图像视觉质量。

总而言之，该算法不仅限制了对象的某些属性（如视觉特征）的变化，同时允许属性（方向、光照、透视、遮挡）发生改变。

——从而平衡了还原度和自然度之间的关系，生成“神似”且毫无违和感的图片。

操作过程也很easy，在交互编辑模式下，用户在几分钟内就能创作一幅拼贴画。

他们不仅可以自定义场景中的空间排列顺序（就是把从别处扣出来的图放到适当的位置）；还能调整生成图像的各个组件。用同样的源图，可以得出不同的效果。

△最右列是这个AI的输出结果

而在非交互式模式下（即用户不拼图，直接把一堆小图丢给AI），AI也能根据拿到的小图，自动拼出一张效果自然的大图。

研究团队

最后，来说说背后的研究团队，他们是斯坦福大学计算机科学系的一群师生。

论文一作，Vishnu Sarukkai现为斯坦福计算机科学系研究生，还是硕博连读的那种。

他的主要研究方向为：计算机图形学、计算机视觉和机器学习。

此外，论文的共同作者Linden Li，也是斯坦福计算机科学系研究生。

在校求学期间，他曾到英伟达实习4个月，与英伟达深度学习研究小组合作，参与训练了增加100M+参数的视觉转换器模型。

论文地址：
https://arxiv.org/abs/2303.00262
参考链接：
[1]https://twitter.com/_akhaliq/status/1631106075972755456
[2]https://www.reddit.com/r/StableDiffusion/comments/11fpf3s/collage_diffusion_creates_globally_harmonized/

— 完 —

3月29日「中国AIGC产业峰会」

抢票开启

「中国AIGC产业峰会」定档3月29日，线下会场抢票开启！

百度袁佛玉、智源林咏华、澜舟科技周明、小冰徐元春、科大讯飞高建清、启元世界袁泉、云舶科技梅嵩、特赞王喆、微软关玮雅、源码资本黄云刚、元语智能朱雷、无界Ai马千里、Tiamat青柑、峰瑞资本陈石等来自产学研界大咖嘉宾，还有重磅嘉宾陆续确认中。

扫描下方二维码，报名峰会线下会场啦～

点这里

服务粉丝

不会PS没关系，AI拼图技术已能以假乱真｜斯坦福研究

Alex 发自凹非寺
量子位 | 公众号 QbitAI

△直接抠图贴上去，效果一眼假

为什么效果这么自然？

△最右列是这个AI的输出结果

研究团队

文章推荐

相关阅读

慢时光 | 色彩斑斓心理活动来啦！

Midjourney 人工智能艺术创作0基础教程

联合类别筛选与重排序的交叉视角图像地理定位

许久不见，善用佳软带来了这款 AI 软件

【今晚开讲】TEM图片加标尺、上色美化、衬度调整、SAED衍射标定、晶面量取、EELS分析、高分辨图像信息挖掘！

(内含惊喜福利！)这个工具直接把 AI 的大脑 Copy 给你、低画质图像秒变高清、零代码自建超酷网页 | 今天有什

【建议收藏】9种让你受益匪浅的数据分析思维

特朗普“被捕”？情侣“以假乱真”，AI开始愚弄人类

爱因斯坦霉霉同框只需15秒，最新可控AI一玩停不下来，在线试玩已出丨开源

3D模型分割新方法解放双手！不用人工标注，只需一次训练，未标注类别也能识别｜港大&字节

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章