服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

不会PS没关系,AI拼图技术已能以假乱真|斯坦福研究

日期: 来源:量子位收集编辑:关注前沿科技
Alex 发自 凹非寺
量子位 | 公众号 QbitAI

这是一份看似平平无奇的日式便当。

但你敢信,其实每一格食物都是P上去的,而且原图还是酱婶儿的:

直接抠图贴上去,效果一眼假

背后操作者并不是什么PS大佬,而是一只AI,名字很直白:拼图扩散(Collage Diffusion)。

随便找几张小图拿给它,AI就能自己看懂图片内容,再把各元素非常自然地拼成一张大图——完全不存在一眼假。

其效果惊艳了不少网友。

甚至还有PS爱好者直呼道:

这简直是个天赐之物……希望很快能在Automatic1111( Stable Diffusion用户常用的网络UI,也有集成在PS中的插件版)中看到它。

为什么效果这么自然?

实际上,此AI生成的“日式便当”还有好几个生成版本——都很自然有木有。

至于为啥还有多种版本?问就是因为用户还能自定义,在总体不变得太离谱的前提下,他们可以微调各种细节。

除了“日式便当”,它还有不少出色的作品。

比如,这是拿给AI的素材,P图痕迹明显:

这是AI拼好的图,反正我愣是没看出什么P图痕迹:

话说这两年,“文字生成图像的扩散模型”着实大火了一把,DALL·E 2和Imagen都是基于此开发出来的应用。这种扩散模型的优点,是生成图片多样化、质量较高。

不过,文字终究对于目标图像,最多只能起到模糊的规范作用,所以用户通常要花大量时间调整提示(prompt),还得搭配上额外的控制组件,才可以取得不错的效果。

就拿前文展示的日式便当来说:

如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”,那就既没描述哪种食物放到哪一格,也没有说明每种食物的外观。但如果非要讲清楚的话,用户恐怕得写一篇小作文了……

鉴于此,斯坦福团队决定从别的角度出发。

他们决定参考传统思路,通过拼图来生成最终图像,并由此开发出了一种新的扩散模型

有意思的是,说白了,这种模型也算是用经典技术“拼”出来的。

首先是分层:使用基于图层的图像编辑UI,将源图像分解成一个个RGBA图层(R、G、B分别代表红、绿、蓝,A代表透明度),然后将这些图层排列在画布上,并把每个图层和文字提示配对。

通过分层,可以修改图像中的各种元素。

到目前为止,分层已经是计算机图形领域中一项成熟的技术,不过此前分层信息一般是作为单张图片输出结果使用的。

而在这种新型“拼图扩散模型”中,分层信息成了后续操作的输入。

除了分层,还搭配了现有的基于扩散的图像协调技术,提升图像视觉质量。

总而言之,该算法不仅限制了对象的某些属性(如视觉特征)的变化,同时允许属性(方向、光照、透视、遮挡)发生改变。

——从而平衡了还原度和自然度之间的关系,生成“神似”且毫无违和感的图片。

操作过程也很easy,在交互编辑模式下,用户在几分钟内就能创作一幅拼贴画。

他们不仅可以自定义场景中的空间排列顺序(就是把从别处扣出来的图放到适当的位置);还能调整生成图像的各个组件。用同样的源图,可以得出不同的效果。

最右列是这个AI的输出结果

而在非交互式模式下(即用户不拼图,直接把一堆小图丢给AI),AI也能根据拿到的小图,自动拼出一张效果自然的大图。

研究团队

最后,来说说背后的研究团队,他们是斯坦福大学计算机科学系的一群师生。

论文一作,Vishnu Sarukkai现为斯坦福计算机科学系研究生,还是硕博连读的那种。

他的主要研究方向为:计算机图形学、计算机视觉和机器学习。

此外,论文的共同作者Linden Li,也是斯坦福计算机科学系研究生。

在校求学期间,他曾到英伟达实习4个月,与英伟达深度学习研究小组合作,参与训练了增加100M+参数的视觉转换器模型。

论文地址:
https://arxiv.org/abs/2303.00262
参考链接:
[1]https://twitter.com/_akhaliq/status/1631106075972755456
[2]https://www.reddit.com/r/StableDiffusion/comments/11fpf3s/collage_diffusion_creates_globally_harmonized/

3月29日「中国AIGC产业峰会」

抢票开启

「中国AIGC产业峰会」定档3月29日,线下会场抢票开启!

百度袁佛玉、智源林咏华、澜舟科技周明、小冰徐元春、科大讯飞高建清、启元世界袁泉、云舶科技梅嵩、特赞王喆、微软关玮雅、源码资本黄云刚、元语智能朱雷、无界Ai马千里、Tiamat青柑、峰瑞资本陈石等来自产学研界大咖嘉宾,还有重磅嘉宾陆续确认中。

扫描下方二维码,报名峰会线下会场啦~


点这里

相关阅读

  • 慢时光 | 色彩斑斓心理活动来啦!

  • 慢时光色彩斑斓01导语轻松时刻阳春三月,万物复苏,春天已悄然而至。在草长莺飞、百花齐放的日子里,你的校园生活是否紧张忙碌,但少了些惬意与松弛?让我们慢下来,享受五彩斑斓的好光
  • Midjourney 人工智能艺术创作0基础教程

  • 文章转载自:设计师的自我修行,感谢gtrace的用心整理!随着 ChatGPT 的火爆全网,有关 AIGC(AI Generated Content)的相关应用也逐步走入了大众视野。其中,人工智能绘画尤为受欢迎,也越
  • 联合类别筛选与重排序的交叉视角图像地理定位

  • 本文内容来源于《测绘通报》2023年第2期,审图号:GS京(2023)0297号联合类别筛选与重排序的交叉视角图像地理定位李子彧, 周维勋, 耿万轩南京信息工程大学遥感与测绘工程学院, 江
  • 许久不见,善用佳软带来了这款 AI 软件

  • Aski AI 是我持续使用超过 40 天的 AI 集成工具。官网的简介是「AI 问答、写作、绘画」。在我看来,它的价值在于,向普通用户提供了最简单、最方便地使用 ChatGPT/OpenAI 文本
  • 【建议收藏】9种让你受益匪浅的数据分析思维

  • 如今这年头,没点数据分析思维,真的很容易陷入职业发展瓶颈!对于一名普通的职场人来说:如果缺乏数据分析思维,就容易陷入“只看眼前、表象和局部” 的状态。而如果具备数据分析思

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 青海门源:救助一只“三有”保护鸟类凤头鸊鷉

  • 资料图片 凤头鸊鷉 杨涛 摄  青海新闻网·大美青海客户端讯(记者 许娜 报道) 近日,青海省海北藏族自治州门源回族自治县公安局浩门森林派出所在青石嘴镇上大滩村救助一只“
  • 锂电池盖帽工作原理,终于有人总结了

  • 一、电池盖帽的作用与原理(1)正或负极引出端(2)温度保护作用:PTC (电阻骤增,切断电流)(3)断电保护功能:CID 电流断开装置(内压上升→Vent翻转→CID焊点拉断)(4)泄压保护功能:Vent(内压上升→V
  • 特斯拉薪资及内部工作情况曝光

  • 近日时代财经通过采访特斯拉内部员工等方式,让我们了解了特斯拉上海工厂员工的工资以及日常的工作情况。曾在上海工厂总装车间工作过的柳高(化名)告诉时代财经,“在车间放眼望去
  • 58页PPT| 钠离子电池关键材料

  • 来源:东吴证券钠离子电池的正极和锂离子电池不同,主要有三种路线。分为层状氧化物、普鲁士蓝/白化合物,聚阴离子化合物。其中层状氧化物为主流方向,优点为能量密度高、循环性能