这篇推送,以至于这次的更新,其实应该在两周前发布的,如果我们没有一个接一个的阳了的话。好在我们在上周快结束的时候,团队所有人都基本转阴了,我们在这周开始继续恢复正常工作,然后将这次的更新上线。
我们处在一个快速变化的时代,在 6pen 所在的这个领域更是如此,从市场上来看,文生图似乎已经是昨日黄花,如今新的热点已经变成 chatgpt 这样的文本对话模型,一方面,我们认为在图像领域,人类创造和建立的技术,场景和应用还远远没有到达最终境地,另一方面,我们也对新模态的各种技术充满兴趣和好奇。
因此,我们将继续在图像生成上做更多「新技术-创新产品」结合的工作,也将开始探索新的模态。
不得不说,能够把人生的精力投入到这样的事情当中,我认为这是一件幸事。
我们将在接下来对 6pen 进行一系列更新,而其中第一个,就是定制模型。
定制模型可以让你用十几张照片或者图片,训练一个属于你的模型,这个模型可能知道你长什么样子,或者你的玩具是什么样子,或者能知道你的画风,你可以取一个名字,例如「王二」,或者「老王的无人机」,或者「王二手绘风格」,然后你就能在文本描述中用「王二穿着超人衣服的自拍照」来生成你穿着超人衣服的图片,用「老王的无人机在珠穆朗玛峰飞行」来生成你的玩具飞机在珠峰飞行的图片。
举个例子,以下是我的照片(大概看看就行了,我恳请大家不要点开大图看),它们被用来训练了一个定制模型,叫做「DK加强版」
这个模型知道我长什么样子,所以我可以在文本描述里加入「DK」,模型就能生成出我的样子来,这是使用这个定制模型,根据不同的描述生成的图片
上面的例子,只是我调配的一些文本描述,你可以自己去尝试,去写各种风格,各种场景的文本来生成,可能会不太行,也可能有惊喜,但都有你在其中。
我的朋友和前同事老韩也做了测试,她的结果也很不错,这是她用来训练的照片的其中几张:
这是她用训练完的模型生成的一些图:
一直以来老韩都希望当一个职业女强人,我们也能从她的图九中感受到这份心思。
在技术界,这其实不算什么新鲜的东西,诸如 DreamBooth、Textual Inversion、Aesthetic Gradients 等技术,很早就可用于模型的定制训练,但它们的问题在于,效果好的,算力成本往往高;算力成本低的,效果往往就差。
此外还有一个共同的问题,就是使用门槛高,需要比较繁琐的设置和一些代码能力,模型文件管理和长期的调用等问题也很棘手,所以即便你看到有一些支持让你上传一些图,然后得到一些图的服务,他们也只是一次性的生成一些图给你,不会允许你自己把玩这个模型。
无需隐瞒,6pen 的长处不是在底层技术上做突破——我们钦佩能做到这些的人,但我们的长处是将好的技术,工程化,进而产品化,从而以合理的方式,低廉的成本,给更多普通人带来使用新技术的机会,并产生更多可能性。
定制模型正是如此,我们将多项开源的训练技术进行有效的融合,在算力成本和效果上取得平衡,然后使用了一个高效灵活的算力集群为其服务,并在终端的用户操作页面上进行优化,从而实现了现在的,1分钟即可完成创建,20分钟跑完训练,不到 10 块钱就能完成的定制模型。
定制模型训练完毕后,我们会免费帮你用其生成大约 50 张图片,这些图片使用我们测试过比较好的文本描述来生成,某些类似服务,到这里就结束了,属于一次性买卖,但在 6pen 这只是一个开始,事情并没有结束,因为你还可以自己自由的写描述去生成,去调试,去调用和探索你训练的模型。
关于定制模型的使用方式,训练建议,费用(超便宜),隐私规则,我们在文档中有更详细的介绍,你也可以在我的-定制模型里去亲自体验。
老实说,目前的定制模型还处在一个比较初级的阶段,受限于各种限制,我们无法完全采用能实现最好效果的方案,但我们会在未来对其进行不断优化,可能几个月后,效果还会有很大的提升,更多品类,包括风格的训练,我们也会在未来推出。
定制模型意味着什么?我认为它意味着一种可能性,一种真正参与其中的可能性,从此,生成式AI,将和你个人,有某种关联,我们一直以来所称呼的模型,不再是所有人都使用同样一个 pth 文件,然后随便找一块 GPU 开始推理,而是有了你个人的部分,或者中二一点称之为印记也可以。
另一方面,能够生成某种相对固定的人脸,物体,风格,也可以帮助你实现更好的创意,做出更好的策展,我们还会发布一些新的玩法,利用定制模型,也能取得更有意思的结果。
祝大家训练愉快,身体健康。