搁从前的状况,到了年末这才到各大厂商纷繁发力的时分,年关将近嘛,总得搞出点啥新东西,给咱们涨涨视野。
尽管说最近关于 AI 的新消息不是许多,可是人家最近一段时间必定也没闲着,这不,一个多月前,也便是 925 那天咱们才跟咱们说了豆包的视频生成,这两天,豆包又又又上新了新功能。
尽管文生图现已搞了两三年,但这回,我敢说真算是国产 AI 文生图里的新突破了。
或许不少差友还觉得, AI 生图不是现已挺凶猛的了嘛,怎样还不能修正图片?
实践上,咱们这几年也测了不少文生图大模型了,支撑图片精确修正的还真没有,现在做的最好的真便是豆包。
就比如说 ChatGPT-4o ,你让他画个打篮球的人还能够,可是你要想改动一下,把环境换成沙滩,欠好意思,整张图都变了。
本来说让它把图中的鸡变成鳄鱼,成果不只没变成,还把布景给全改了,两次的篮球也彻底不相同。
就拿最简略的给图画换色彩来说,即使在豆包曾经的版别里,这种作用也不抱负。
比如咱们直接把 925 活动里,给脖子哥拍的相片传上去,然后告知豆包,你给我把脖子哥抱着的小白狗换成小黄。
不光保留了脖子哥的动作,表情,小狗的形状也跟上传的图差不多,说换成黄色就换黄色,一点不含糊。
发现没,这个文生图变得智能了,它能辨认出相片里的内容,你想修正啥他就只改啥,哪里不对改哪里,so eazy!
并且不只能做到辨认,修正色彩,消除物品这些根本功能,你想整点杂乱的也相同能够。
咱们把差评硬件部视频里,米罗的相片传上去,然后叫豆包把咱们的拍照间布景改成上海陆家嘴。
你乃至能够分得清布景里,哪个是“开瓶器”举世金融中心;哪个是“注射器”金茂大厦;哪个是“打蛋器”上海中心大厦,陆家嘴三件套组织的明明白白。不知道的成心第一眼看去,还真认为咱们公司搬到浦东了。
咱们让豆包把米罗改形成战锤 40K 风格,成果也是适当的 amazing 啊,尽管换了个人种,可是五官还算模糊能看出米罗的影子,要是戴上头盔,真就跟星际兵士相同了。
更重要的是,尽管人物的着装和风格变了,但图片前面的桌子,跟布景的墙面、窗布、挂画可都是一点没动。
就这个作用,你要不跟他人说,谁知道这到底是 AI 生成仍是 PS ,一眼望去是真分不清。
不过,在人物测验中咱们还发现,假如你拿AI生成的图做修正,作用比用相片还要强上不少。
你比如就说,咱们先生成一张屏幕前各位彦祖的日系写真,然后告知豆包,把彦祖的衬衣换换色彩。
你瞅瞅,脸部的细节,头发的细节,乃至背后墙砖上的纹路,远处的电线杆子,都一点没动,说换装就换装,那叫一个干净利落。
当然了,用人像演示仍是为了测验它在人脸细节上的掌握才能,究竟人脸这玩意,一但生成的欠好,就会发生恐惧欢乐谷效应,一眼盯真的事。
戴珍珠耳环的少女都见过吧,国际名画,咱们让豆包给你把人脸换成猫脸版别,来看看它对跨物种的面部交融做的咋样。
成果全体瞅下来,体现仍是十分好。不光保留了头饰、衣服纹路的细节,小猫耳朵这块也处理的很好,没穿模,直接能拿去当微信头像用了。
成果也还行,前脸一套都改成了奔驰 C260,仍是现款的,其他的像车身色彩,周围的环境,也都没变。
成果作用还怪好嘞,瓜估客衣服上的图画都一模相同,一切的西瓜都改掉了,特聪明。
就比如,西游记里的唐三藏,我想给改成战地版唐三葬,给的提示一句话里有三个指令,一起要完结戴墨镜,拿机枪,换布景,三样使命。
Emmm ,成果仍是全部都完结了,作用也能够。墨镜一戴谁也不爱,身处战场手拿机枪,六根清净贫铀弹,一息三千六百转,杀生为护生,斩业非斩人,主打一个物理超度。
归纳来看的话,不止相片、视频截图,包含在制作梗图表情包这一块,豆包都能够手到擒来,即使细节上还能发现能大大的提高的当地,但话又说回来,不怕人比人,就怕货比货嘛。
看到这或许有差友就要问了,世超鸽鸽,为啥豆包这次忽然就跟换了个妈妈生的相同,比之前聪明晰这么多?
这么说吧,咱们曾经用的文生图模型,根本用的都是 Diffusion 技能,是先把图片一步步变糊,然后反向剖析怎样从糊到明晰,由此发生新的图画。
但问题是,在这样的一个过程中,模型生成图画是根据大局信息的,要想部分修正,欠好意思,全体全都要重来,所以每次生成的都不相同,也无法在细节上再调整。
咱们这两年也测了不少文生图模型,咋说呢,东西是没问题,能够生成,但都无法一模相同的,精确复原出幻想中那个姿态,就比如这种:
而那些 AI 艺术家们,搞出来的都是下面这种,细节拉满,跟电影截图似的。
可要完成人家这种作用,提示词弄的就得巨杂乱,还要微调很久很久,乃至他们还编纂了专门的提示词辞典。大伙要是没训练过这个,实践上就很难做好图,更甭说把自己的相片传上去修正了。
而豆包这次更新的,正是这个方向。为完成图片修正的作用,豆包这次的文生图选用的是 SeedEdit 模型。
比较仅仅经过文字生成,这玩意更微操,它会把图片的了解和生成交融到一个一致的大模型结构里,然后在生成和修正图画的时分,能够事无巨细的参阅咱传上去的图画,完事儿操控的就相对精准,并且出来的图片也更天然。
打个比如,假如说曾经的文生图模型是无情泼墨画匠, SeedEdit 就更像画笔精巧,有创造力的画家。实践咱们上面用下来,能够说作用的确适当不错。
实践上, SeedEdit 这样的技能,现在职业界也刚开始用,能集成在 AI 帮手里的,豆包其实是第一家。
而像 AI 修正图片这种方向,现在早就现已是是图片修正职业的标配,各种修图软件、编排软件乃至手机相册里都在做。
可是先不说作用,最少现在其实大多数产品都仍是要手动涂改修正,或许自己在上面 P 图,加配饰,不知道大伙怎样觉得,我横竖每次 P 布景,消除人物,都得花不少功夫。。。
至于 AI 直接出的图嘛,咱上面也说了,跟抽卡似的,很难一次就有抱负的图,还无法再二次修正。
这也便是为啥咱最初就说,由 AI 直接操控的修正修正图片,会是一个技能突破了。
换句话说,这个技能不只改动的是 AI 文生图,其他的相片修正、视频编排啥的,根本全都能用得到。
到时分,直接跟语音帮手说一声给我出图!AI 就帮你往你想的方向调整,美美当甲方,想想都爽。