人妖
AI 生图器具,照旧多得泛滥了,但 Google 最新推出的 Whisk,如故找到了一种很新的玩法,让见过世面的网友也直呼好玩。
只需输入三张图片,subject(主题)、scene(场景)、style(立场),Whisk 就可以生成一张同心一力的图片。
▲ 图片来自:Google
举个例子,主题是老东谈主,场景是藤蔓,立场是 90 年代复旧动漫,写上「脚色骑着遨游自行车」的提醒词,恭候须臾,一张访佛吉卜力画风的新图片降生了。
▲ 图片来自:Google
老东谈主如故阿谁老东谈主,戴帽子,穿西装,拿着书,但他骑上了提醒词里的车,场景和立场也齐造成了参考图片的模样。
Whisk 的所长便在这里——让咱们少写、不写提醒词的同期,放浪玩转多样立场,姆妈再也不惦念我不会写提醒词了。
别写复杂的提醒词了,告成把图片端上来就行
别看只需要几张图片,Whisk 的玩法浅显,却又用之不断。
刷刷刷上传三张图片——主题图片,麦当劳薯条;场景图片,莫奈画作《睡莲》;立场图片,像素风游戏《星露谷物语》。
不写提醒词,告成生成,Whisk 给出的贬抑,一张更比三张强。
除了上传我方的图片,咱们也可以掷骰子,让 Whisk 立时生成主题、场景、立场。
其实,Whisk 为咱们提供的预设立场照旧很够用,徽章、贴纸、刺绣、黏土、好意思漫、马赛克拼贴等等,特色显着,后果立竿见影。
只有有脑洞和念念象力,无需一个字,只是通过不同图片的陈列组合,咱们可以赓续地作念完形填空的游戏——主题+场景+立场,而且不是每个空齐必须填。
▲ 1.主题图片,熏鸡;2.场景图片,梵高《星月夜》画作;3.立场图片,日本木版画
▲ 1.主题图片,《戴珍珠耳饰的仙女》;2.场景图片,电影《千与千寻》剧照;3.立场图片,蒙德里安抽象画
▲ 1.主题图片,微信「去世笑貌」脸色包;2.场景图片,电影《星际穿越》剧照;3.立场图片,史努比漫画截图
▲ 1.主题图片,冲浪默许头像粉色恐龙 momo;2.立场图片,Jellycat 玩偶
另外,Whisk 的每一次生成,场景和立场只可遴荐一个参考图片,但主题可以遴荐多个。这意味着什么?咱们可以让多个脚色同框了!
比如,让马斯克、奥特曼、扎克伯格通通造成搪瓷徽章。
三位的服装、顽固、心绪齐复原得挺好,扎克伯格的发话器和项链齐没漏掉,但东谈主脸没法保持一致性,全部造成了内行脸。
虽然 Whisk 减少了写提醒词的需求,但你需要写的话,Whisk 也饱读舞。
在对话框加上一句「脚色们齐举着一块宣布牌,上头写着 AGI」,徽章小人们轻放浪松地受命了提醒词。
若是咱们需要某个场景或者某种立场,但一时找不到参考图,Whisk 的预设也莫得提供呢?
处分方式很浅显,莫得图片,那就写提醒词,让 Whisk 临场发扬一个。
就像我需要一个让脚色站上去的、像素立场的底座当作场景,就让 Whisk 帮我生成了。
然后,再把猫猫脸色包当作主题图片,把像素小鸡当作立场图片,就可以得到一个有底座的像素猫猫。
总之,Whisk 就是卓绝开脱,像橡皮泥相似,怎么持齐可以。
既生图又识图,把复杂的使命流包装成真谛的「打蛋器」
Whisk,其实是 Google 多模态模子秀肌肉的一种方式。
为了让咱们少写提醒词,Whisk 整合了视觉会通和图片生成智力。
Gemini 模子识别图片,自动生成详备的面容,然后这些面容会被输入到 Google 的图片生成模子 Imagen 3,由 Imagen 3 生图。
Whisk 是这么的,用户只有上传和生成图片就可以了,但它我方要接洽的事情就好多了。
Whisk 的每张图片,无论是上传的如故生成的,齐写了很长的底层提醒词,何况不藏着掩着,咱们点开图片就能看,也可以上手修改。
若是把一个东谈主当作主题图片,Whisk 会详备地面容他的外貌特征,场景图片亦然访佛的。
▲ Whisk 对奥特曼的面容:「一个肤色较浅的男人,有着短而深棕色的鬈发,从胸部以上展示。他有着淡色的眼睛。他穿戴一件浅米色的古道圆领毛衣。布景是一面斑驳的灰色混凝土墙。男人的脸色严肃而中性。色泽有些黯淡,他的右脸有轻浅的暗影。」
立场图片略有些不同,若是把一张动画截图当作立场参考,Whisk 不会说,画面里有三个东谈主,而是面容这幅画的色调、色泽、线条……
▲ Whisk 对史努比画风的面容:「这张图片以卡通立场呈现,具有粗莽的玄虚和平面着色。色调调色板有限,主要使用原色和柔柔的次要脸色。色泽均匀,缺少强横的暗影或高光,给东谈主一种浅显、险些孩童般的质感。线条明晰且一致,带有轻浅不均匀的质感,示意手绘的后果。举座好意思学让东谈主联念念到经典的连环漫画或儿童动画。」
是以,Whisk 不是精确地复制图片,而是索要图片的特色和精髓,将主题、场景、立场天然地会通在通盘,各司其职,互不插手。
同期,Whisk 也叠了甲——只从图片索要一丝要道特征,贬抑可能和预期不同。这也证据了,为什么 Whisk 作念不到东谈主脸的精确复原。
是以,哪怕遴荐不那么抽象的复旧胶片立场,三位大佬的脸亦然和本尊齐不挨着,但其他细节齐很准确。
物体亦然相似,特斯拉的赛博皮卡,经过特征索要再生成之后,变得卓绝平凡。
但若是是麦当劳薯条这种素材丰富的超等 IP,后果倒还可以,可以拿来当告白图了。试过一些迪士尼的脚色,Whisk 复刻得也原模原样,但图就不放上来了。
另外,Whisk 还存在一个问题——没法作念很精湛的立场参考,师法不了某种特定的画风。
当我让 Whisk 生成蒙娜丽莎的乐高小人,出来的贬抑让我两眼一黑,但多加一句提醒词,「让脚色更像乐能手物」,Whisk 又能师法个七好像。
某个漫画家的画风就更难师法了,上传漫画截图让 Whisk 参考,它最终给出的是一个卓绝平凡的漫画立场图片,就算通过提醒词强调作品、脚色、漫画家,也不起什么作用。
其实,Whisk 好玩就够了,它更符合作念一些不追求精确的创意探索,俗称整活。
成人动漫有哪些Whisk 可以翻译为「搅动」或者「打蛋器」,Google 的这个名字获得即视感很强,可不即是把食材齐混搭在通盘吗?
Whisk 的不精确,也让它的定位和传统的图片裁剪器不同,更像是一种创意器具。有了什么脑洞,由它杀青拙劣的视觉后果。
▲ Whisk 生成,1.主题图片,《火影忍者》截图;2.立场图片,毛绒玩物
昔日杀青 Whisk 这种立场化的后果,跑通一扫数图像生成的经由,咱们可能需要在 ComfyUI 搭建使命流。
但现时有了 Whisk,好像就在玩抽卡游戏或者开盲盒,而且只有能登录(限好意思国地区),现时还免费。
体验指路
https://labs.google/fx/zh/tools/whisk
Google 跳跃的模子智力天然是前提和基础,但规画出被全球需要的居品,仍然需要创造力和审好意思。
很心爱 Whisk 的 slogan:「prompt less, play more.」(少写提醒词,多玩耍。)
Whisk 出自 Google labs,之前爆火的 AI 播客 NotebookLM,亦然出自这里,其后逐渐发展为熟识的花式。这个执行室,自己即是这句 slogan 的最佳注解。
浩瀚的模子智力人妖,有新意的居品,通达的心态,也曾似乎被 OpenAI 胁迫的 Google,风轻云淡地展现出了王者回来的姿态。