昨夜,奧秘且強(qiáng)壯的圖畫生成與修正模型 nano banana 總算正式暴露真身。沒有意外,它公然來自谷歌,而且也獲得了一個正式但無趣的姓名:gemini-2.5-flash-image-preview。
據(jù)介紹,該模型具有「SOTA 的圖畫生成與修正才能、驚人的人物共同性以及閃電般的速度」。
從其姓名也能夠猜想,谷歌應(yīng)該還有一個非 flash 的 gemini-2.5-image 模型 —— 其功用應(yīng)該會愈加強(qiáng)壯,但速度會更慢。
現(xiàn)現(xiàn)在,gemini-2.5-flash-image-preview 現(xiàn)已在 Google AI Studio 和 Gemini API 中供給了預(yù)覽。用戶能夠免費(fèi)試用。
能夠看到,gemini-2.5-flash-image-preview 支撐 32k 上下文,供給了溫度(能夠操控模型的創(chuàng)造力)以及一些高檔設(shè)置。
但是,惋惜的是,該模型尚不支撐對中文輸入履行圖畫生成和修正,而是會給出文本呼應(yīng)。
別的,在 Gemini 中,用戶只需挑選 2.5 Flash 并運(yùn)用適宜的提示詞,也能夠運(yùn)用該模型。
價(jià)格方面,gemini-2.5-flash-image-preview 輸入/輸出文本的價(jià)格是 0.3/2.5 美元,輸入/輸出圖畫的價(jià)格是 0.3/30 美元。常識截止時(shí)刻是 2025 年 6 月。
大約核算下來,該模型生成每張圖畫的本錢大約為 0.039 美元(約 0.28 元),遠(yuǎn)低于 OpenAI 的圖畫生本錢錢。
具體功用(特別是圖畫修正)上,谷歌官方博客介紹說他們特別注重在不同圖片間堅(jiān)持人物形象的共同性。
「咱們知道,當(dāng)你修正自己或了解的人時(shí),哪怕是纖細(xì)的不同都會顯得扎眼 ——『差一點(diǎn)但不徹底相同』的作用便是感覺不對。正因如此,咱們的最新更新專門針對這一點(diǎn),讓你免費(fèi)觀看色情視頻的朋友、家人,乃至寵物,無論是測驗(yàn) 60 時(shí)代的蜂窩頭發(fā)型,仍是給吉娃娃穿上芭蕾舞裙,都能一直看起來像他們自己。」
你只需要給 Gemini 一張相片,并告知它你想要修正的當(dāng)?shù)兀湍芗由瞎餐膫€人風(fēng)格。該模型能夠幫你把自己和寵物放在同一張相片里,把房間布景換成新壁紙的作用,或許把你帶到世界上任何你能幻想的當(dāng)?shù)?—— 一起堅(jiān)持「你便是你」。完成后,你乃至能夠把修正過的相片再次上傳到 Gemini,把新圖變成一段風(fēng)趣的視頻。
谷歌還共享了一些玩法示例。
換裝或換場景:上傳一張人物或?qū)櫸锏南嗥撃P蜁谌魏涡聢鼍跋露紙?jiān)持他們的表面共同。你能夠測驗(yàn)不同的服裝、工作,乃至看看你在另一個時(shí)代會是什么姿態(tài) —— 但一直仍是你自己。
谷歌乃至還專門構(gòu)建了一個演示模板使用來展現(xiàn)不一起代的你是什么樣。
地址:https://aistudio.google.com/apps/bundled/past_forward
組成相片:你現(xiàn)在能夠上傳多張相片,把它們?nèi)诮M成一個全新的場景。比方,把你和狗狗的相片組成在籃球場上,生成一張完美的合影。
多輪修正:你能夠不斷修正 Gemini 生成的圖畫。比方,從一間空房間開端,先刷墻,再加書架、家具或茶幾。Gemini 會一路幫忙你,只改動你指定的部分,一起保存其余部分。
混合規(guī)劃:把一張圖的風(fēng)格使用到另一張圖的物體上。比方,把花瓣的色彩和質(zhì)感使用到一雙雨靴上,或許用蝴免費(fèi)觀看色情視頻蝶翅膀的斑紋規(guī)劃一件連衣裙。
原生世界常識:該模型還能夠使用 Gemini 的世界常識,然后解鎖全新的使用場景。為了展現(xiàn)這一點(diǎn),谷歌在 Google AI Studio 中構(gòu)建了一個模板使用,它能夠?qū)⒁粋€簡略畫布變成交互式教育導(dǎo)師。
地址:https://aistudio.google.com/apps/bundled/codrawing
此外,谷歌還說到一切在 Gemini 使用中生成或修正的圖片都會帶有可見水印,以及谷歌的隱形 SynthID 數(shù)字水印,以明晰標(biāo)識它們是 AI 生成的。
該模型一上線就迎來了一波測驗(yàn)熱潮,谷歌首席科學(xué)家 Jeff Dean 直接以身入局,將自己 P 成了一個足球運(yùn)動員卡牌人物。
諾獎得主、DeepMind 創(chuàng)始人兼 CEO Demis Hassabis 也來了一張個人形象照。
網(wǎng)友們也是各灑構(gòu)思,共享了許多風(fēng)趣成果。
排行榜
gemini-2.5-flash-image-preview 正式上線后不久,各個榜單也開端曬出該模型的成果體現(xiàn)。
在 Artificial Analysis 圖畫修正排行榜上,該模型直接躍升至第一位,獲得了 1212 的 ELO 分?jǐn)?shù)。
而在其文生圖榜單上,字節(jié)跳動的即夢 3.0 和 OpenAI 的 GPT-4o 還有少數(shù)優(yōu)勢。
不過,在投票人數(shù)更多的 LM Arena 的榜單上,gemini-2.5-flash-image-preview 在這兩個使命上都現(xiàn)已成為冠軍。
下面展現(xiàn)了在各個指標(biāo)上更具體的分?jǐn)?shù),其間 gemini-2.5-flash-image-preview 在人物共同性、構(gòu)思、圖表、事物 / 環(huán)境等方面優(yōu)勢顯著,而在風(fēng)格化方面,GPT-4o 現(xiàn)在最為搶先。
你現(xiàn)已測驗(yàn)過 nano banana /gemini-2.5-flash-image-preview 了嗎?感覺怎么?
參閱鏈接
https://x.com/googleaistudio/status/1960344388560904213
https://blog.google/products/gemini/updated-image-editing-model/
https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
本文來自微信大眾號“機(jī)器之心”(ID:almosthuman2014),作者:Panda,36氪經(jīng)授權(quán)發(fā)布。