У сеціве з'яўляецца ўсё больш незалежных тэстаў Google Veo 3 – магутнага генератара відэа з сінхранізаваным гукам і дыялогамі. Veo 3 працуе разам з новым онлайн-інструментам Flow, які дазваляе апісваць сцэны натуральнай мовай, кіраваць персанажамі і стылямі. Гэта спроба ператварыць генерацыю медыя ў кінастудыю для кожнага. Для аматараў AI-тэхналогій – нагода паразважаць пра этыку, цэны і будучыню візуальнай творчасці.

0:00
/0:08

Відэа NASA 1960-х гадоў, на якім першы чалавек ступіў на паверхню Месяца, упаў у кучу бруду і закрычаў вясковым голасам: «Што, чорт вазьмі, робіцца??»

Max Fritzhand (@ideasbymax) on Threads
Veo3 had me in tears 🤣

Veo 3 працуе на так званай дыфузійнай тэхналогіі – гэта калі нейрасетка бярэ сапраўдныя відэа, пераўтварае іх у “шумавы жах”, а потым вучыцца зваротна з таго шуму рабіць нешта прыгожае. І калі ўсё ідзе як трэба – на выхадзе мы атрымліваем вельмі пераканаўчае відэа, якое цяжка адрозніць ад знятага чалавекам.

Veo 3 – гэта не адна нейрасетка, а каманда:

  • LLM тлумачыць, што мелася на ўвазе ў запыце;
  • відэамадэль малюе сам ролік;
  • аўдыямадэль дадае гук – ад шолаху лістоты да дыялогаў персанажаў.

Увесь працэс пачынаецца з простага апісання, тыпу: "Фітнес-відэа 1980-х гадоў з мадэлямі ў трыко і масках пярэваратняў" – і на экране праз пару хвілін ужо гатовае кіно. Праўда, пакуль толькі ў 720p, ды працягласцю ў 8 секунд.

0:00
/0:08

Пакуль гэтыя цацкі даступныя толькі ў ЗША, і толькі тым, хто падпісаўся на план Google AI Ultra. Каштуе гэта $250 у месяц, і за гэта даецца 12 500 крэдытаў. Адна генерацыя відэа каштуе 150 крэдытаў, гэта значыць, што ў месяц можна зрабіць 83 ролікі. Калі скончыліся крэдыты – можна дакупіць: 1 цэнт за крэдыт, мінімальны пакет – $25. Карацей, адно відэа абыдзецца прыкладна ў $1.50. Не танна, але й не Галівуд.

0:00
/0:08

"Шырокавугольны кадр, пачынаючы з Снежнага чалавека ў цэнтры сцэны, які выступае з дакладам пра грыбы на TED. Затым павольна павялічваючы маштаб, каб захапіць яго выразную морду і жэсты, а потым панарамуючы здымак на ўважлівую аўдыторыю"

Google кажа, што каб прадухіліць махлярства, усе відэа маркіруюцца нябачнымі воднымі знакамі (тэхналогія SynthID). Нават калі ролік сціснуць або падрэзаць, метка ўсё адно застанецца. Упэўнены, што на любую гайку знойдзецца балгарка і гэтая штука не будзе моцна эффектыўнай.

SynthID
SynthID is a tool to watermark and identify AI-generated content, helping to foster transparency and trust in generative AI.

Google не дазваляе ствараць відэа на некаторыя тэмы — напрыклад, романтыка, гвалт, пародыі на брэнды, пэўныя гістарычныя падзеі ці знакамітасці – усё гэта аўтаматычна блакуецца. Так што, калі вы вырашылі зрабіць "Тытанік 2" з Джобсам і Іланам Маскам – на жаль, не гэтым разам.

0:00
/0:08

"Інтэрв'ю з чалавекам на вуліцы, які баіцца жыць у час, калі ні ў ва што нельга верыць"

А дзе Google набраў столькі якасных відэа, каб навучыць сваю мадэль? Дакладна невядома. Але, маючы YouTube у кішэні, няцяжка здагадацца. Хоць у самой кампаніі скажуць, што мы нічога не дакажам.


Агулам, мне даволі сумна ад усяго убачанага. Цяпер я яшчэ менш магу давяраць сваім вачам, а стужкі сацыяльных сетак імгненна будуць заваленыя відэанейраслопам.

AI video just took a startling leap in realism. Are we doomed?
Google’s Veo 3 delivers AI videos of realistic people with sound and music. We put it to the test.

Пагаджуся з галоўнай высновай, якую робяць хлопцы з Ars Technica:

Давер да любой дыстанцыйнай камунікацыі ў рэшце рэшт залежыць ад даверу да яе крыніцы. [...] Ці можам мы давяраць таму, хто нам гэта паказвае. У эпоху, калі кожны можа стварыць рэалістычнае відэа чаго заўгодна за 1,50 долара, давер да крыніцы становіцца нашым галоўным якарам праўды.