Google DeepMind представила Veo 2 — нову модель для генерації відео
Google DeepMind анонсувала Veo 2 — нову версію моделі для генерації відео, яка може конкурувати з OpenAI Sora. Нова модель створює ролики тривалістю понад 2 хвилини та підтримує роздільну здатність до 4K (4096 × 2160 пікселів). Це значно перевищує можливості Sora, яка генерує відео на 20 секунд із роздільною здатністю до 1080p.
Поки що Veo 2 працює лише в експериментальному інструменті VideoFX, де відео обмежені 720p і 8 секундами. Щоб отримати доступ до VideoFX, користувачі мають зареєструватися в спеціальному списку очікування. Google поступово відкриватиме доступ для більшої кількості користувачів. У майбутньому модель стане доступною на платформі Vertex AI, коли буде готова до масштабного використання.
Veo 2 генерує відео за текстовими запитами або за поєднанням тексту й зображення. Модель отримала поліпшене розуміння фізики та роботи камери, що дає змогу створювати чіткіші та реалістичніші відео. Текстури стали детальнішими, рухи — плавнішими, а світлові ефекти, включно з тінями та відображеннями, мають природніший вигляд.
Також Veo 2 може відтворювати реалістичний рух рідин, як-от наливання кави в чашку, та складні кінематографічні ефекти. DeepMind демонструє модель як інструмент для творчих рішень і вже працює з художниками та продюсерами над її вдосконаленням.
Veo 2 навчали на великій кількості відео. Точне джерело даних DeepMind не розкриває, але ймовірно, що серед них є відео з YouTube, який належить Google. Компанія використовує технологію SynthID для захисту від підробок, вбудовуючи невидимі водяні знаки в кадри.
Попри покращення, DeepMind визнає наявні виклики, зокрема в підтримці стабільності персонажів і складних деталей під час довгих відео.
Джерело: Tech Crunch