
Компания Google представила прорывную разработку – нейросеть Veo 3. В ней можно создавать видео по текстовому описанию, а главное новшество – изображение генерируется со звуком.
По заверениям разработчиков, звуки будут не просто фоном, а релевантным видео музыкальным сопровождением. То есть нейросеть сможет озвучивать диалоги персонажей и даже создавать звуки, имитирующие реальность. А на стадии написания промта (текстового задания, с которым работает нейросеть. – Прим. ред.) можно будет указать, какая именно музыка и в какой момент видео должна звучать.
Как заявил гендиректор Google DeepMind Демис Хассабис, появление Veo 3 знаменует завершение "безмолвной эры" для сгенерированных ИИ-видео. Однако новая нейросеть будет отличаться от конкурентов не только этим. В компании отметили, что вместе с доступом к Veo 3 создатели контента получат возможность работать с генерирующим тексты нейросети Gemini и редактором изображений Imagen 4.
Это позволит авторам работать одновременно над видео, картинками и даже сценариями к будущим роликам в рамках одной подписки.
Говоря о дополнительных возможностях нейросети для генерации видео, программисты упоминают, что авторов будет ждать полная творческая свобода.
Так, в рамках создания видеоконтента у тех, кто будет писать промт, якобы появится возможность даже менять ракурс "съёмки" на видео, которое сгенерирует нейросеть. Каким образом это будет реализовано – в компании не уточнили. При этом демонстрационные ролики показали высокую реалистичность изображения, залог которой, по информации издания TechCrunch, кроется в использовании разработчиками нейросети для её обучения видео из Youtube.
Однако между полными идей творцами и онлайн-генерацией видео со звуком может встать только одно обстоятельство. Новая нейросеть на данный момент будет работать по платной подписке, сумма которой будет составлять 250 долларов в месяц.
Также пока неизвестно, будет ли данная подписка доступна пользователям в России.