Исследователи из NVIDIA и Стэнфордского университета представили новую ИИ-модель под названием Test-Time Training (TTT).
Разработчики провели обучение модели на 50 часах мультфильмов "Том и Джерри", в результате чего модель научилась по текстовому запросу генерировать новые серии мультсериала длиною до 1 минуты. Разработчики показали несколько примеров запросов и тех видео, которые сгенерировала модель.
Текстовый запрос:
Том приезжает в офис в Нью-Йорке. Джерри перегрызает кабель его компьютера. Том гонится за ним, врезается в стену, а Джерри прячется. Том врывается в кабинет, прерывая совещание, которое ведёт бульдог Спайк.
Текстовый запрос:
Джерри ест сыр, Том отбирает его и дразнит мышонка. Джерри собирает вещи и уходит из дома.Том грустит и идёт по его следам до Сан-Франциско. При встрече он даёт мышонку сыр в качестве извинения.
Один из разработчиков модели Каран Далал отметил, что видео не подвергались обработке: в них еще присутствуют артефакты, но для создания видео использовалась модель лишь на 5 миллиардов параметров — когда у разработчиков появится железо для более сложной модели, то она сможет генерировать более длинные и последовательные видео.