Никаких больше кракозябр: ChatGPT научили нормально писать текст на изображениях

OpenAI серьёзно прокачала возможности ChatGPT в плане создания картинок. Раньше за это отвечала нейросеть DALL-E 3, но теперь эта функция работает напрямую через систему GPT-4o и называется 4o Image Generation.

Главное преимущество новой системы в том, что она намного лучше понимает, что именно вы от неё хотите. Она разбирается в сложных инструкциях, правильно отображает взаимодействие объектов и, что особенно интересно, наконец-то нормально пишет текст на картинках без всяких кривых букв и бессмыслицы.

По словам главы исследований Габриэля Го, обновлённая система способна обрабатывать до 15-20 объектов без ошибок. Для понимания — большинство существующих ИИ начинают путаться уже при 5-8 элементах. То есть, если вы попросите нарисовать синюю звезду и красный треугольник, другие системы могут выдать красную звезду и что-то отдалённо напоминающее треугольник. А вот 4o Image Generation с такими вещами справляется без проблем.

В OpenAI продемонстрировали возможности системы на примере научных диаграмм, комиксов, постеров, меню ресторанов и логотипов. Всё получилось неплохо, практически без единой ошибки в тексте.

Кроме того, система умеет редактировать загруженные пользователем изображения — добавлять или убирать с них элементы.

Правда, есть и минус — система стала работать медленнее. Но в OpenAI считают, что «пара лишних секунд ожидания» — это нормальная плата за качество. Что касается доступности, то для бесплатных пользователей лимиты остались прежними (всего три изображения в день). А если говорить про платных пользователей, то тут точной информации нет.