Google Imagen AI создает фотореалистичные изображения из естественного текста

Примерно через месяц после того, как OpenAI анонсировала DALL-E 2, свою новейшую систему искусственного интеллекта для создания изображений из текста, Google продолжил «космическую гонку» искусственного интеллекта со своей собственной моделью преобразования текста в изображение, Imagen. Результаты Google чрезвычайно, возможно, даже пугающе, впечатляют.

«Голубая сойка стоит на большой корзине с радужными макаронами». Кредит: Google

Используя стандартную меру FID, Google Imagen опережает DALL-E 2 Open AI с результатом 7,27, используя набор данных COCO. Несмотря на то, что он не обучался с использованием COCO, Imagen по-прежнему хорошо показал себя и здесь. Imagen также превосходит DALL-E 2 и другие конкурирующие методы преобразования текста в изображение среди людей. Вы можете прочитать о полных результатах тестирования в исследовательской статье Google.

«Горизонт Торонто с логотипом Google Brain, написанным фейерверком».

Imagen работает, беря текст на естественном языке, например «Золотистый ретривер в синем клетчатом берете и водолазке с красными точками», а затем используя замороженный кодировщик T5-XXL для преобразования этого входного текста во встраивание. Затем «условная диффузионная модель» отображает встроенный текст в маленькое изображение размером 64x64. Imagen использует текстовые модели диффузии сверхвысокого разрешения для повышения дискретизации изображения 64x64 до 256x256 и 1024x1024.

По сравнению с методом NVIDIA GauGAN2 прошлой осенью, Imagen значительно улучшен с точки зрения гибкости и результатов. ИИ стремительно развивается. Рассмотрим изображение ниже, созданное из «милого корги, живущего в доме, сделанном из суши». Это выглядит правдоподобно, как будто кто-то действительно построил собачью будку из суши, которую корги, что неудивительно, любят.

a cute corgi lives in a house that is made out of sushi google imagen

«Милый корги живет в доме, сделанном из суши».

Это милое творение. Казалось бы, все, что мы видели до сих пор от Imagen, мило. Смешные наряды на пушистых зверюшках, кактусы в солнцезащитных очках, плавающие плюшевые мишки, королевские еноты и т.д. Где люди?

Независимо от того, невиновны они или злонамеренны, мы знаем, что некоторые пользователи сразу же начинали вводить всевозможные фразы о людях, как только у них был доступ к Imagen. Я уверен, что будет много ввода текста о очаровательных животных в юмористических ситуациях, но также будет ввод текста о поварах, спортсменах, врачах, мужчинах, женщинах, детях и многом другом. Как бы выглядели эти люди? Будут ли врачи в основном мужчинами, стюардессы — женщинами, а у большинства людей будет светлая кожа?

«Пара роботов ужинает на фоне Эйфелевой башни». Как бы выглядела эта пара, если бы в тексте не было слова «робот»?

Мы не знаем, как Imagen обрабатывает эти текстовые строки, потому что Google решил не показывать никаких людей. Существуют этические проблемы с исследованиями преобразования текста в изображение. Если модель может предположительно создать практически любое изображение из текста, насколько хороша модель в представлении беспристрастных результатов? Модели искусственного интеллекта, такие как Imagen, в основном обучаются с использованием наборов данных, взятых из Интернета. Контент в Интернете искажен и предвзят, и мы все еще пытаемся его полностью понять. Эти предубеждения имеют негативные социальные последствия, которые стоит учитывать и, в идеале, исправлять. Кроме того, Google использовал набор данных LAION-400M для Imagen, который, как известно, «содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы». Подмножество обучающей группы было отфильтровано для удаления шума и «нежелательного» контента, но остается «риск того, что Imagen закодировал вредные стереотипы и представления, что определяет наше решение не выпускать Imagen для публичного использования без дополнительных мер безопасности».

Текстовые строки могут стать довольно сложными. «Мраморная статуя диджея-коалы перед мраморной статуей проигрывателя. Коала носит большие мраморные наушники».

Так что нет, вы не можете получить доступ к Imagen для себя. На своем веб-сайте Google позволяет вам щелкнуть определенные слова из выбранной группы, чтобы увидеть результаты, например «фото пушистого панды в ковбойской шляпе и черной кожаной куртке, играющего на гитаре на вершине горы». Не ищите ничего, что связано с людьми или потенциально проблемными действиями или предметами. Если бы вы могли, вы бы обнаружили, что модель имеет тенденцию генерировать изображения людей с более светлыми оттенками кожи и укреплять традиционные гендерные роли. Ранние исследования также показывают, что Imagen отражает культурные предубеждения, изображая определенные предметы и события.

pomeranian throne crown tiger soldiers google imagen

«Померанский шпиц сидит на королевском троне в короне. Рядом с троном стоят два солдата-тигра.

Мы знаем, что Google знает о проблемах с отображением в своем широком спектре продуктов и работает над улучшением реалистичного отображения тона кожи и уменьшением присущих предубеждений. Тем не менее, ИИ по-прежнему является своего рода «Диким Западом». Несмотря на то, что за кулисами создания моделей ИИ работает много талантливых и вдумчивых людей, после запуска модель в основном сама по себе. В зависимости от набора данных, используемого для обучения модели, трудно предсказать, что произойдет, когда пользователи смогут вводить что угодно.

dragon fruit wearing karate belt in the snow

«Плод дракона в поясе для карате в снегу».

Это не вина Imagen или каких-либо других моделей ИИ, которые столкнулись с той же проблемой. Модели обучаются с использованием массивных наборов данных, содержащих видимые и скрытые смещения, и эти проблемы масштабируются вместе с моделью. Даже помимо маргинализации определенных групп людей, модели ИИ могут генерировать очень вредный контент. Если вы попросите иллюстратора нарисовать что-то ужасное, многие с отвращением отвернутся от вас. Модели искусственного интеллекта, преобразующие текст в изображение, не имеют моральных угрызений совести и будут производить что угодно. Это проблема, и непонятно, как ее решить.

google imagen teddy bears swimming 400mm olympics

«Мишки Тедди плавают на олимпийских соревнованиях по баттерфляю на 400 мм».

Тем временем, пока исследовательские группы ИИ борются с социальными и моральными последствиями своей чрезвычайно впечатляющей работы, вы можете смотреть на устрашающе реалистичные фотографии панд, катающихся на скейтборде, но не можете вводить свой собственный текст. Imagen недоступен для общественности, равно как и его код. Тем не менее, вы можете многое узнать о проекте из новой исследовательской работы.

Google Imagen AI создает фотореалистичные изображения из естественного текста

прочитайте и другие статьи

VIVO V21 с оптически стабилизированной 44Мп камерой

OnePlus объединяется с Hasselblad

60 кратких советов для получения хороших снимков

CES 2013: Fujifilm X20 и X100s в...