Новая Text-to-image модель ERNIE-ViLG 2.0 дает прикурить Dalle-2 и SD
Автор: Артём Зазнобин Дата: 10.11.2022 12:40
Baidu сделали новую модель, результаты которой просто ошеломляют! Это результаты моих генераций без черепика! Ни SD (https://t.me/ai_newz/1555), ни DALLE-2 так не умеет. За основу взята архитектура Unet от SD, но с приколами: - Mixture of Denoising Experts: Обучили 10 сеток вместо одной. Каждая отвечает только за определенные шаги диффузии. - Textual knowledge: Автоматически перевзвесили слова в запросе. Ключевые слова получают больший вес. - Visual knowledge: Во время обучения детектировали объекты на промежуточных результатах генерации и увеличивали вес функции потерь на регионах с объектами. В итоге вышла самая большая на планете модель text-2-im с 24 млрд параметров (×10 больше чем SD). * "flame, giant cat, girl, futuristic, high-definition, 3d, delicate face, cg sense, ancient style, beautiful, fine hair, upper body painting". Но лучше делать запрос на китайском. Статья: https://arxiv.org/abs/2210.15257 Бесплатное демо: https://huggingface.co/spaces/PaddlePaddle/ERNIE-ViLG Источник: t.me/ai_newz
Автор: Артём Зазнобин
прочтений: 430 оценки: 0 от 0
© Свидетельство о публикации № 41095
Цена: 1 noo
|
Ваши комментарии
|
Чат
Опросы
Музыка
Треки
НеForМат
Академия
Целит
Юрпомощь
О сервере
О проекте
Юмор
Работа
О нас
Earn&Play
Для контактов skype:noo.inc



|