madesta писал(а): ↑11 апр 2023, 13:53
Да уж, любопытно бы было как в процессе разрешения человеческих конфликтов нейросеть будет интерпретировать такое возражение одной из сторон как "это не по понятиям".
Никак. Нейросети текущего типа (пока?) не способны выносить многоплановые суждения. Нейросеть лишь может выбрать один из предлагаемых вариантов, основываясь на примерах взятых из модели. Да, учитываться в этом выборе может очень большое количество факторов (если они есть в модели), но сам выбор - единичен.
Для примера, нейросеть-автопилот: она в каждый момент времени лишь сравнивает текущую ситуацию с теми, что есть в ее модели. Находит максимальное соответствие текущей, и делает то, что сделали в подобном случае большинство водителей, чьи действия попали в базу модели. Не понимая зачем она это делает. Просто "миллионы леммингов не могут ошибаться" и "Все побежали - и я побежал".
Маршрут и его выбор - она этим не занимается, этим занят обычный алгоритм навикомпа. Он не умеет рулить, но знает куда надо добраться (GPS и т.д). И постоянно скармливает желаемое направление езды на вход нейросети. Как капитан корабля - рулевому. А нейросеть играет именно роль рулевого - ей самой пофиг куда, она лишь может ответить на вопрос "как в этот момент надо двигаться в заданном направлении, таким образом, чтобы не закончить в столбе или на встречке".
madesta писал(а): ↑11 апр 2023, 13:53
"отредактировать так, чтобы выражение лица не было лошадиным".
Сейчас есть экспериментальная нейросетка натренированная разбирать запрос подобного вида на естественном языке, и преобразовывать его в текст который можно скормить "обычным" нейросетям генерирующим графику. Результат такого каскадного выполнения - некоторая иллюзия, что такой каскад понимает о чем его просят. Но чудес там не получается. Хотя если быть совсем не в теме - можно знатно по удивляться что комп "понимает" такие запросы.
Но по сути - происходит каскадный процесс:
1. Анализируем картинку (нейросеть-классификатор графика->текст, распознание образов).
2. Получили что-то вроде "красивая картинка, девушка, лицо с признаками лошади".
3. Передаем на вход нейросети-преобразователя текста результат из пункта 2 и "убрать лошадиные черты лица".
4. Нейросетка анализирует то что ей дали, и "вычитает" неугодные нам слова из текста. На выходе что-то вроде "красивая картинка, девушка, лицо"
5. Результат из пункта 5 скармливается на вход обычной генерирующей нейросети.
6. Имеем картинку без упоминания "лошадиного лица".

Зато с акцентом на лице - т.к. в тексте теперь просто "лицо" и сетка будет искать в модели как примеры в первую очередь те картинки, где "лицо" есть в описании, и является важным. Так что скорее всего в результате получим поясной (а то и одну голову) портрет, даже если изначально был ростовой. Чтобы такого избежать - нужно увеличить "вес" позы персонажа, т.е. указать что-то вроде "убрать лошадиные черты лица, портрет в полный рост" - после преобразования на вход генерации будет подано что-то вроде "красивая картинка, девушка, лицо, в портрет в полный рост". Но может и "красивая картинка, девушка, в портрет в полный рост" - и тогда может оказаться так, что она будет в маске или прикрываться веером, например...
Т.е. тут фактически работают три разных нейросети. Та что в пункте 1 это уже давняя разработка - широко используется для обучения генерирующих нейросетей, точнее - для черновой подготовки материала для моделей, т.к. каждая картинка для тренировки должна быть с текстовым описанием ее содержимого. А для общей тренировки сети их нужны десятки, если не сотни тысяч. Ну и в комплект почти всех интерфейсов к Stable Diffusion (той самой открытой прошлой осенью для публики генерирующией графику нейросети) она тоже входит. Ну и в автопилотах нечто подобное тоже.
Stable Diffusion - открытая генерирующая нейросеть. Генерирует картинку на основе текста, или/и исходной картинки.
И третья нейросеть - сейчас в виде плагина к Web GUI для Stable Diffusion уже доступна. Позволяет такое вот "командование" на естественном языке. Правда все это исключительно на английском.
