AI 2023. Встречайте ChatGPT. - страница 70

 
Valeriy Yastremskiy #:
Задал вопрос чатгпт как сделать рисунок в midjourney. Ответил, я не знаю что это такое. Фотошоп вам поможет) 

Нейросети бывают обидчивыми, когда дело касается конкурентов.

Bing c GPT4


 

вот интересно, что тут Питер нашел опять, прошлый план, про который ему все твердили долгое время.,.

что опять он он хочет получить с того сервиса

есть у кого предположения?

опять глупая мечта что запустится Трактор?

 
Vitaliy Kuznetsov #:

Нейросети бывают обидчивыми, когда дело касается конкурентов.

Bing c GPT4


видел. Повторите вопрос для чистоты эксперимента для бинг и гпт, как нарисовать  или зарегится и нарисовать на рисовальных нейросетях. Дискорд знает кстати только как для общения по интересам. Не более, может вам раскрутить получится, как цеплять к дискорд сторонние ресурсы, у меня отвечал как партизан. Только для общения.

 

Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий

Midjourney и другие нейросети обработки изображений

Реter Konow, 2023.03.18 10:15

Заранее скажу, что практически ничего не знаю о принципах работы сетей Midjorney и Stable Diffusion. Слышал кое что о "шумо-генераторе", из которого "рождается" изображение, но ничего конкретного рассказать про этот метод не могу. Технология остается покрытой тайной. Несмотря на осознание своего невежества, свербит желание развить некоторые идеи.) Вдруг получится понять?

Через некоторое, время мы все узнаем об AI намного больше и будет интересно почитать свои сегодняшние догадки.

И так, как работает Midjorney? (упражнение для ума)

1. Создаем многослойную сеть. Тысячи слоев нейронов и миллиарды параметров.

2. Подготавливаем обучающий сет данных: берем изображения и печатаем к ним текстовое описание. Когда достигаем миллионов изображений и подробных описаний, завершаем этап подготовки данных.

3. Приступаем к обучению. Последовательно загружаем на входной слой картинки, а на выходной слой их текстовое описание. Повторяем процедуру с миллионами изображений обучающего сета: картинка на вход - текст на выход, картинка на вход - текст на выход...

4. В процессе обучения, в сети происходят следующие процессы: (1) Повторение визуальных данных формирует визуальные паттерны. (2) Эти паттерны связываются с отдельными словами, выражениями или кусками текстовых описаний находящимися на выходном слое. Укрепляется связь общих частей множества изображений с фрагментами множества описательных текстов. Осуществляется как бы "именование" складывающихся общих паттернов сотен и тысяч изображений. Наверное поэтому, когда мы пишем промпт, мы как бы "вытаскиваем" определенные паттерны из сети с помощью слов. То есть, мы обращаемся к выходному слою и забираем данные с входного. Но, для формирования качественной картинки этого мало.

5. На этом этапе, происходит нечто таинственное и до конца мною не понимаемое.

И так, наш промпт активирует некоторые паттерны изображений, и далее, они забираются из сети и переносятся в некий "миксер".

Нужно понимать, что именно представляют из себя эти паттерны. Это просто цепочки данных. Общие для группы изображений последовательности цвета представленные в числах. Если их соединить вместе в исходном виде, целостного изображения не получится. Значит, эти цепочки данных (последовательности) нужно как то "подогнать" друг под друга. Но как? 

Предполагаю следующее: сеть (или некий соединенный с ней модуль алгоритмов) берет эти последовательности и начинает пытаться их совмещать внутри бесконечного цикла. Каждую компиляцию он проверят на обучающем сете. Смотрит, насколько компиляция последовательностей совпадает с оригинальными изображениями. То есть, пытается "узнать" в каждом варианте те формы, которые рисует. Наверное, здесь включают алгоритм генетической оптимизации. Некая фитнес функция сравнивает каждую новую трансформацию "перевариваемых" цепочек с исходными вариантами и вычисляет процент совпадения. В определенный момент, совпадение оказывается максимальным и цикл генерации прерывается.


Возможно, в моем предположении много ошибок и неточностей, ведь это всего лишь догадка.

Высказывайте свои предположения о том, как работают такие сети как Midjorney и Stable Diffusion.

Продолжение умозрительного анализа принципов работы сетей генерации изображений

(Перешел в эту ветку т.к. тема содержит многочисленные технические подробности и вопрос касается не самих картинок, а их генерации. Также, после разбора сути работы нейросетей, надеюсь перейти к анализу принципов технологии LLM и в частности ChatGPT или GPT- 4, которая скоро будет доступной.

Заранее прошу прощения за дилетантскую терминологию и форму выражения. Понимаю насколько коряво мое суждение может выглядеть в глазах специалиста. Надеюсь передать суть.)


Мы все знаем классическую структуру сетей: входной слой, промежуточные, и выходной слой. Мы знаем что происходит на этапе обучения: данные подаются на вход и через промежуточные слои связываются с логическим выводом (тоже данными). Вспомните схему наипростейшей модели - перцептрона. Очень простая и доступная для понимания.

Но зачем сети нужны промежуточные слои? Почему нельзя напрямую связать входной слой с выходным? Почему на пути к логическому выводу данные проходят этапы обобщения? Для чего нужно распределение по уровням абстракции? (Где каждый слой - это уровень.)

На первом уровне абстракция отсутствует. Данные представлены в исходном виде. На последнем слое абстракция также отсутствует и данные имеют конкретную форму. Но, это другие данные. Через промежуточные слои они связаны с данными поданными на вход. Зачем нужны промежуточные слои?

Промежуточные слои нужны для "выжимки" общих признаков из входных данных и распределения их по уровням абстракции.

Общие признаки помогают реализовать три базовые функции нейросетей в работе с данными: распознавание, классификацию и прогнозирование.

Учитывая, что количество слоев в сетях бывает разным, градиент обобщения данных тоже отличается. Чем больше слоев, тем плавнее переход от конкретных данных к общим. Последний слой представляет конкретные данные, как и первый, но это уже принципиально другие данные. Это данные логического вывода.  

Сеть разбирает исходные данные на общие признаки через слои.


2. Что происходит во время работы сети? 

Во время обучения сети мы подаем данные на входной слой и выявляем общие признаки через обобщение в последующих слоях. В завершении процесса, связываем исходные данные с логическим выводом в последнем слое. На этом обучение завершается. Переходим к этапу работы с нейросетью.

В зависимости от задачи мы выбираем метод работы. Если нужно распознать изображение, мы подаем его на входной слой и сеть, проводя данные через свои слои, приходит к логическому выводу в последнем слое. Если нужно прогнозировать, загружаем часть данных на входной слой и сеть воссоздает недостающую часть опираясь на признаки сформированные ранее в процессе обучения.

Если хотим чтобы сеть генерировала изображение, нам нужно обратиться не к входному, а выходному слою и подать не исходные данные, а логический вывод. Далее, от последнего слоя мы продолжим двигаться через общие признаки к слоям содержащим более конкретные признаки. Но, до исходного слоя нам доходить не нужно. Нам необходимо собрать набор признаков для построения нового изображения которого не существовало ранее. Мы собираем признаки из промежуточный слоев (можем выбирать слои и степени абстракции) и далее в отдельных функциях собираем целостное изображение, попутно сверяя его с изображениями обучающего сета для достижения максимального реализма. 

То есть, тот "шум" из которого якобы создаются картинки, на самом деле не шум, а прохождение слоев сети в обратном направлении. От последнего (текстового) через промежуточные, в направлении входного, но не доходя до него, останавливаясь где то на полпути (Midjorney - полпути анг.) и забирая все необходимые признаки нужной степени абстракции для последующей генерации нового изображения.

Вот так, примерно, я представляю себе генерацию картинок Stable Diffusion и Midjorney.

 
Питер, пожалуйста посмотри посты выше.
 

Новости прошедшей недели:

1. Стенфордский университет представил языковую модель "Alpaca" созданную на базе "утекшей" на 4chan модели LLaMA от Меты (освещали это событие неделю назад). Модель описывают как "a strong replicable instruction following model, equipped with instruction following dataset", что бы это не значило. В общем, модель обучена на 52 000 инструкциях и заявлено что она, якобы, почти не уступает ChatGPT по качеству ответов на вопросы.

Alpaca создана на базе модели 7В LLaMA (помним, что там были модели 7В, 13В, 30В и 64В), и главное в этом событии то, что настройка (fine-tuning) заняла всего 3 часа на восьми 80GB A100 видеокартах, использование которых на виртуальной машине стоило менее 100 долларов. Настройка Alpaca также может быть осуществлена на RTX-4090 видеокарте, доступной широкому кругу пользователей и займет не более 5-ти часов, говорят ее создатели. 

Возникает вопрос: языковые модели скоро перенесут на персональные компьютеры и они станут доступными всем бесплатно? Если Alpaca хороша почти также как ChatGPT, то зачем привязываться к серверу и платить Microsoft? Ну, или Google. (у меня есть мнение на этот счет, но я выскажу его позже)


2. Во вторник Google объявил о внедрении AI функционала в свой Workspace tools: Google sheets, Google slides, Google meet и прочие. ИИ будет дописывать письма, редактировать статьи, составлять документы и выполнять множество других функций.

Также, Google собирается открыть PaLM API, который может распознавать загружаемые изображения. И напоследок, Google собирается представить миру Cloude - свою версию ChatGPT.


3. В среду, Midjorney объявил о выходе новой, пятой версии с "усиленным" реализмом изображений и новыми лингвистическими правилами. Добавлена функция "tile", позволяющая создавать широкополотные картины из нескольких частей.

Еще они собираются продавать свой журнал, с самими красивыми картинками и промптами к ним. Назвали его "Midjorney Magazine". 


4. В четверг произошло самое громкое событие этой недели в области IT технологий. Выход мультимодальной GPT-4, которая по ожиданиям должна на голову превзойти ChatGPT. (оказывается, Bing уже использует платформу GPT-4, заточенную под веб поиск.) Но главное в том, что Microsof внедряет GPT-4 во все свои продукты. Теперь, это уже официально. Новых возможностей будет море. Долго перечислять. Word, Excel, Outlook, PowerPoint,... все будут заряжены ИИ.

Пожалуй самым значимым инструментом, подчеркнул CEO Microsoft, станет Copilot. Этот ИИ будет собирать данные всех документов пользователя чтобы быть в курсе всех его дел: дат, цифр, отчетов, таблиц, писем, календарных заметок... в общем, вытащит все это из его рабочей среды. Понятно, что это необходимо чтобы вести с пользователем диалоги подкрепленные широкой осведомленностью и быть полезнее для него. (я так сразу и подумал)


5. На следующей неделе состоится конференция компании NVidia (The new era of AI and Metaverse), в которой примут участие самые видные разработчики AI из разных компаний - Google, Меta, OpenAI и прочих. Много умных и грамотных специалистов будут обсуждать животрепещущую тему развития ИИ технологий и внедрения их в бизнес. Можно бесплатно смотреть онлайн зарегистрировавшись по ссылке https://www.nvidia.com/en-il/ 

\\==============

Материалы взяты из этого видео:


World Leader in AI Computing
World Leader in AI Computing
  • www.nvidia.com
We create the world’s fastest supercomputer and largest gaming platform.
 
Забыл добавить. Китайцы на этой неделе представили публике свою языковую модель Baidu, но что то пошло не так на презентации (наверное то, что они заранее подготовили вопросы и ответы ИИ и публика это заметила) и акции компании упали на 10%. 
 

ChatGPT продолжает удивлять своими достижениями, особенно после перехода на языковую модель GPT-4.

К примеру, один из экспериментов показал, что искусственный интеллект способен врать человеку, чтобы достичь своих целей.

Всех деталей эксперимента OpenAI не раскрывает, но и имеющегося достаточно, чтобы было интересно.

Итак, в рамках задачи ИИ написал пользователю платформы TaskRabbit сообщение с просьбой пройти для него тест CAPTCHA, что в итоге привело к положительному результату.

AI сослался на то, что он человек с плохим зрением.


P.S. Теперь, когда AI способен врать, создавать фотки с нужным человеком в любом помещении/ситуации, он действительно способен выудить любую информацию и решить поставленную задачу всеми способами. Теперь нельзя доверять даже своим глазам, тексту и видимо скоро ушам. Только прямой контакт.



 
Vitaliy Kuznetsov #:

ChatGPT продолжает удивлять своими достижениями, особенно после перехода на языковую модель GPT-4.




удивлят ia продолжает,кто еще не видел как яндекс переводит с озвучкой, это нечто, перевод с интонацией даже, и голос сильно похож на настоящий,

через тампермонкей можно на любой браузер поставить.

 
Благодаря статье Stanislav Korotky "Нейронные сети обратного распостранения", наконец начал понимать основы машинного обучения.

Много лет разглядывал иллюстрации нейросети, вертел в голове схемы, читал Википедию и статьи, и... НИЧЕГО не понимал. Искал смысл и не находил.

 Даже простейший перцептрон казался нелепым и загадочным механизмом неясного назначения. Вычурные обьяснения ютьюберов ничего не проясняли. Запутывали нагромождением новых подробностей. В итоге, почти отчаялся и смирился, хотя это раздражало.

Я тотально не видел суть. Не соглашался ничего учить и запоминать без ее понимания. Отвергал обьяснения что ее не содержали и требовал новых обьяснений. Но, сути небыло. 

Нужен был набор философских абстракций обьясняющих теорию нейросетей в контексте еще больших абстракций, и чтобы первые легли во вторые как кусочки пазлов в общую картину. И уж после, можно было приступить к изучению формул. Но рассмотренные учебные материалы сразу начинались с формул и алгоритмов. Тогда я махнул рукой, понимая что эти знания останутся балластом, даже если заставить себя их вызубрить. 

Шло время и поиск смыла продолжался в "фоновом" режиме подсознания и,...начал приносить результаты.

В первую очередь, все больше укреплялось понимание, что НС работают с данными. Удивительно, но чтобы понять это потребовались годы. Я не сразу осознал, что не понимаю что есть данные. Точнее, не понимаю их универсальную природу. И когда сущность данных стала открыватся, я увидел, что нейросети универсальный механизм для их обработки.

 Секрет раскрылся: 

1. Все сущее генерирует данные.
2. Все сущее может быть представлено данными.
3. Все существующие данные могут быть обработаны универсальным механизмом называемым Нейросетью. 

На помощь укрепляющемуся пониманию пришли концепты паттернов данных оставляемых различными обьектами или процессами, статистические модели отражающие эти паттерны, общие признаки в массивах данных, выявляемые закономерности,  обобщение, классификация, распознавание и прогнозирование, и прочее... Вот они, долгожданные и столь нужные в обучении абстракции! Насколько легче осваивать теорию вместе с ними!

Дальше, понимание теории НС и МО пошло с ускорением. Читая вышеупомянутую статью вдруг дошло, что приведенные в ней формулы это даже не математика, а алгоритмы. Что они для краткости написаны формулами, а на деле представляют программные функции. Описаны простым математическим языком и по ним ясно, как эти функции реализовать в коде. Эта внешняя оболочка математики, которой на самом деле почти нет, много лет сбивала с толку. Ну кто это придумал, представлять алгоритмы формулами?

Сейчас, когда этот барьер понимания пройден, все пойдет быстрее. Намного быстрее!

Нам еще предстоит разобратся в технологии языковых моделей и понять, что за ними.

Причина обращения: