Тестирование ChatGPT показало его широкие знания, но ограничения в математике и логике

Lilita Bogachkova 2023.03.01 19:12 #561

Реter Konow #:

Это уже ответ Bing?

Да, это ответ от Bing.

Реter Konow 2023.03.01 19:23 #562

Вернемся к тестированию ChatGPT.

Хочу напомнить, что первый этап тестирования - проверку на широту знаний, мы провели. ChatGPT выдал таблицы с разделами фундаментальных, инженерных и гуманитарных наук, немного ошеломив нас пугающей громадой знаний. Результатом можно считать вывод, что ИИ обладает сверхчеловеческим объемом информации и нет смысла примитивно ловить его на невежестве. Он знает решительно все, либо почти все, что для рядового пользователя одно и тоже.

Результат первого теста перечеркнул запланированный второй этап - проверку на глубину знаний. Стало ясно, что для ChatGPT нет разницы между школьной и университетской программой. Он равнодушно поведает о таблице умножения и о квантовой теории поля, и ничуть не напряжется. Честно сказать, это сбило меня с толку. На время, я перестал понимать, как тестировать эту дьявольскую шкатулку, знающую ВСЕ. Но мое смятение было недолгим.

В первую очередь, стало понятно что ChatGPT плохо считает. Математику он конечно знает, но уравнения решает только легкие. Также, неоднократно выдавал логические ляпы и противоречия в суждениях. Стало ясно, что элементарной логикой он владеет, но как и с уравнениями, "проваливается" при усложнении. Однако, специально разрабатывать тесты для выявления точного уровня математических и логических способностей было не интересно. Понятно, это третий - пятый класс начальной школы.

Прежний вопрос остался без ответа: как определить область бытового и профессионального применения ИИ, и оценить реальный коммерческий потенциал? И где будет проходить граница возможностей через месяц, год? Безусловно, это зависит от технологии, а кто ее из нас тут достаточно хорошо знает, чтобы сказать точно? Продукт не завершен и развивается постоянно.

Можно сказать, что на данный момент мы имеем дело с полуфабрикатом, который и хорош и плох одновременно. Он недоделан. Какие еще возможности позволит приобрести технология на новых этапах развития, никто не скажет, но сейчас он как модный чемодан без ручки. И превосходит ожидания, и разочаровывает одновременно.

И все таки, мы продолжим тестирование и перейдем к бенчмаркингу - сопоставительному анализу на основе эталонных показателей. Будем сравнивать ChatGPT с Википедией. Задача - оценить ИИ в качестве надежного источника полной и достоверной информации сравнив его с другим, проверенным источником полной и достоверной информации. Разберемся, имеет ли ИИ право использоваться в ответственной и важной работе.

В следующих постах я изложу подготовленные критерии и тесты.

Мне нужен хороший исторический Обсуждение статьи "Разрабатываем мультивалютный торговая стратегия на базе

Ivan Butko 2023.03.02 16:52 #563

— В слове "творог" на какой слог правильно ставится ударение?

— В слове "творог" ударение падает на первый слог: "твОрог".

— Почему?

— Ударение в русских словах может падать на один из шести слогов, и правильное определение ударного слога основывается на ударности корня слова и окончаний, если они имеются. В слове "творог" корнем является слог "твор", а окончание "ог" не имеет ударения, поэтому ударение падает на первый слог "твОрог".

— Почему корнем является слог "твор"?

— Корнем слова является его неизменяемая часть, которая содержит основной смысл слова. В слове "творог" корнем является сочетание букв "твор", которое образует основу слова и определяет его лексическое значение - это название молочного продукта, изготовляемого путем свертывания молока. Окончание "-ог" в слове "творог" образуется с помощью суффикса, который меняет значение слова или его частей, и не входит в состав корня слова.

— В слове "творог" нет окончания и нет суффикса.

— Извините за недостаточно точный ответ ранее. Действительно, слово "творог" не имеет окончания и суффикса, и корнем является слово "твор". Поэтому, ударение в слове "творог" падает на первый слог "твОрог". Спасибо, что указали на ошибку.

TrollGPT

Midjourney и другие нейросети Написание кода на русском Новый поисковик на MQL4.community

Реter Konow 2023.03.02 18:34 #564

В западных медиа говорят, MS Bing сломался...

Bing Chat Refuses To Talk To Me (Use This Instead) - YouTube

Bing Chat Refuses To Talk To Me (Use This Instead)

2023.02.26
www.youtube.com

I tried to get Bing Chat to talk to me and it was having none of it. So I experimented with some other alternatives that are much better than Bing chat now.R...

Реter Konow 2023.03.02 20:49 #565

О целях тестирования:

И так, Бенчмаркинг, это прогон некой электронной или программной системы на наборе тестовых заданий (задач), замер производительности и сравнение результатов с эталонными показателями. Не уверен, что наше тестирование ChatGPT можно назвать бенчмаркингом, но мы определенно проведем анализ полученных результатов и сравнение с эталоном (Википедией).

Википедия не программа, а ChatGPT не "книга", и тестирование не выявит технические показатели. Ни скорость ответов, ни лаги загрузки страниц. Основная цель, определение целесообразности использования ChatGPT источником достоверной информации в ответственной работе. Будем сверять точность, полноту и достоверность информации по спектру общечеловеческих знаний. Поэтому бенчмаркинг здесь, красивое слово немного подходящее по смыслу.

Среди прочих, одна из важнейших целей тестирования, определение технических ограничений LLM в качестве ИИ (для меня первичная цель). Главный мотив, найти абсолютный предел этой технологии. Насколько можно улучшать и когда упремся в "стену"? И каким подходом стену будем ломать?..

О показателях в фокусе исследования:

И Википедия, и ChatGPT представляют информацию в двух основных форматах: в описании и таблицах. Помимо таблиц, Чат может использовать графики и диаграммы, а Википедия иллюстрации, но их мы сравнивать не будем.

Нас интересует:

Полнота отражения предмета в описании.
Полнота данных предмета в таблице.
Качество структуры описания предмета.
Качество структуры данных в таблице (т.е. качество таблиц).

Обратите внимание на последний пункт. Структура и содержание таблицы отражает качество классификации предметных данных. В случае с Википедией, данные классифицируются людьми, но проверять мы будем ИИ (а не людей). Посмотрим, насколько хорошо классифицирует (связывает и распределяет данные) продвинутая языковая модель. Задача, подробно изучить и оценить обработку и вывод предметных данных, т.к. это суть предназначения разговорного ИИ.

Содержательность, полнота, точность и упорядоченность информации... все это тестируемые параметры.

Дисциплины выбранные для тестирования:

Астрономия
Физика
Зоология

Каждая из этих наук имеет как описательное, так и табличное содержание, на основе которых можно строить разветвленные классификационные модели. С этой точки зрения, эти области знаний удачно подходят для нашего тестирования.

Заключение:

О тестовых заданиях, проверке и подведении результатов, и о выводах, расскажу в следующих постах.

Разговор с искусственным интеллектом Машинное обучение и нейронные Машинное обучение в трейдинге:

Vitaliy Kuznetsov 2023.03.03 13:18 #566

Я тут тестирую приложение на андроид (установил плеер на комп). Это не топ того, что гуляет в соц.сетях, но мощная вещь

Что могу сказать. Профессия дизайнер уходит в прошлое. Теперь можно легко наполнить сайт иллюстрациями не опасаясь, что картинка авторская

Котята встречают рассвет на марсе. Сгенерировано:

2. Лопата - это смешно. Сгенерировано

Вобщем, там можно выбирать стиль, делать подробнейшее описание. Но конечно много левых генераций иногда, но прогресс на лицо

3. Машина Спайдермена и Супермена. Сгенерировано

4. Грибной Апокалипсис

Это были совсем короткие фразы для генерации. Возможно подкинете идей, будет время, посижу, погенерирую)

Midjourney и другие нейросети Индикатор или Эксперт Новая система идей Размещено

Реter Konow 2023.03.03 14:41 #567

Попросите нарисовать апофеоз логики и симметрии. Любопытно, что выдаст.

Ivan Butko 2023.03.03 16:05 #568

У изображений нейросетей есть один недостаток (нет не только пальцы), это в принципе артефакты. Стоит успокоиться от восторга от вида новой сгенерированной картинки и начать пристально рассматривать её. Почти все детали будут "недоделаны", сплошная ассиметрия во всём, что-то безжизненное такое, слепленное второпях.

Этот недостаток как раз от полного отсутствия алгоритмов (например, проверка соответствие глаз - глазам - выравнивание округлённости зрачка и тд), таких "3D-проверок" нет, поэтому все изображения - один сплошной артефакт. Но, зато отсутствие "ручного" вмешательства и полная отдача нейросетям сделали их свободными к творчеству и открытыми к обучению лучшим результатам.

С другой стороны, эти артефакты сейчас настолько маленькие, что если не рассматривать изображение вблизи, то никаких проблем не увидишь.

Midjourney и другие нейросети нейронная сеть и входы Машинное обучение в трейдинге:

Реter Konow 2023.03.03 16:22 #569

Ivan Butko #:
У изображений нейросетей есть один недостаток (нет не только пальцы), это в принципе артефакты. Стоит успокоиться от восторга от вида новой сгенерированной картинки и начать пристально рассматривать её. Почти все детали будут "недоделаны", сплошная ассиметрия во всём, что-то безжизненное такое, слепленное второпях.

Этот недостаток как раз от полного отсутствия алгоритмов (например, проверка соответствие глаз - глазам - выравнивание округлённости зрачка и тд), таких "3D-проверок" нет, поэтому все изображения - один сплошной артефакт. Но, зато отсутствие "ручного" вмешательства и полная отдача нейросетям сделали их свободными к творчеству и открытыми к обучению лучшим результатам.

С другой стороны, эти артефакты сейчас настолько маленькие, что если не рассматривать изображение вблизи, то никаких проблем не увидишь.

Эти картинки напоминают наспех сделанные эскизы талантливого художника, у которого не хватило терпения исправить погрешности и он махнул рукой на симметрию и точность.

Реter Konow 2023.03.03 16:27 #570

Генерация картинок не сопровождается когнитивным процессом.

AI 2023. Встречайте ChatGPT. - страница 57