Обсуждение статьи "Функции активации нейронов при обучении: ключ к быстрой сходимости?"

CODE X 2025.06.28 10:59 #1

Если мы не знаем свойств функций активации, то можем столкнуться с проблемами. Нейронная сеть может начать "спотыкаться" на простых задачах или "игнорировать" важные детали. Основная задача функций активации - внести нелинейность в нейронную сеть и нормализовать выходные значения.

Этот отрывок из статьи привлек мое внимание. Несмотря на то что статья очень хорошо написана и подробно рассказывает о том, как она была разработана и продумана. В этом отрывке есть тонкость в вашем понимании предмета. Возможно, вы предвзяты, потому что все настойчиво говорят определенные вещи о нейронных сетях. Но ваша статья написана хорошо, и вы объяснили все детали. Я решил предвосхитить то, что буду показывать в будущем. Статья для этого уже написана, но сначала я хочу закончить объяснение того, как построить Replay / Simulator, где осталось всего несколько статей, чтобы завершить публикацию. Поймите следующее: Функции активации НЕ используются для создания нелинейности в уравнениях. Скорее, они служат своего рода фильтром, цель которого - уменьшить количество слоев или перцептронов в строящейся сети. Это ускоряет процесс сходимости данных в определенном направлении. В ходе этого процесса мы можем стремиться к классификации или сохранению знаний. В итоге мы получим один или другой результат, но никогда не оба.

В своей статье https://www.mql5.com/ru/articles/13745 я демонстрирую это на довольно простом примере. Хотя там я только начинаю объяснять, как понять, что такое нейронная сеть. Но поскольку ваша статья написана хорошо и вы приложили к ней много усилий, я дам вам совет. Возьмите несколько случайных данных и удалите функции активации перцептрона. После этого начните пытаться сходиться. Вы заметите, что это будет выглядеть не очень хорошо. Но если вы начнете добавлять слои и/или больше перцептронов, то со временем сходимость начнет улучшаться. Это поможет вам лучше понять, зачем нужны функции активации. 😁👍

Rede neural na prática: O primeiro neurônio

www.mql5.com

Neste artigo começamos a de fato criar algo que muitos ficam admirados em ver funcionando. Um simples e singelo neurônio que conseguiremos programar com muito pouco código em MQL5.O neurônio funcionou perfeitamente nos testes que fiz. Bem, vamos voltar um pouco, nesta mesma série sobre redes neurais, para que você possa entender do que estou falando.

Рыночный этикет или правила Сеть, состоящую из одного Нейроторговцы, не проходите мимо

CODE X 2025.06.28 11:00 #2

Ошибки перевода...

Stanislav Korotky 2025.06.28 14:37 #3

CODE X #:

Если мы не знаем свойств функций активации, то можем столкнуться с проблемами. Нейронная сеть может начать "спотыкаться" на простых задачах или "игнорировать" важные детали. Основная задача функций активации - внести нелинейность в нейронную сеть и нормализовать выходные значения.

Этот отрывок из статьи привлек мое внимание. Несмотря на то что статья очень хорошо написана и подробно рассказывает о том, как она была разработана и продумана. В этом отрывке есть тонкость в вашем понимании предмета. Возможно, вы предвзяты, потому что все настойчиво говорят определенные вещи о нейронных сетях. Но ваша статья написана хорошо, и вы объяснили все детали. Я решил предвосхитить то, что буду показывать в будущем. Статья для этого уже написана, но сначала я хочу закончить объяснение того, как построить Replay / Simulator, где осталось всего несколько статей, чтобы завершить публикацию. Поймите следующее: Функции активации НЕ используются для создания нелинейности в уравнениях. Скорее, они служат своего рода фильтром, цель которого - уменьшить количество слоев или перцептронов в строящейся сети. Это ускоряет процесс сходимости данных в определенном направлении. В ходе этого процесса мы можем стремиться к классификации или сохранению знаний. В итоге мы получим один или другой результат, но никогда не оба.

Вероятно, автоперевод не очень точен, но выделенное неверно. Именно нелинейность увеличивает вычислительные способности сети, и это не только ускоряет процесс сходимости (о чем вы сами же тоже сказали в другом предложении) но принципиально позволяет решать задачи, которые невозможно решить без введения нелинейности (сколько бы слоев вы ни добавили). Более того, без нелинейности любую (синхронную) нейронную сеть можно "схлопнуть" в эквивалентную однослойную сеть.

Грааль для ручной торговли. Что подать на вход Нулевая корреляция выборки вовсе

Andrey Dik 2025.06.28 15:11 #4

Stanislav Korotky #:

Именно нелинейность увеличивает вычислительные способности сети, и это не только ускоряет процесс сходимости (о чем вы сами же тоже сказали в другом предложении) но принципиально позволяет решать задачи, которые невозможно решить без введения нелинейности (сколько бы слоев вы ни добавили). Более того, без нелинейности любую (синхронную) нейронную сеть можно "схлопнуть" в эквивалентную однослойную сеть.

+100500

Хорошо сказано. Пока составлял ответ - вижу, что уже ответили.

Скажу больше, да, любую нелинейную функцию можно описать линейными кусочными функциями в количестве, стремящемся к бесконечности при ошибке описания, стремящейся к нулю. Только зачем, если нелинейные функции активации как раз и применяются с целью упростить описание объекта в задаче.

Рыночный этикет или правила Обучение нейронных сетей Любые вопросы новичков по

CODE X 2025.06.28 23:41 #5

Думаю, возникло недопонимание между тем, что я хотел сказать, и тем, что я на самом деле изложил в виде текста.

В этот раз я постараюсь быть немного яснее. 🙂 Когда мы хотим КЛАССИФИЦИРОВАТЬ вещи, такие как изображения, предметы, фигуры, звуки, короче говоря, где будут царить вероятности. Нам нужно ограничить значения в нейронной сети так, чтобы они попадали в заданный диапазон. Обычно этот диапазон составляет от -1 до 1. Но он может быть и от 0 до 1, в зависимости от того, как быстро, с какой скоростью и каким образом обрабатывается входная информация, с которой мы хотим познакомить сеть, и как она лучше всего направляет свое обучение, чтобы создать классификацию вещей. В ЭТОМ СЛУЧАЕ НАМ ПОНАДОБЯТСЯ функции активации. Именно для того, чтобы удерживать значения в этом диапазоне. В итоге мы получим средства для генерации значений с точки зрения вероятности того, что входные данные являются теми или иными. Это факт, и я его не отрицаю. Настолько, что нам часто приходится нормализовать или стандартизировать входные данные.

Однако нейронные сети используются не только для классификации, они также могут и используются для сохранения знаний. В этом случае от функций активации во многих случаях следует отказаться. Деталь: Бывают случаи, когда нам нужно что-то ограничить. Но это очень специфические случаи. Все дело в том, что эти функции мешают сети выполнять свое предназначение. А оно заключается именно в сохранении знаний. И на самом деле я частично согласен с замечанием Станислава Короткого о том, что сеть в таких случаях можно свернуть до чего-то эквивалентного одному слою, если не использовать функции активации. Но когда это произойдет, это будет один из нескольких случаев, поскольку есть случаи, когда одного полинома с несколькими переменными недостаточно, чтобы представить или, лучше сказать, сохранить знания. В этом случае нам придется использовать дополнительные слои, чтобы результат действительно можно было воспроизвести. Или же можно сгенерировать новые. Немного запутанно объяснять это вот так, без должной демонстрации. Но это работает.

Большая проблема в том, что из-за моды на все сейчас, в последние 10 лет или около того, если мне не изменяет память, это было связано с искусственным интеллектом и нейронными сетями. Хотя бизнес по-настоящему расцвел только в последние пять лет. Многие люди совершенно не знают, что это такое на самом деле. И как они на самом деле работают. Это происходит потому, что все, кого я вижу, всегда используют готовые фреймворки. А это совершенно не помогает понять, как работают нейронные сети. Это просто уравнение с несколькими переменными. В академических кругах их изучают уже несколько десятилетий. И даже когда они вышли за пределы академических кругов, их никогда не анонсировали с такой помпой. На начальном этапе и в течение длительного времени ФУНКЦИИ АКТИВАЦИИ НЕ ИСПОЛЬЗОВАЛИСЬ. Но цель сетей, которые в то время даже не назывались нейросетями, была другой. Однако из-за того, что три человека хотели извлечь из них выгоду, они были разрекламированы, что, на мой взгляд, несколько неправильно. Правильнее всего, по крайней мере с моей точки зрения, было бы правильно объяснить их суть. Именно так, чтобы не создавать путаницы в умах многих людей. Но это не страшно, они втроем делают кучу денег, а люди теряются больше, чем собака, упавшая с грузовика для вывоза мусора. В любом случае, я не хочу отговаривать вас от написания новых статей, Андрей Дик, но я хочу, чтобы вы продолжали учиться и старались еще глубже погрузиться в эту тему. Я видел, что вы пытались использовать чистый MQL5 для создания системы. Что, кстати, очень хорошо. Это привлекло мое внимание, и я понял, что ваша статья очень хорошо написана и спланирована. Я просто хотел обратить ваше внимание на этот момент и заставить вас подумать об этом немного больше. На самом деле, эта тема очень интересна, и о ней мало кто знает. Но вы взялись и изучили ее.

Debates em alto nível, são sempre interessantes, pois nos faz crescer e pensar fora da caixa. Brigas não nos leva a nada, e só nos faz perder tempo. 👍

Обсуждение статьи "Функции активации нейронов при обучении: ключ к быстрой сходимости?"

2025.01.21
MetaQuotes
www.mql5.com

Опубликована статья Функции активации нейронов при обучении: ключ к быстрой сходимости? : Автор: Andrey Dik...

AI 2023. Встречайте ChatGPT. Индикаторный вопрос Машинное обучение в трейдинге:

Andrey Dik 2025.06.29 07:42 #6

CODE X #:
...

Ваш пост похож на выражение "Реактивный турбо-двигатель на самом деле это паровой двигатель, таким он был задуман изначально."

Rorschach 2025.06.29 17:05 #7

В качестве ф-ии активации можно использовать что угодно, хоть косинус, результат получается на уровне популярных. Рекомендуется использовать relu (со сдвигом bias 0.1 (не рекомендуется использовать вместе с инициализацией случайным блужданием)), т.к. он простой (быстро считается) и лучше идет обучение: Эти блоки легко оптимизировать, потому что они очень похожи на линейные. Разница только в том, что блок линейной ректификации в половине своей области определения выводит 0. Поэтому производная блока линейной ректификации остается большой всюду, где блок активен. Градиенты не только велики, но еще и согласованы. Вторая производная операции ректификации всюду равна нулю, а первая производная равна 1 всюду, где блок активен. Это означает, что направление градиента гораздо полезнее для обучения, чем в случае, когда функция активации подвержена эффектам второго порядка... При инициализации параметров аффинного преобразования рекомендуется присваивать всем элементам b небольшое положительное значение, например 0.1. Тогда блок линейной ректификации в начальный момент с большой вероятностью окажется активен для большинства обучающих примеров, и производная будет отлична от нуля.

В отличие от кусочно-линейных, сигмоидальные блоки близки к асимптоте в большей части своей области определения – приближаются к высокому значению, когда z стремится к бесконечности, и к низкому, когда z стремится к минус бесконечности. Высокой чувствительностью они обладают только в окрестности нуля. Из-за насыщения сигмоидальных блоков градиентное обучение сильно затруднено. Поэтому использование их в качестве скрытых блоков в сетях прямого распространения ныне не рекомендуется... Если использовать сигмоидальную функцию активации необходимо, то лучше взять не логистическую сигмоиду, а гиперболический тангенс. Он ближе к тождественной функции в том смысле, что tanh(0) = 0, тогда как σ(0) = 1/2. Поскольку tanh походит на тождественную функцию в окрестности нуля, обучение глубокой нейронной сети напоминает обучение линейной модели при условии что сигналы активации сети удается удерживать на низком уровне. При этом обучение сети с функцией активации tanh упрощается.

Для lstm нужно использовать сигмоид или арктангенс (рекомендуется устанавливать смещение 1 для вентиля забывания): Сигмоидальные функции активации все же применяются, но не в сетях прямого распространения. К рекуррентным сетям, многим вероятностным моделям и некоторым автокодировщикам предъявляются дополнительные требования, исключающие использование кусочно-линейных функций активации и делающие сигмоидальные блоки более подходящими, несмотря на проблемы насыщения.

Линейная активация и уменьшение параметров: Если каждый слой сети состоит только из линейных преобразований, то сеть в целом будет линейной. Однако некоторые слои могут быть и чисто линейными – это вполне нормально. Рассмотрим слой нейронной сети, имеющий n входов и p выходов. Его можно заменить двумя слоями, в одном из которых используется матрица весов U, а в другом – матрица весов V. Если в первом слое нет функции активации, то мы, по сути дела, разложили на множители матрицу весов исходного слоя, основанного на W. Если U порождает q выходов, то U и V вместе содержат только (n + p)q параметров, тогда как W – np параметров. Для малых q экономия параметров может быть существенной. Платой за это является ограничение – линейное преобразование должно иметь низкий ранг, но таких низкоранговых связей часто достаточно. Таким образом, линейные скрытые блоки предлагают эффективный способ уменьшить число параметров сети.

Релу больше подходит для глубоких сетей: Несмотря на популярность ректификации в ранних моделях, в 1980-е годы ее почти всюду заменили сигмоиды, поскольку они лучше работают в очень малых нейронных сетях.

Но в целом оно лучше: для небольших наборов данных использование ректифицирующих нелинейностей даже важнее, чем обучение весов скрытых слоев. Случайных весов достаточно для распространения полезной информации по сети с линейной ректификацией, что позволяет классифицирующему выходному слою обучаться отображению различных векторов признаков на идентификаторы классов. Если доступно больше данных, то процесс обучения начинает извлекать так много полезных знаний, что превосходит по качеству случайным образом выбранные параметры... обучение гораздо легче проходит в ректифицированных линейных сетях, чем в глубоких сетях, для которых функции активации характеризуются кривизной или двусторонним насыщением...

Машинное обучение и нейронные Методы инициализации весовых коэффициентов Функции активации

Maxim Dmitrievsky 2025.07.31 16:48 #8

CODE X #:

Думаю, возникло недопонимание между тем, что я хотел сказать, и тем, что я на самом деле изложил в виде текста.

В этот раз я постараюсь быть немного яснее. 🙂 Когда мы хотим КЛАССИФИЦИРОВАТЬ вещи, такие как изображения, предметы, фигуры, звуки, короче говоря, где будут царить вероятности. Нам нужно ограничить значения в нейронной сети так, чтобы они попадали в заданный диапазон. Обычно этот диапазон составляет от -1 до 1. Но он может быть и от 0 до 1, в зависимости от того, как быстро, с какой скоростью и каким образом обрабатывается входная информация, с которой мы хотим познакомить сеть, и как она лучше всего направляет свое обучение, чтобы создать классификацию вещей. В ЭТОМ СЛУЧАЕ НАМ ПОНАДОБЯТСЯ функции активации. Именно для того, чтобы удерживать значения в этом диапазоне. В итоге мы получим средства для генерации значений с точки зрения вероятности того, что входные данные являются теми или иными. Это факт, и я его не отрицаю. Настолько, что нам часто приходится нормализовать или стандартизировать входные данные.

Однако нейронные сети используются не только для классификации, они также могут и используются для сохранения знаний. В этом случае от функций активации во многих случаях следует отказаться. Деталь: Бывают случаи, когда нам нужно что-то ограничить. Но это очень специфические случаи. Все дело в том, что эти функции мешают сети выполнять свое предназначение. А оно заключается именно в сохранении знаний. И на самом деле я частично согласен с замечанием Станислава Короткого о том, что сеть в таких случаях можно свернуть до чего-то эквивалентного одному слою, если не использовать функции активации. Но когда это произойдет, это будет один из нескольких случаев, поскольку есть случаи, когда одного полинома с несколькими переменными недостаточно, чтобы представить или, лучше сказать, сохранить знания. В этом случае нам придется использовать дополнительные слои, чтобы результат действительно можно было воспроизвести. Или же можно сгенерировать новые. Немного запутанно объяснять это вот так, без должной демонстрации. Но это работает.

Большая проблема в том, что из-за моды на все сейчас, в последние 10 лет или около того, если мне не изменяет память, это было связано с искусственным интеллектом и нейронными сетями. Хотя бизнес по-настоящему расцвел только в последние пять лет. Многие люди совершенно не знают, что это такое на самом деле. И как они на самом деле работают. Это происходит потому, что все, кого я вижу, всегда используют готовые фреймворки. А это совершенно не помогает понять, как работают нейронные сети. Это просто уравнение с несколькими переменными. В академических кругах их изучают уже несколько десятилетий. И даже когда они вышли за пределы академических кругов, их никогда не анонсировали с такой помпой. На начальном этапе и в течение длительного времени ФУНКЦИИ АКТИВАЦИИ НЕ ИСПОЛЬЗОВАЛИСЬ. Но цель сетей, которые в то время даже не назывались нейросетями, была другой. Однако из-за того, что три человека хотели извлечь из них выгоду, они были разрекламированы, что, на мой взгляд, несколько неправильно. Правильнее всего, по крайней мере с моей точки зрения, было бы правильно объяснить их суть. Именно так, чтобы не создавать путаницы в умах многих людей. Но это не страшно, они втроем делают кучу денег, а люди теряются больше, чем собака, упавшая с грузовика для вывоза мусора. В любом случае, я не хочу отговаривать вас от написания новых статей, Андрей Дик, но я хочу, чтобы вы продолжали учиться и старались еще глубже погрузиться в эту тему. Я видел, что вы пытались использовать чистый MQL5 для создания системы. Что, кстати, очень хорошо. Это привлекло мое внимание, и я понял, что ваша статья очень хорошо написана и спланирована. Я просто хотел обратить ваше внимание на этот момент и заставить вас подумать об этом немного больше. На самом деле, эта тема очень интересна, и о ней мало кто знает. Но вы взялись и изучили ее.

Да, нелинейность - это косвенный эффект, который дают ф-ии активации. Изначально они предназначались для перевода из одной области определения целевой в другую, например для задач классификации. "Нелинейность" же может достигаться разными способами, например за счет увеличения количества признаков или их преобразования, либо за счет ядер, которые преобразуют признаки.

Простейший пример - логистическая регрессия, которая остается линейной, несмотря на ф-ю активации в конце.

Но в многослойных сетях нелинейность получается за счет количества слоев с ф-ями активации, просто как следствие преобразований по типу ядер.

Машинное обучение в трейдинге: Вероятностная нейронная сеть Рыночный этикет или правила

Maxim Dmitrievsky 2025.07.31 17:05 #9

Историческая справка:

Вы правы в том, что концепции, лежащие в основе логистической регрессии и ранних нейронных сетей, появились раньше, чем современные глубокие нейронные сети.

Давайте посмотрим на хронологию:

Логистическая функция была разработана в 19 веке. Её использование в качестве статистической модели для классификации (логистическая регрессия) стало популярным в середине 20 века (примерно 1940-50-е годы).
Первая математическая модель нейрона (модель Мак-Каллока и Питтса) с функцией активации появилась в 1943 году. Она использовала простую пороговую функцию.
Перцептрон, однослойная нейронная сеть, был разработан Фрэнком Розенблаттом в 1958 году. Он использовал пороговую функцию активации и мог решать только линейно разделимые задачи.
Прорыв в области глубокого обучения и многослойных сетей произошел только с появлением алгоритма обратного распространения ошибки (backpropagation), который был популяризирован в 1986 годуработами Румельхарта, Хинтона и Уильямса.

Именно этот алгоритм сделал практичным обучение многослойных нейронных сетей и показал, что для его работы нужны не просто пороговые, а дифференцируемые нелинейные функции активации (такие как сигмоида, а позже и ReLU).

Вывод:

Исторически получается, что:

Сначала были модели (логистическая регрессия, перцептрон), которые были по сути однослойными.
В этих моделях функция активации действительно выполняла роль преобразования в нужную область (из линейной суммы в бинарный класс или вероятность), так как вся модель оставалась линейной.
Позже, с появлением многослойных сетей, возникла новая, принципиально более важная роль функции активации — вносить нелинейность в скрытые слои, чтобы сеть могла учиться.

Нейрон и принципы построения Машинное обучение и нейронные Основные принципы построения искусственного