Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Чем не устраивает обычное определение обучения - присвоение параметрам модели конкретных значений?
Обычное определение обучения как присвоения параметрам модели конкретных значений может быть недостаточным по нескольким причинам:
Неполнота описания процесса: Обучение модели включает в себя не только присвоение параметрам значений, но и процесс оптимизации этих параметров на основе данных. Этот процесс может включать выбор алгоритма оптимизации, настройку гиперпараметров, выбор функции потерь и другие аспекты, которые не охватываются простым присвоением значений.
Игнорирование динамики обучения: Обучение модели — это динамический процесс, который может включать множество итераций и шагов. Простое присвоение значений не отражает этот итеративный характер, где параметры постепенно корректируются для минимизации ошибки.
Отсутствие контекста данных: Обучение модели происходит на основе данных, и процесс обучения включает в себя анализ и интерпретацию этих данных. Простое присвоение значений не учитывает, как данные используются для обучения модели и как они влияют на конечные параметры.
Неучет обобщения: Цель обучения модели — не только минимизация ошибки на тренировочных данных, но и способность модели обобщать свои знания на новые, невиданные данные. Простое присвоение значений не отражает этот аспект обобщения.
Игнорирование валидации и тестирования: Процесс обучения также включает в себя валидацию и тестирование модели, чтобы оценить её производительность и избежать переобучения. Простое присвоение значений не учитывает эти важные этапы.
Таким образом, более полное определение обучения модели должно включать в себя процесс оптимизации параметров на основе данных, с учетом динамики обучения, контекста данных, способности к обобщению и этапов валидации и тестирования.
Про обучение...
Пару лет назад встретил такое выражение на обычном (не техническом сайте): базы данных на основе нейросетей.
В общем я с этим термином согласился для себя. Сам деревьями занмаюсь - база данных на основе деревьев тоже применима.
1 лист в дереве = 1 строке в базе данных.
Отличия:
Преимущества деревьев перед БД: обобщение и быстрый поиск нужного листа - не надо перебирать миллион строк, до листа можно добраться, через несколько сплитов.
Кластеризация тоже обобщает. Kmeans - по близости примеров к центру кластера, др. методы по другому. Тоже можно поделить на макс число кластеров = числу примеров и получится аналог БД/листьев без обобщения.
В итоге: обучение дерева = это запоминание/запись примеров, как в базе данных. Если остановили деление/обучение раньше максимально точного запоминания, то запомнили с обобщением.Нейросети более сложно понять и осознать, но по сути тоже база данных, хоть и не такая очевидная, как листья и кластеры.
Андрей конечно хочет подвести к тому, что обучение это оптимизация. Нет - это запоминание. Но оптимизация тоже присутствует. Можно оптимизацией перебрать варианты с глубиной обучения, методы сплитов и т.д. На каждом шаге оптимизации будет происходить обучение отдельной модели. Но обучение не есть оптимизация. Это запоминание.
Про обучение...
Пару лет назад встретил такое выражение на обычном (не техническом сайте): базы данных на основе нейросетей.
В общем я с этим термином согласился для себя. Сам деревьями занмаюсь - база данных на основе деревьев тоже применима.
1 лист в дереве = 1 строке в базе данных.
Отличия:
Преимущества деревьев перед БД: обобщение и быстрый поиск нужного листа - не надо перебирать миллион строк, до листа можно добраться, через несколько сплитов.
Кластеризация тоже обобщает. Kmeans - по близости примеров к центру кластера, др. методы по другому. Тоже можно поделить на макс число кластеров = числу примеров и получится аналог БД/листьев без обобщения.
В итоге: обучение дерева = это запоминание/запись примеров, как в базе данных. Если остановили деление/обучение раньше максимально точного запоминания, то запомнили с обобщением.Нейросети более сложно понять и осознать, но по сути тоже база данных, хоть и не такая очевидная, как листья и кластеры.
Андрей конечно хочет подвести к тому, что обучение это оптимизация. Нет - это запоминание. Но оптимизация тоже присутствует. Можно оптимизацией перебрать варианты с глубиной обучения, методы сплитов и т.д. На каждом шаге оптимизации будет происходить обучение отдельной модели. Но обучение не есть оптимизация. Это запоминание.
Деревья с остановкой сплитования раньше или кластеризация с меньшим числом кластеров - обобщат и объединят данные в листьях/кластерах. Это будут недообученые модели, но в условиях наличия шума они могут оказаться более успешными, чем модели с точным запоминанием.
В начале ветки МО был пример с обучением леса таблице умножения. Т.к. ей не подали для обучения бесконечное число возможных вариантов, то лес выдает иногда точные ответы, но в основном - приблизительные. Очевидно, что он недообучен. Но умеет обобщать - находя и усредняя самые близкие к правильному ответы отдельных деревьев.
С обучением в условиях шума - сложно оценить качество. Особенно если шум намного сильнее закономерностей, как в трейдинге.
Для этого придумали оценку на валидационной и тестовой выборке, крос-валидацию, валкинг форвард и т.д.Максимальное качество обучения будет при абсолютно точном запоминании, т.е. при полной записи всех данных в БД, или при обучении дерева до самого последнего возможного сплита или при кластризации с числом кластеров = числу примеров.
Деревья с остановкой сплитования раньше или кластеризация с меньшим числом кластеров - обобщат и объединят данные в листьях/кластерах. Это будут недообученые модели, но в условиях наличия шума они могут оказаться более успешными, чем модели с точным запоминанием.
В начале ветки МО был пример с обучением леса таблице умножения. Т.к. ей не подали для обучения бесконечное число возможных вариантов, то лес выдает иногда точные ответы, но в основном - приблизительные. Очевидно, что он недообучен. Но умеет обобщать - находя и усредняя самые близкие к правильному ответы отдельных деревьев.
С обучением в условиях шума - сложно оценить. Особенно если шум намного сильнее закономерностей, как в трейдинге.
Чем не устраивает обычное определение обучения - присвоение параметрам модели конкретных значений?
Не отражает суть. Присваивать можно любую белиберду и отсебятину.
Если отталкиваться от противного (запоминания/зубрёжки), то обучение - это выявление неких шаблонов, благодаря которым можно создавать или выявлять новые знания.
Как пример: Чат пишет стихи на произвольную тему.
Максимальное качество обучения это максимальное качество прогнозов на новых данных. Никого не интересуют прогнозы на обучающей выборке, потому что они и так известны. Это уже не обучение, а аппроксимация. Вы же не называете аппроксимацию обучением.
Так ты уже определись..