Обсуждается выбор методов анализа данных и важность предикторов

Valeriy Yastremskiy 2022.09.09 10:21 #27371

mytarmailS #:
СФ и МД болеют идеей про связь целевой с признаками, один заболел давно, другой только начал..

Им в голову не приходит что любой алгоритм по отбору признаков этим и занимается, и таких алгоритмов уже наплодили десятки точно..

Но.. Птушник верит в свою гениальность и твёрдо верит что он что то создаёт новое, уникальное...

ЦИРК... Професура МО))))

Надеюсь что никто здесь в свою гениальность не верит, а личные пересечения это всего лишь вампирство психологическое)))) И если оно приносит психологическую пользу какой то из сторон, то имеет место быть)))

Инструментарий у всех примерно одинаков, данные тем более пока одинаковы, а представления ...

У меня маленькая кувалда, а не большой молоток, и совсем не огромный большущий молоточек)))))))

Лавина Любые вопросы новичков по Потоки анонимных ордеров, сделок

mytarmailS 2022.09.09 10:24 #27372

Valeriy Yastremskiy #:

Инструментарий у всех примерно одинаков, данные тем более пока одинаковы, а представления ...

++++

Представление решает все

Aleksey Vyazmikin 2022.09.09 10:59 #27373

mytarmailS #:
Алексей это задача на обычный перебор, все как ты любиш, в чем проблема?

Так это делает скрипт или нет?

Просто удивляюсь, как тут многие легко теряют нить беседы.

Aleksey Vyazmikin 2022.09.09 11:10 #27374

Могу выложить выборку с кучей предикторов, кто сможет отобрать лучшие - тот молодец - сделаем конкурс.

Лучшие определим на независимой выборке, после обучения модели на отобранных предикторах.

Есть у кого желание поучаствовать, или все только на словах такие способные?

Есть ли закономерность в Группировка листьев - требуются Bayesian regression - Делал

Vladimir Perervenko 2022.09.09 11:11 #27375

Слишком общая тема. Часто распадается на составляющие. Давно пора разделить на несколько потоков. Например: 1. МО: препроцессинг данных. 2. МО выбор модели. 3. МО.Обучение и оптимизация моделей. 4. МО.Внедрение моделей. 5.МО. Автоматизация МО.

Разделение очень крупное и приблизительное, но будет понятно о чем идет речь в ветке. А так обо всем и ни о чем.

И конечно нужно приводить воспроизводимые примеры кода, иначе никакой практической пользы от разговоров.

Удачи всем

Обсуждение статьи "Практическое применение Обсуждение статьи "Использование ONNX-моделей Обсуждение статьи "Глубокая нейросеть

mytarmailS 2022.09.09 11:24 #27376

Aleksey Vyazmikin #:

Так это делает скрипт или нет?

Просто удивляюсь, как тут многие легко теряют нить беседы.

Алексей, ты просил дать пример как смотреть на важность признаков с скользящем окне.

Я написал для тебя скрипт..

Потом тебе захотелось перебора в разных масштабах или чего тыт там хочешь, с какого черта скрипт из прошлого должен уметь выполнять твои желания в будущем?

так что Просто удивляюсь, как тут многие легко теряют нить беседы. это про тебя

Что будет с индикаторами Рынок -- управляемая динамическая Лига Торговых Систем. Продолжаем

mytarmailS 2022.09.09 11:33 #27377

Vladimir Perervenko #:

Слишком общая тема. Часто распадается на составляющие. Давно пора разделить на несколько потоков. Например: 1. МО: препроцессинг данных. 2. МО выбор модели. 3. МО.Обучение и оптимизация моделей. 4. МО.Внедрение моделей. 5.МО. Автоматизация МО.

Разделение очень крупное и приблизительное, но будет понятно о чем идет речь в ветке. А так обо всем и ни о чем.

И конечно нужно приводить воспроизводимые примеры кода, иначе никакой практической пользы от разговоров.

Удачи всем

Скорей нужно делить по решаемым задачам, но это слишком индивуально..

Например в ветке по препроцессинга два человека не найдут общего, если один прогнозирует ЗЗ на всей выборке, а другой использует МО для выделения 10-20 кластеров из всех данных для каких то нужд... Итд...

Те тот же срач будет и там, только более размазаный по темам

Системный индикатор Султонова От теории к практике Интересное и Юмор

СанСаныч Фоменко 2022.09.09 11:35 #27378

Valeriy Yastremskiy #:

ССФ мало что нового высказал, конечно цель найти корреляцию признаков предикторов и результата это очевидная цель. Новое уловил только, что у него порядка 200 найденных значимых признаков на всем обучении, но для конкретных данных, ряда он использует всего лишь 5 процентов от них.

Понимаю это так, что есть некие способы быстро определить состояние / свойства ряда для отбора более значимых предикторов именно для последних данных. Вопрос обьема или длинны конечно возникает для правильного отбора. Но видимо это работает даже всего лишь на 200 найденных и отобранных предикторов на всем большом обучении.

Понимаю в общем это так. На разных участках ряд имеет стабильные по некоторым показателям свойства, но на разных участках эти показатели и их количество различны. МО находит некие различные состояния достаточной продолжительности стабильности ряда, которые можно описать разными моделями и соответственно настройками модели - предикторами. Общее количество предикторов это общее количество настроек для разных моделей, и соответственно определяя модель, можно быстро найти ранее найденные для нее настройки.

Когда-то выкладывал в этой ветке таблицу, но сейчас ее нет под рукой, поэтому на словах уточню свою мысль.

Опираюсь на понятие связи предиктора и учителя. "Связь" - это НЕ корреляция и не "важность" предикторов из подгонки практически любой модели МО. Последняя отражает частоту использования предиктора в алгоритме, поэтому большую величину "важности" могут получить кольца Сатурна или кофейная гуща. Есть пакеты, которые позволяют вычислить "связь" между предиктором и учителем, например, на основе теории информации.

Итак, на словах о таблице, которую я здесь выкладывал.

Таблица содержала численную оценку "связи" каждого предиктора и учителя. Было получено несколько сотен значений "связи" при движении окна. Эти значения для конкретного предиктора менялись. Я вычислил среднее и sd для каждой "связи", что позволило:

- выделить предикторы, которые имеют "связь" слишком небольшую - шум;

- выделить предикторы, значение "связи" которых слишком изменчиво. Удалось найти предикторы, которые имеют достаточно большое значение "связи" и sd менее 10%.

Еще раз, проблема построения ТС на основе МО - это поиск предикторов, которые имеют большое значение "связи" и небольшое значение sd при движении окна. По-моему мнению именно такие предикторы обеспечит стабильность ошибки предсказания в будущем.

Написанное выше высказываю НЕ первый раз. К сожалению, дискуссия постоянно уходит в шум и самолюбование.

Bayesian regression - Делал Исследования в мат. пакетах Обсуждение статьи "Третье поколение

Aleksey Vyazmikin 2022.09.09 11:48 #27379

mytarmailS #:

Алексей, ты просил дать пример как смотреть на важность признаков с скользящем окне.

Я написал для тебя скрипт..

Потом тебе захотелось перебора в разных масштабах или чего тыт там хочешь, с какого черта скрипт из прошлого должен уметь выполнять твои желания в будущем?

так что Просто удивляюсь, как тут многие легко теряют нить беседы. это про тебя

Да как так то, я просил скрипт сделать - да, цитирую " Можете сделать скрипт на R для вычислений под мою выборку - я запущу его ради эксперимента. Эксперимент должен выявить оптимальный размер выборки. ", но это уже в ответ на то, что сделали.

Ранее я писал "... И как смотреть в динамике предлагаете, как реализоать? " - тут я спрашивал как раз про реализацию оценки предикторов в динамике, т.е. регулярная оценка каким то окном и то не понятно - окно на каждом новом примере или по прошествии каждых n примеров. Если Вы так и сделали, то я этого не понял.

То, что Вы выложили код - великолепно, но просто мне сложно понять, что он конкретно делает или чего доказывает по сути, поэтому стал задавать дополнительные вопросы. Вот что там означают две картинке с графиками?

Есть ли закономерность в Любые вопросы новичков по Обсуждение статьи "Random Decision

Aleksey Vyazmikin 2022.09.09 11:53 #27380

СанСаныч Фоменко #:

Когда-то выкладывал в этой ветке таблицу, но сейчас ее нет под рукой, поэтому на словах уточню свою мысль.

Опираюсь на понятие связи предиктора и учителя. "Связь" - это НЕ корреляция и не "важность" предикторов из подгонки практически любой модели МО. Последняя отражает частоту использования предиктора в алгоритме, поэтому большую величину "важности" могут получить кольца Сатурна или кофейная гуща. Есть пакеты, которые позволяют вычислить "связь" между предиктором и учителем, например, на основе теории информации.

Итак, на словах о таблице, которую я здесь выкладывал.

Таблица содержала численную оценку "связи" каждого предиктора и учителя. Было получено несколько сотен значений "связи" при движении окна. Эти значения для конкретного предиктора менялись. Я вычислил среднее и sd для каждой "связи", что позволило:

- выделить предикторы, которые имеют "связь" слишком небольшую - шум;

- выделить предикторы, значение "связи" которых слишком изменчиво. Удалось найти предикторы, которые имеют достаточно большое значение "связи" и sd менее 10%.

Еще раз, проблема построения ТС на основе МО - это поиск предикторов, которые имеют большое значение "связи" и небольшое значение sd при движении окна. По-моему мнению именно такие предикторы обеспечит стабильность ошибки предсказания в будущем.

Написанное выше высказываю НЕ первый раз. К сожалению, дискуссия постоянно уходит в шум и самолюбование.

Так у Вас такой же подход, как и у меня по сути, любопытно! Только, возможно "связь" у нас ищется по разному. В качестве окон я беру 10 участков выборки и на них ищу "связь", а Вы как делаете?

Что за алгоритм у Вас для поиска связи, можете описать?

[АРХИВ]Любой вопрос новичка, чтоб Забудьте про случайные котировки От теории к практике

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2738