Посчитай важность признаков для рыночных данных, с 500к строк и 1000 признаков - Общее обсуждение

Valeriy Yastremskiy 2022.04.13 06:48 #26261

elibrarius #:
Не понятно, при чем тут кросс валидация?
Данные в скользящем окне используются для каждой модели.
Кросс валидация используется для состыковки результатов обучения нескольких моделей, обученных на разных кусках данных.
Модели на данных не в скользящем окне, тоже можно обучить на разных кусках этих данных и тоже получите кросс валидацию.

ну тут мысль, что скользящее окно с одинаковой шириной задачу не решает. По хорошему надо на размерность увеличивать прогоны, на каждом шаге изменять ширину окна. Опять проклятие)))

mytarmailS 2022.04.13 06:50 #26262

elibrarius #:
Не понятно, при чем тут кросс валидация?
Данные в скользящем окне используются для каждой модели.
Кросс валидация используется для состыковки результатов обучения нескольких моделей, обученных на разных кусках данных.
Модели на данных не в скользящем окне, тоже можно обучить на разных кусках этих данных и тоже получите кросс валидацию.

Не проснулся ещё?))

Если понять что важность признаков сильно плавает, то нет смысла в кросвалидации, так и написано, что не понятного то

Forester 2022.04.13 06:54 #26263

mytarmailS #:
Круто..

А теперь посчитай своим методом важность для рыночных данных, с 500к строк и 1000 признаков..

Через 20 лет расскажешь что там посчитало у тебя

Тест на малых данных показывает, что быстрые методы плохо работают.
Для чего нужна оценка важности признаков? Чтобы удалив неважные, можно было бы быстрееобучать модель в будущем, без потери качества. Это просто тюнинг уже работающих данных и модели. А ни мне, ни вам (как я полагаю) тюнинговать еще нечего.

Поэтому просто обучаю модель. Модель сама будет использовать важные и не использовать неважные.

Разговор с искусственным интеллектом [АРХИВ!] Любой вопрос новичка, Оптимизация. Граничные Условия Параметров

Forester 2022.04.13 07:02 #26264

mytarmailS #:
Не проснулся ещё?))

Если понять что важность признаков сильно плавает, то нет смысла в кросвалидации, так и написано, что не понятного то

Проснулся)
Не согласен.
Кросс валидация - это возможность выбросить модель, которая случайно оказалась удачной на одном куске истории. Проверка её на нескольких участках истории, может показать, что там она не будет работать.
Как раз кросс валидация и показывает, что признаки и модель - плавают.
Вам это "плавание" показывает другой метод, мне кросс валидация.

Собираю команду для развития Нужна помощь в создании Расставляем стрелочки на графике

Forester 2022.04.13 07:04 #26265

Сам я использую не чистую кроссвалидацию, а валкинг форвард. Т.е. не по кругу, а смещения только вперед.

mytarmailS 2022.04.13 07:12 #26266

elibrarius #:
Тест на малых данных показывает, что быстрые методы плохо работают.
Для чего нужна оценка важности признаков? Чтобы удалив неважные, можно было бы быстрееобучать модель в будущем, без потери качества. Это просто тюнинг уже работающих данных и модели. А ни мне, ни вам (как я полагаю) тюнинговать еще нечего.

Поэтому просто обучаю модель. Модель сама будет использовать важные и не использовать неважные.

А если я хочу создать нейрону которая генерирует на выходе качественные признаки?

Уверен тебе такое даже в голову не приходило, но ты уже все выводы за меня сделал

Forester 2022.04.13 07:41 #26267

mytarmailS #:
А если я хочу создать нейрону которая генерирует на выходе качественные признаки?

Уверен тебе такое даже в голову не приходило, но ты уже все выводы за меня сделал

Не приходило. Выводы делаю только после проведения собственных экспериментов. Успехов в ваших экспериментах.
По кросс валидации (валкинг форварду) так и не пояснили, чем она плоха. Мои эксперименты - показывают, что это работающий метод, по отсеву плохих моделей/идей.

OrderSend error 4756 _-_ Парный трейдинг и мультивалютный Системка для торговли внутри

mytarmailS 2022.04.13 08:14 #26268

elibrarius #:

По кросс валидации (валкинг форварду) так и не пояснили, чем она плоха

Тем что признаки плавают, это все подгонка под трейн/тест, валидация будет другая

Forester 2022.04.13 08:54 #26269

mytarmailS #:
Тем что признаки плавают, это все подгонка под трейн/тест, валидация будет другая

Какая же это подгонка? Все наоборот. Это способ отсева случайно успешных участков теста.
Какую валидацию вы предлагаете?

Maxim Dmitrievsky 2022.04.13 21:59 #26270

mytarmailS #:

рекомендация всплыла на медиуме на твою тему, может пригодится, не вникал

меня такой подход заинтересовал тем, что модельки обученные можно легко в терминал переносить (вроде бы)

https://medium.com/@james_laidler/generating-a-rules-based-system-using-iguanas-762843dd1418

Generating a Rules-Based System using Iguanas

James
medium.com

Full instructions on how to install Iguanas can be found in the Github repo. However, it should just be a case of running: Example — Titanic data set Now we’ll see how Iguanas can be utilised to create a Rules-Based System using the famous Titanic data set, which is available from Kaggle to download. Note that I won’t go into details on the...

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2627