Обсуждение статьи "Продвинутый ресемплинг и выбор CatBoost моделей брутфорс методом" - страница 13

 
Evgeni Gavrilovi:

да, он самый. 

там прописано

#include <MT4Orders.mqh>

#include <Trade\AccountInfo.mqh>

#include <cat_model.mqh> 

и самое главное, что при загрузке mqh напрямую из jupyter notebook все работает нормально, меня это удивило

Понятно.. ну что-то с переносом в колаб не так значит.. пока не смотрел, занят уже другой статьей )
 
Maxim Dmitrievsky:
Понятно.. ну что-то с переносом в колаб не так значит.. пока не смотрел, занят уже другой статьей )

сделал запись моего экрана, так в колабе загружаю cat_model.mqh 


 
Evgeni Gavrilovi:

сделал запись моего экрана, так в колабе загружаю cat_model.mqh 


А при сохранении файла на компе и в колабе настройки look_back и список с МАшками совпадают? Должно быть одинаково, иначе неправильное кол-во признаков сохранится в модель и будет ошибка выхода за пределы массива, как у вас
 
Maxim Dmitrievsky:
А при сохранении файла на компе и в колабе настройки look_back и список с МАшками совпадают? Должно быть одинаково, иначе неправильное кол-во признаков сохранится в модель и будет ошибка выхода за пределы массива, как у вас

да, полное совпадение. 

дело в том, что без функции get_prices запись с ошибкой, возможно проблема в тестовом файле?

там количество дней в 2 раза больше, по сравнению с тестовым, в тесте последние 6 месяцев, а трейнинг только за последние 3 месяца

 
Evgeni Gavrilovi:

да, полное совпадение. 

дело в том, что без функции get_prices запись с ошибкой, возможно проблема в тестовом файле?

там количество дней в 2 раза больше, по сравнению с тестовым, в тесте последние 6 месяцев, а трейнинг только за последние 3 месяца

Нет, я думаю причина в парсере. Где-то неправильно проставляется кол-во признаков, при сохранении модели. Т.е. она учится на одном кол-ве, а парсер сохраняет другое. Разберёмся попозже. Просто времени пока нет ковырять.
 
Maxim Dmitrievsky:
Нет, я думаю причина в парсере. Где-то неправильно проставляется кол-во признаков, при сохранении модели. Т.е. она учится на одном кол-ве, а парсер сохраняет другое. Разберёмся попозже. Просто времени пока нет ковырять.

ладно)

 

Решил вопрос с загрузкой данных в colab путем перебора всех вариантов.

Нужно прямо в функции get_prices прописать pr = pd.read_csv('file.csv', sep=';') а потом вернуть это значение return pr.dropna()

 

Прикрутил случайный лес. Начинает стабильно работать с 10000 семплов, и 100 деревьев. 

  

 
welimorn:

Прикрутил случайный лес. Начинает стабильно работать с 10000 семплов, и 100 деревьев. 

  

Любопытный подход. Для балансировки классов. Можно как-то обыграть для наших целей. Просто попалось на глаза.

https://towardsdatascience.com/augmenting-categorical-datasets-with-synthetic-data-for-machine-learning-a25095d6d7c8

Augmenting categorical datasets with synthetic data for machine learning.
Augmenting categorical datasets with synthetic data for machine learning.
  • Egor Korneev
  • towardsdatascience.com
Consider a hypothetical but common scenario. You need to build a classifier to assign a sample to a opulation group. You have a sizable training dataset of one million samples. It has been cleaned, prepared and labeled. The few continuous variables are already normalized, and categorical variables, representing the majority of features, are...
 
Maxim Dmitrievsky:

Кароч не знаю, может у меня не такой gmm )) Но я не вижу разницы что с ним что без него, по моему все решает целевая и больше ничего...


всего данных у меня 60к

беру первые 10к и рендомно выбираю из них 500 точек 

на них обучаю либо сразу модель  либо обучаю gmm и потом обучаю модель 

тестирую на оставшихся  50к

 

И даже обычным способом можно находить такие модели  как и с     gmm , и с такой же частотой они гененрируються

вот например 

модель  без  gmm обучена по 500 точкам , тест на 50к 


=================================================================================================

Увидел интересную вещь над которой есть смысл подумать...

Есть такая точка зрения что рынок надо разбить на состояния и торговать в каждом состоянии свою стратегию, но все известные мне попытки были без успешными, либо состояния не виделить либо модель торгует плохо даже в "типа одном" состоянии

  А вот в этом подходе довольно четко видно какой рынок модель "любит" , а какой нет

Наверное из- за ретурнов от машки в качестве признаков  модель лучше работает во флете

Причина обращения: