Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 22

 
Сам не рад такому, это временно. Научусь подбирать параметры индикаторов - выберусь с D1 на периоды помельче - смогу получить гораздо больше наблюдений за тот-же интервал времени.
 
 Всем привет! если кому интересно расскажу про свои исследования..

По поводу затеи с кластеризацыей ничего не вышло, склеев куски из одного кластера никакой однородности не было замечено, почему не знаю.., просто рандом какой то,  нужно использовать какие то более четкие и менее грубые методы не такие как евклидова близость, думаю нужно изучать спектральный анализ с частотами, амплитудами и фазами думаю Фурье подойдет, так что если тут есть кто то кто разбирается в этой теме , буду рад общению, даже не так! скорей ищу учителя!! так что эта тема пока притормажываеться

 ====================================

 Далее по иследованиях с RF .

Игрался я как то с настройками самой модели RF  то есть с количеством разбиений и кол. лесов и тут на очередной пробе моя модель очень хорошо обучилась, ловила большую часть искомых движений, прибыль на новых данных росла очень стабильно, где то даже експоненцыально , я решил еще раз обучить туже модель с теми же параметрами, сохранить ту первую хорошую модель ума у меня не хватило((, и вот обучил я заново и получил очень средненький результат, потом весь вечер переобучал модель(где то раз 100) в надежде найти теже параметры но увы максимум что удавалось получить это треть от результата той первой модели

 Вопрос : что это вообще было? переобучение которое получилось рандомно или модель поймала какую то сильную зависимость в данных, как к этому вообще относиться по вашему опыту?  Можно ли как то заново найти эти параметры? каким способом?

 Все результаты о которых я говорил были получены на новых данных, ранее модели не известных

всего данных 55 000
тренировка на 35 000
проверка на 20 000
данные фючерс РТС , ТФ - 5мин 
 
mytarmailS:

 ====================================

 Далее по иследованиях с RF .


 Вопрос : что это вообще было? переобучение которое получилось рандомно или модель поймала какую то сильную зависимость в данных, как к этому вообще относиться по вашему опыту?  Можно ли как то заново найти эти параметры? каким способом?

  

Не только забыть об этих данных, но и когда появится что-либо подобное, бежать как можно дальше.

ПС.

Надо чистить от шума исходный набор предикторов.  

Dr.Trader пробовал главные компоненты, но у него очень мало наблюдений. Попробуйте. Ссылки выше, Даже код выложен

 
СанСаныч Фоменко:

Не только забыть об этих данных, но и когда появится что-либо подобное, бежать как можно дальше.


почему? аргументируйте
 
mytarmailS:
 Всем привет! если кому интересно расскажу про свои исследования..

По поводу затеи с кластеризацыей ничего не вышло, склеев куски из одного кластера никакой однородности не было замечено, почему не знаю.., просто рандом какой то,  нужно использовать какие то более четкие и менее грубые методы не такие как евклидова близость, думаю нужно изучать спектральный анализ с частотами, амплитудами и фазами думаю Фурье подойдет, так что если тут есть кто то кто разбирается в этой теме , буду рад общению, даже не так! скорей ищу учителя!! так что эта тема пока притормажываеться

 ====================================

 Далее по иследованиях с RF .

Игрался я как то с настройками самой модели RF  то есть с количеством разбиений и кол. лесов и тут на очередной пробе моя модель очень хорошо обучилась, ловила большую часть искомых движений, прибыль на новых данных росла очень стабильно, где то даже експоненцыально , я решил еще раз обучить туже модель с теми же параметрами, сохранить ту первую хорошую модель ума у меня не хватило((, и вот обучил я заново и получил очень средненький результат, потом весь вечер переобучал модель(где то раз 100) в надежде найти теже параметры но увы максимум что удавалось получить это треть от результата той первой модели

 Вопрос : что это вообще было? переобучение которое получилось рандомно или модель поймала какую то сильную зависимость в данных, как к этому вообще относиться по вашему опыту?  Можно ли как то заново найти эти параметры? каким способом?

 Все результаты о которых я говорил были получены на новых данных, ранее модели не известных

всего данных 55 000
тренировка на 35 000
проверка на 20 000
данные фючерс РТС , ТФ - 5мин 

это была какая-то ошибка.

Чтобы этого избежать ведите лог эксперимента в таблице: все параметры обучения, если есть отбор входов, то лучшие входы, результат на обучении, результат на валидации. И будет вам счастье. 

 
mytarmailS:
почему? аргументируйте
Ниже и аргументировал
 

Ребята! помогите примером кода пожалуйста

 есть у нас допустим три вектора "А", "Б" , "С"

нужно построить всевозможные варианты разниц между ними в автоматическом режиме так как переменных таких много..

типа:

х1 = А - Б

х2 = А - С

х3 = С - Б 

 

и записать х1,х2,х3 в виде колонок в дата фрейм

 покажите кодом если не сложно

 
mytarmailS:

Ребята! помогите примером кода пожалуйста

 есть у нас допустим три вектора "А", "Б" , "С"

нужно построить всевозможные варианты разниц между ними в автоматическом режиме так как переменных таких много..

типа:

х1 = А - Б

х2 = А - С

х3 = С - Б 

 

и записать х1,х2,х3 в виде колонок в дата фрейм

 покажите кодом если не сложно

Рабочий вариант. Может быть не оптимальный:

sampleA <- as.data.frame(matrix(round(runif(n = 51000, min = 0, max = 1)), ncol = 51))


n <- ncol(sampleA) #your columns

differences <- list()
counter <- 1
for (i in 1:n){
        for (j in 1:n){
                differences[[counter]] <-       sampleA[, i] - sampleA[, j]
                counter <- counter + 1
        }
}

diff_data <- as.matrix(do.call(rbind.data.frame, differences))

diff_data_frame <- as.data.frame(t(diff_data))
 
Alexey Burnakov:

Рабочий вариант. Может быть не оптимальный:

Спасибо большое, а то я пока писал всевозможные комбинации с тремя свечами и 4 ихними ценами OHLC , три раза вспотел, столько кода
 
mytarmailS:
Спасибо большое, а то я пока писал всевозможные комбинации с тремя свечами и 4 ихними ценами OHLC , три раза вспотел, столько кода

А как сделать чтоб код не делал лишних колонок? например из 3 колонок в функции получается 9 комбинаций хотя на самом деле достаточно три штуки, ну как в моем примере вверху

ведь нет смысле делать А/Б и тут же Б/А

Причина обращения: