Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2040

 
Rorschach:

День недели, день месяца, час, минута, ...то же для выхода..., продолжительность сделки в минутах, СЛ, ТП, результат +-1

У меня 8Гб памяти.

Как понял из ваших результатов, информация о входе вообще не учитывается. Странно, ведь целый класс систем основан на времени входа.

То есть 50% берется из дня закрытия сделки?

Вообще результат не странный - есть видимо дни, в которые чаще происходит смена тенденции или имеется флэт, соответственно безоткатное движение не бесконечно и в среднем оно заканчивается через некую величину пунктов, поэтому время удержание и ТП с СЛ попали. А вход по времени оказался не важен, так как не гарантирует безоткатное движение - это прогноз будущего - если бы его и искали - время входа для прибыльных сделок, то и нашли наибольшую вероятность. Вообще, если бы было больше предикторов, то может и вход по времени с кем то зафителся.

Процент тут скорей всего говорит лишь о том, на сколько высоко в дереве находится сплит с предиктором. Я с этим не разбирался. Вот описание через переводчик:

"

Индивидуальные значения важности для каждого из входных объектов (метод расчета значимости объектов по умолчанию для неранговых метрик).

Для каждого объекта изменение значений прогноза показывает, насколько в среднем изменяется прогноз при изменении значения объекта. Чем больше значение важности, тем больше в среднем будет изменение значения прогноза, если этот признак будет изменен.

"

 
Maxim Dmitrievsky:
Нельзя так фичи готовить. Диапазоны значений столбцов должны быть соизмеримы. Для категориальных делается ван хот

Почему Вы считаете время категориальным? Или о каких признаках речь?

 
Aleksey Vyazmikin:

Почему Вы считаете время категориальным? Или о каких признаках речь?

Где там время? Там день недели, день месяца, час дня, минута часа. Время это непрерывная величина, а здесь порядковые категории 
 
Aleksey Vyazmikin:

Кстати, а видели ли вы такой генератор, который случайным образом выдает число из массива без повторений - мне именно такой нужен.

Делаю так:

1) создаю массив индексов строк с длиной равной числу строк, заполняю его значениями от 0 до N строк

2) перемешиваю этот массив

RandomizeIdx(int &idx[], int rows) {//ссылка на массив и его длина
        int j = 0, c = 0;
        for (int r = 0; r<rows; r++) {//перебор train участка
                j = RandomInteger(rows);//номер строки с которой поменять 
                c = idx[r]; idx[r] = idx[j]; idx[j] = c;
        }
}

где RandomInteger() - любой вариант из тех ГСЧ

3) потом беру в цикле все подряд значения, этих индексов и по нему из основного массива нужную строку, она получается псевдо-случайной после перемешивания индексов
 

Кто то пробовал делать классификацию на оч. много классов ???   скажем 10к 

работает такое вообще? 

 
mytarmailS:

Кто то пробовал делать классификацию на оч. много классов ???   скажем 10к 

работает такое вообще? 

Деревья/леса/бустинги - могут. Но больше 3-х не пробовал, не было такой задачи.
 
elibrarius:
Деревья/леса/бустинги - могут. Но больше 3-х не пробовал, не было такой задачи.

леса зависли, недостаточно оперативы 

 
mytarmailS:

леса зависли, недостаточно оперативы 

меньше деревьев, меньше глубины, может и хватит, хотя бы просто протестировать
 
elibrarius:
меньше деревьев, меньше глубины, может и хватит, хотя бы просто протестировать
Или комп лучше) 
 
Maxim Dmitrievsky:
Где там время? Там день недели, день месяца, час дня, минута часа. Время это непрерывная величина, а здесь порядковые категории 

Это разве не интервалы времени?

Могу и с категориальными признаками обучить - проверим эффективность, какие столбы сделать категориальными - всё, что связано со временем?

Причина обращения: