Есть ли закономерность в хаосе? Попробуем поискать! Машинное обучение на примере конкретной выборки. - страница 7

 
Aleksey Vyazmikin #:
Могу сказать, какие предикторы использовала одна из моделей - проверите, успешно ли обучитесь (почти не сомневаюсь) - надо?

Можно номера столбцов через запятую. Интересно сравнить.

 
elibrarius #:

Можно номера столбцов через запятую. Интересно сравнить.

Первый столбец - нулевой или "1"? :)

Вот с нуля отсчет

1,225,345,625,702,725,779,798,841,1104,1118,1268,1337,1357,1639,1737,1922,1937,2027,2043,2125,2239,2354,2474,2475,2507,2796,2816,2953,3012,3207,3228,3378,3671,3717,3726,3734,3864,3927,3982,4522,4560,5007,5029,5129,5313,5359,5548
 

Вот ещё вариант - нравится даже больше, так как на всех выборках стабильный результат.

606,1048,1060,1083,1095,1103,1108,1110,1137,1198,1347,1353,1511,1525,1526,2055,2581,2582,3078,3153,3273,3341,3676,3690,3695,3839,3919,3967,4397,4433,5052,5364,5579



Баланс

 
Aleksey Vyazmikin #:

Первый столбец - нулевой или "1"? :)

Вот с нуля отсчет

У меня с 0. Завтра попробую обучить.
 
elibrarius #:
У меня с 0. Завтра попробую обучить.

Должно получиться - предикторов мало. Хотя, для отсева я использовал свой метод, создав принудительные квантовые таблицы, а потом уже из них алгоритм сделал отбор.

Вопрос тут в том, как можно определить признаки предиктора, что бы научиться их отбирать до начала обучения...

 
Aleksey Vyazmikin:

Есть ли закономерность в хаосе?


Сама постановка вопроса - ошибочна!   Само определение "ХАОС" - это состояние, где закономерности ОТСУТСТВУЮТ...

Начинать нужно не с ХАОСА, а с поиска состояния, похожего на РЫНОК!

И это будет не хаос, а некоторое промежуточное состояние между хаосом и упорядоченными данными...

А искать закономерности в хаосе - это глупость... ( читайте определение "хаоса" )...

 
Рынок - это полный хаос, но в нём нужно уметь увидеть систему. А точнее загнать рынок в прокрустово ложе системы.
 
webgopnik #:
Рынок - это полный хаос, но в нём нужно уметь увидеть систему. А точнее загнать рынок в прокрустово ложе системы.

Это смахивает на выражение: "Сделать из говна конфетку!" - народная мудрость...


На самом деле все строго НАОБОРОТ:  Рынок - это СИСТЕМА!  И нужно излечить мозги от хаоса, чтобы разобраться в этой системе...

 
Aleksey Vyazmikin #:

Должно получиться - предикторов мало. Хотя, для отсева я использовал свой метод, создав принудительные квантовые таблицы, а потом уже из них алгоритм сделал отбор.

Вопрос тут в том, как можно определить признаки предиктора, что бы научиться их отбирать до начала обучения...

Кстати, ваши данные - реально можно к Биг Дата отнести...

250 миллионов ячеек в таблице.

Сколько по времени катбуст 1 модель обучает на полном датасете?

 
elibrarius #:

Кстати, ваши данные - реально можно к Биг Дата отнести...

250 миллионов ячеек в таблице.

Да, данных много, и я планирую ещё добавлять - поэтому требуется развитие методики отсева до начала обучения.

elibrarius #:

Сколько по времени катбуст 1 модель обучает на полном датасете?

Как раз сейчас обучаю, и скажу, что многое зависит от настроек, особенно от числа сплитов в квантовых таблицах.

Как раз запустил эксперимент, где обучение идет с параметрами по умолчанию на видеокарте - один проход, без учета оценки модели и теста на выборке exam, занимает 2-3 минуты - в зависимости от получившегося числа деревьев в модели. На моем, уже довольно устаревшем процессоре FX-8350, примерно на 60% медленней получается.

Считаю, что скорость вполне приемлемая, я обычно обучаю 100 моделей с фиксированным seed, что бы усреднить эффективность метода.

Если обучать до "упора", то там программа оценивает время до 2х часов.

Причина обращения: