Есть ли закономерность в хаосе? Попробуем поискать! Машинное обучение на примере конкретной выборки. - страница 19

 

Прибыль равна дельте движения цены от некоторой точки времени.

Ничего пока не удивляет.

Длинные хвосты мы уже проходили ....

 
Renat Akhtyamov #:

Прибыль равна дельте движения цены от некоторой точки времени.

Ничего пока не удивляет.

Длинные хвосты мы уже проходили ....

Вы вообще сейчас к чему это написали? Ну право, нельзя использовать любую тему для пометок на полях своих мыслей...

 
Aleksey Vyazmikin #:

Как видно из рисунка 13, что предикторы используются почти все из имеющихся, за исключением одного, но я сомневаюсь, что в нём кроется корень зла. Значит дело не столько в использовании, сколько в последовательности использования при построении модели?

Да, так и есть. Если при одних и тех же предикторах обучить 2 модели, но у одной первый сплит будет по одному предиктору, у другой по другому, то всё нижележащее дерево у каждого варианта будет совсем не похожим.

Вопрос в другом - почему бустинг при одинаковом наборе данных делает первые сплиты разными? Коэффициент для количества столбцов !=1 как у леса? В лесе это для рандомности. Но вроде он должен быть ==1.
Тогда другой вариант: разные Seed у моделей? Попробуйте с одинаковым, если результат будет одинаков, то думаю это очень плохо, что seed может прибыльную модель сделать убыточной.

 
Кстати, что в Катбусте Seed рандомизирует?
 
Aleksey Vyazmikin #:

Вы вообще сейчас к чему это написали? Ну право, нельзя использовать любую тему для пометок на полях своих мыслей...

про Ваши графики написано

 
elibrarius #:

Да, так и есть. Если при одних и тех же предикторах обучить 2 модели, но у одной первый сплит будет по одному предиктору, у другой по другому, то всё нижележащее дерево у каждого варианта будет совсем не похожим.

Что ещё раз доказывает ущербность метода жадности при выборе сплитов. Сам экспериментировал с этим, когда листья отбирал и пришел к такому же выводу.

elibrarius #:

Вопрос в другом - почему бустинг при одинаковом наборе данных делает первые сплиты разными? Коэффициент для количества столбцов !=1 как у леса? В лесе это для рандомности. Но вроде он должен быть ==1.

Как я понял, тут есть аналог для выбора части столбцов для оценки, но у меня стоит принудительное использование всех.

elibrarius #:

Тогда другой вариант: разные Seed у моделей? Попробуйте с одинаковым, если результат будет одинаков, то думаю это очень плохо, что seed может прибыльную модель сделать убыточной.

Seed фиксирует результат, т.е. все будет одинаково.

elibrarius #:
Кстати, что в Катбусте Seed рандомизирует?

Как я понимаю, он устанавливает в определенное значение счетчик генератора случайных чисел, а вот этот генератор используется минимум как пишут "есть рандомизация метрики, по которой выбирается лучшее дерево." и там вроде как используется генератор случайных чисел плюс коэффициент, который, как я понимаю, берется из параметра --random-strength (стоит 1 у меня).

Вот формула:

Score += random_strength *  Rand (0, lenofgrad * q) 

q — множитель, уменьшающийся при увеличении итерации. Таким образом, рандом уменьшается ближе к концу.

"

Но там же пишут, что для построения дерева может браться подвыборка, но я использую режим для полного применения выборки "--boosting-type Plain".


Ещё наблюдается такой эффект, если я убираю столбцы после обучения, которые не использует модель, то уже не могу с тем же Seed получить модель - что не понятно.

 
Renat Akhtyamov #:

про Ваши графики написано

Как к этим графикам относится " Прибыль равна дельте движения цены от некоторой точки времени. " ?

И эта фраза тогда "Длинные хвосты мы уже проходили ...." должна мной восприниматься, что я предлагаю Вам обучение в какой либо форме? Но я этого не делаю, а хвосты тут на форуме обычно употребляются при модели плотности распределения изменения цены - совсем не то, что у меня на гистограмме. И скорей тут надо говорить не о рисках, а о том, что модель случайно построить сложней, чем если понимать структуру значимости предикторов и их зависимости.

 
Aleksey Vyazmikin #:

Как к этим графикам относится " Прибыль равна дельте движения цены от некоторой точки времени. " ?

И эта фраза тогда "Длинные хвосты мы уже проходили ...." должна мной восприниматься, что я предлагаю Вам обучение в какой либо форме? Но я этого не делаю, а хвосты тут на форуме обычно употребляются при модели плотности распределения изменения цены - совсем не то, что у меня на гистограмме. И скорей тут надо говорить не о рисках, а о том, что модель случайно построить сложней, чем если понимать структуру значимости предикторов и их зависимости.

я ответил о том, что в хаосе закономерность есть

это как раз такого рода гистограммы, независимо от того, используя какую логику/подход/формулу/теорию и т.д. Вы применили и других закономерностей Вы не найдете

 
Aleksey Vyazmikin #:

Что ещё раз доказывает ущербность метода жадности при выборе сплитов. Сам экспериментировал с этим, когда листья отбирал и пришел к такому же выводу.

А как без жадности? Расчитывать для каждого сплита еще один и выбирать сразу пару, но в вашем случае длительность расчетов в 5000+ раз возрастет. Проще сотню моделей усреднить.

Как я понял, тут есть аналог для выбора части столбцов для оценки, но у меня стоит принудительное использование всех.

Но там же пишут, что для построения дерева может браться подвыборка, но я использую режим для полного применения выборки "--boosting-type Plain".

Для уменьшения влияния рандома это правильно. Иначе надо как в лесе делать усреднение 20-100 моделей.

Aleksey Vyazmikin #:

Как я понимаю, он устанавливает в определенное значение счетчик генератора случайных чисел, а вот этот генератор используется минимум как пишут "есть рандомизация метрики, по которой выбирается лучшее дерево." и там вроде как используется генератор случайных чисел плюс коэффициент, который, как я понимаю, берется из параметра --random-strength (стоит 1 у меня).

Вот формула:

Score += random_strength *  Rand (0, lenofgrad * q) 

q — множитель, уменьшающийся при увеличении итерации. Таким образом, рандом уменьшается ближе к концу.

Т.е. получается, что уточняющие деревья могут быть не лучшими, а рандомно хуже.
Отсюда и разброс в моделях от сливных к прибыльным.
Судя по графикам распределения, сливных моделей больше, т.е. если усреднять, то средний результат будет убыточным.



Может random-strength = 0 попробовать? Надеюсь изменения Seed после этого перестанут менять модель.  Возможно создаст модель с лучшими уточняющими деревьями, а не рандомно нелучшими. Если лучшая модель будет сливной, то искать на этих данных из 10000 рандомных моделей случайно лучшую - путь к сливу на реале.

Либо все же усреднять несколько случайно выбранных моделей, как в лесе. Т.к. лучшая может быть переобучена.

 
Renat Akhtyamov #:

я ответил о том, что в хаосе закономерность есть

это как раз такого рода гистограммы, независимо от того, используя какую логику/подход/формулу/теорию и т.д. Вы применили и других закономерностей Вы не найдете

И как это понимать - закономерность есть, но вы не найдете её? Или закономерность в случайности?

Причина обращения: