Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1709

 
Aleksey Nikolayev:

На уровне единичных молекул ДНК неизбежны квантовые эффекты, которые по сути своей имеют вероятностную природу и принципиально не могут быть рассмотрены без теорвера и матстата. И на всех более высоких уровнях - вплоть до клинических испытаний лекарств - без этих наук не обойтись никак. Посему, методы вроде используемых в данном исследовании, ничуть не чужеродны биологии и даже привели к появлению термина in silico (по аналогии с in vivo и in vitro).

Да, я тоже заметил статью на Дзен про квантовые "флуктуации" ДНК, генерирующие его мутации. Безусловно, МО - это хороший инструмент во многих областях исследований. Но, лично я понял - МО, это не ИИ, и путать его с ним не нужно. ИИ будет искать абсолютное решение, а МО ищет частное. У них абсолютно разные методы работы и МО не "вырастет" в ИИ.  

 
добрый вечер,подскажите новичку-...


В случае приобретения советника(5 копий) будут ли доступны все последующие обновления?Будут ли они бесплатны для всех 5 копий?

 
Aleksey Nikolayev:

А вы что думаете про гегелевскую Абсолютную Идею?))

Не знаком или не помню :) я сейчас больше по христианству, разгадываю ребусы 
 
3565832:
добрый вечер,подскажите новичку-...


В случае приобретения советника(5 копий) будут ли доступны все последующие обновления?Будут ли они бесплатны для всех 5 копий?

Да
 
Maxim Dmitrievsky:
Не знаком или не помню :) я сейчас больше по христианству, разгадываю ребусы 

С Александром-Тоддлером создаёте учение о Граале?)

 
elibrarius:

Алексей, вы анализом листьев занимаетесь, видимо вы можете ответить... или кто-нибудь, кто знает.

Вот описание сплитов дерева глубиной до 2 из кабуста


Что означает "value"? Это ответ листа? Что означают отрицательные числа?

Если да, то что есть value для мультиклассовой классификации? Ниже сплиты одного из деревьев обученого по 3-м классам.
У каждого листа видим массив из 3-х значений value. Каков ответ? Наибольшее значение? Тогда зачем хранить избыточные два значения? Что означают отрицательные значения?

Интересно, что сумма трех value равна 0.

Да, в бинарной классификации это значение вероятности принадлежности к "основному" классу.

Мультиклассификацией в CatBoost не занимался, но думаю, что это вероятность принадлежности к конкретному классу.

Цифру необходимо преобразовывать для получения реального значения вероятности - существует логистическая функция.

Активировавшиеся листья в модели суммируется - поэтому, в том числе, знаки могут быть с разными знаками - это процесс балансировки, как раз его можно проредить после построения модели и откинуть мусорные листья и деревья.

 
Aleksey Vyazmikin:

Да, в бинарной классификации это значение вероятности принадлежности к "основному" классу.

Мультиклассификацией в CatBoost не занимался, но думаю, что это вероятность принадлежности к конкретному классу.

Цифру необходимо преобразовывать для получения реального значения вероятности - существует логистическая функция.

Активировавшиеся листья в модели суммируется - поэтому, в том числе, знаки могут быть с разными знаками - это процесс балансировки, как раз его можно проредить после построения модели и откинуть мусорные листья и деревья.

Спасибо. Примерно так и подумал.
Не совсем понимаю, как они это value расчитывают.
Для примера обучил 1 дерево глубиной 1:

    "left": {
      "value": -0.5202020202020202,
      "weight": 384
    },
    "right": {
      "value": -0.0019267822736030828,
      "weight": 507
    },
    "split": {
      "border": 12.587499618530273,
      "float_feature_index": 0,
      "split_index": 0,
      "split_type": "FloatFeature"
    }

При запросе ответа от дерева получаю:

cmodel.predict(X, prediction_type='RawFormulaVal') = -0.5202020202020202 - это value из описания листа

cmodel.predict_proba(X)=0.372805 - это вероятность класса 1
проверил по формуле
x1=-0.52020202
prob=math.exp(x1)/(1+math.exp(x1))=0.3728049958676699

посчитано правильно.

Всего в наборе данных 891 строка.

Посчитал количество вхождений 1 класса при
border  < 12.587499618

Всего нашлось 384 примера, что соответствует weighs из описания листа, из них 89 примеров класса 1.

Вероятность класса 1 должна быть
89 / 384 = 0,2317708

Но модель выдает вероятность 0.372805

Получается что там используется какой-то другой алгоритм получения вероятности.

 
elibrarius:

Получается что там используется какой-то другой алгоритм получения вероятности. 

Да, странные результаты. А не берут ли они вероятность с тестовой выборки, участвующей при обучении? Но, кажется что гдет ошибка.

А сколько всего в выборке единиц (строк целевой)?
 
Maxim Dmitrievsky:

Макс! напомни мне как называются эти модели...

1) Обучается модель 1

2) по предсказаниям на тестовых данных модели 1    обучается модель 2  итп..

стекинг ?

 
Aleksey Vyazmikin:

Да, странные результаты. А не берут ли они вероятность с тестовой выборки, участвующей при обучении? Но, кажется что гдет ошибка.

А сколько всего в выборке единиц (строк целевой)?
Тестовой выборки нет.
Всего в наборе данных 891 строка.

Думаю, что там используется одна из формул rms,rmse,cls или еще что-то. Главное, что результат сходится в точках 0%, 50% и 100%. А между ними изогнуто. Разделение по классам обычно по 50% делается, а в этом месте совпадение с обычной вероятностью есть. Так что решил оставить вопрос нерешенным.
Причина обращения: