Обсуждение статьи "Оценка и выбор переменных для моделей машинного обучения"

 

Опубликована статья Оценка и выбор переменных для моделей машинного обучения:

В статье будут рассмотрены особенности выбора, предподготовки и оценки входных переменных для использования в моделях машинного обучения. Будут рассмотрены множественные методы нормализации и их особенности. Будут указаны важные моменты этого процесса, сильно влияющие на конечный результат обучения моделей. Рассмотрим и оценим новые и малоизвестные методы определения информативности входных данных и визуализации их.

С помощью пакета "RandomUniformForests" вычислим и рассмотрим понятие важности переменной на различных уровнях и в различных сочетаниях, соответствие предикторов и целевой, а также взаимодействие между предикторами, выбор оптимального набора предикторов с учетом всех аспектов важности.

С помощью пакета "RoughSets" рассмотрим эту же проблему выбора предикторов под другим углом и на основании другой концепции. Покажем, что не только набор предикторов может быть оптимальным, но и набор примеров для обучения тоже может быть оптимизирован.

Все расчеты и эксперименты будут проводиться на языке R, конкретнее на Revolution R Open 3.2.1 .

OOB error

Рис. 2. Ошибка обучения в зависимости от количества деревьев

Автор: Vladimir Perervenko

 

Мои поздравления!

Фактически справочник по данной тематике, основанный на последних имеющихся инструментах в этой области. Каждый может повторить, все бесплатно, поддерживается, развивается, документируется...

Уважуха и риспект! 

 
СанСаныч Фоменко:

Мои поздравления!

Фактически справочник по данной тематике, основанный на последних имеющихся инструментах в этой области. Каждый может повторить, все бесплатно, поддерживается, развивается, документируется...

Уважуха и риспект! 

Приветствую СанСаныч.

Из всех ранее перепробованых вариантов выбора предикторов этот наиболее понятен и подробен.

Удачи

 
Да! Да! Присоединяюсь к Сан Санычу. Моя благодарность! Тема глубокого обучения со всеми связанными нюансами актуальна, перспективна. Мне, как человеку, не обладающему слишком глубокими математическими знаниями, информация такого рода в системной, максимально доступной форме, с взможностью углубиться в те или иные моменты - очень необходима. Ещё раз спасибо!
 
Не хочу показаться невеждой и нисколько не умаляю заслуг автора, он однозначно молодец, но неужели это всё помогает зарабатывать ?
 
Alexey Oreshkin:
Не хочу показаться невеждой и нисколько не умаляю заслуг автора, он однозначно молодец, но неужели это всё помогает зарабатывать ?

Смотря кому. 

Одиноким соискателям миллионов с затратами пару недель? Нет, бесполезно.

Людям, которые трейдингом зарабатывают на жизнь и понимают, что на приличный советник требуется несколько лет? Да. И здесь очень важно идти по правильной тропе, а не блуждать по лесу ...

ПС.

А с помощью какого инструментария зарабатывают профессиональные участники рынка ценных бумаг? Не уж-то с помощью ТА? Ведь весь ТА в ВУЗах преподается за две недели с зачетом. А профессиональные участники рынка ценных бумаг комплектуются выпускниками с дипломами "Статистика", "Эконометрика, "Искусственный интеллект" ..... И для них обсуждаемая статья совершенно понятная вещь, хотя и во многом новая. 

 

ПСПС.

Пишу не для того, чтобы отпугнуть. Не будем ровняться на какой-нибудь Мэррил Линч со 100 000 сотрудников, торгующими на всех рынках по всем инструментам.

Речь об очень ограниченных ТС: пару моделей, с десяток инструментов. И реально добиться доходности свыше 20% в месяц.

Вот план. 

Ставим R. Далее, берем RAttle. Это доступно любому, кто написал самостоятельно самый простой советник.  Час работы. С помощью экселя готовим исходный файл. После этого с помощью Rattle становится доступно 6 очень приличных моделей, три из которых (ada, random forest, SVM) весьма перспективны и по своим возможностям намного превосходят любые варианты с индикаторам и в частности нейросетки (тоже имеется в Rattle и можно сравнить). 

А дальше начинается нудная работа, во многом содержательная по перелопачиванию перечня входных данных. Это на все рамках экселя, а оценка результатов в Rattle.  Как только это освоено, вы в теме и на правильном пути.  

А в ТА.... Написали советник, вроде приносит прибыль.... А потом обязательно протух и большое счастье, если трейдер недоверчивый и додумался бросить его до того как этот его очередной "грааль"  слил депо... И так всю жизнь. Опыт не накапливается - теоретически невозможно. 

 

Вот план. 

Ставим R. Далее, берем RAttle. Это доступно любому, кто написал самостоятельно самый простой советник.  Час работы. С помощью экселя готовим исходный файл. После этого с помощью Rattle становится доступно 6 очень приличных моделей, три из которых (ada, random forest, SVM) весьма перспективны и по своим возможностям намного превосходят любые варианты с индикаторам и в частности нейросетки (тоже имеется в Rattle и можно сравнить). 

Это разве даст деньги ? Тогда самыми богатыми и успешным трейдерами были бы математики. Поиск мифических закономерностей в нестационарном ряду это аналог подбрасывания монетки.

 

"Поиск мифических закономерностей в нестационарном ряду это аналог подбрасывания монетки."

Это нужно занести в аналы как самое высокомерное из самых глупых утверждений.

А этот вопрос:"Это разве даст деньги ?" говорит об уровне подготовки .

Вот уж действительно: "Ум человеческий ограничен, глупость беспредельна".

 
Alexey Oreshkin:

Поиск мифических закономерностей в нестационарном ряду это аналог подбрасывания монетки.

Да уж. Ламерам неведомо, что исходы подбрасываемой монетки заведомо стационарны. Если она конечно же не из пластилина сделана, т.е. в течении продолжительного времени не меняет свою форму. Однако, дураков, которые предоставят возможность заработать на таких стационарных процессах, надобно ещё сыскать.
 
В общем, всем идти учитьть статанализ, в любом случае лишним не будет :) Но проблема останется - какие данные на вход подавать, да и на выход тоже :)
 
Maxim Dmitrievsky:
В общем, всем идти учитьть статанализ, в любом случае лишним не будет :) Но проблема останется - какие данные на вход подавать, да и на выход тоже :)

Это никогда лишним не будет. Но причём тут вход и выход если даже в этой теме, в обсуждениях, предлагают использовать 6 очень приличных моделей. Приличные они из каких соображений ? Чтобы предсказать потребление теплотрафика - вот для этого может быть и приличных. А при чём тут рынок ?

я не осуждаю, и уж тем более не спорю с таким подходом к зарабатыванию денег. Для меня это просто интерес и дискуссия, не более. А уж всяким ламерам  которые давным давно насоздавали свои сверхумные нейросетки ...а воз и ныне там.... с такими даже не интересно говорить. 

Причина обращения: