Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 111

 
Mihail Marchukajtes:
А вы всё пытаетесь обуздать рынок на минутках за 5 лет?????? Эти 71 наблюдений, две недели торгов на 5 минутках еслив что...... И только покупка. Так что дерзайте..... Или сдулись???
шо он городит... писец какой то
 
Dr.Trader:

Я уже говорил, эта метрика бесполезна.

Данные случайным образом делятся на 2 примерно равные части, после чего модель обучается только на первой части, и тестируется на обоих сразу. Обобщающая способность в ~75% означает что модель в конце правильно предсказывает 75% от вообще всех имеющихся в файле примеров.
Есть несколько вариантов как модель может достичь 75%:
1) Модель обучилась до точности в 100% на тех данных что были использованы для тренировки, и вообще не справилась с новыми данными из второй части файла, где получила 50% (тоже самое что подбрасывать монетку). В среднем будет как раз 75%. Это очень плохой вариант развития событий, и в торговле всё будет плохо.
2) Модель обучилась до точности в 75% на тренировочных данных, и показала те же 75% на тестовых данных, что в среднем опять 75%. В данной ситуации это самый лучший вариант развития событий, есть шанс что-то заработать.
3) Любой промежуточный вариант между этими двумя.

Ваш вариант скорее всего ближе к первому. Нужно очень сильно полагаться на удачу чтоб торговать с таким результатом, я полагаю что вы ещё не слили депозит только благодаря индикатору который у вас служит главным сигналом (секвента, или как там). Подозреваю что советник просто сделанный на одном этом инидкаторе даст результат не хуже чем индикатор + jPrediction

Откуда вы знаете как считается обощающая способность? Это известно Решетову. я так думаю что подсчёт идёт исключительно на тестовых данных, как он и говорил ранее...... Если бы класическая секвенда была бы работоспособной я бы предиктор не использовал, но увы... она сливная как и все. А вот дополнение классификатора вполне её улучшает. Ещё раз напишу что 71 наблюдения это работа ТС на протяжении двух недель на 5 минутках. Для такого таймфрейма это вполне приемлемый интервал. А крутить сетки за пол года или более это уже не мой удел. Я натренировал за 2 недели, заработал за день и был таков, а вы всё грааль ищите. И да, я тренирую модели каждый день. С утра. Благо время оптимизации сейчас ОЧЕНЬ даже приемлемое.....
 
mytarmailS:
шо он городит... писец какой то
Ну а что тебе не понятно???? Или это выше твоего понимания????
 
Mihail Marchukajtes:
Ну а что тебе не понятно???? Или это выше твоего понимания????

я тебя спрашиваю как ты меряешь обощ способность а ты мне про годы истории и еще чушь какую то...

ето знать необходимо что бы смоделировать такой же експеримент, я не могу мерять обощ способность у себя одним способом а ты у себя другим, но ты же понятия не имеешь как эту способность мерять , все что ты можешь ето  посмотреть циферки в  jPrediction , не имея ни малейшего понятия от куда и каким образом они берутся и потому когда тебе начинают задавать конкретные вопросы ты начинаешь городить чушь про годы истории и.т.п  так вот прекращай... пожалуйста...

 
mytarmailS:

я тебя спрашиваю как ты меряешь обощ способность а ты мне про годы истории и еще чушь какую то...

ето знать необходимо что бы смоделировать такой же експеримент, я не могу мерять обощ способность у себя одним способом а ты у себя другим, но ты же понятия не имеешь как эту способность мерять , все что ты можешь ето  посмотреть циферки в  jPrediction , не имея ни малейшего понятия от куда и каким образом они берутся и потому когда тебе начинают задавать конкретные вопросы ты начинаешь городить чушь про годы истории и.т.п  так вот прекращай... пожалуйста...

Я помоему уже объяснял что пользуюсь предиктором Решетова, как ОН меряет обобщающую способность, это вопросы к Юрию. нахрена ты мне задаёшь их я не понимаю. Спроси у него. Хотя он приводил формулы и в общих чертах я их помню, но не понимаю зачем ты меня спрашиваешь. Я тупо юзер его программы и не более.....
 
Mihail Marchukajtes:
я так думаю что подсчёт идёт исключительно на тестовых данных

Если именно так, то я рад, это гораздо лучше.

В любом случае, фронттест показывает результат гораздо лучше. Поделил ваш файл на 2 части (без перемешивания, просто по порядку), в первой части 50 строк, во второй 19. Таким образом jPrediction не имеет доступпа к примерам из второго файла, и это будут действительно новые для модели данные.

В итоге На втором файле JPrediction дал ответ только в 9 случаях. Правильно в 5 случаях, неправильно в 4. Точность около 50%, ничего хорошего в этом результате нету.

Файлы:
 
Dr.Trader:

Если именно так, то я рад, это гораздо лучше.

В любом случае, фронттест показывает результат гораздо лучше. Поделил ваш файл на 2 части (без перемешивания, просто по порядку), в первой части 50 строк, во второй 19. Таким образом jPrediction не имеет доступпа к примерам из второго файла, и это будут действительно новые для модели данные.

В итоге На втором файле JPrediction дал ответ только в 9 случаях. Правильно в 5 случаях, неправильно в 4. Точность около 50%, ничего хорошего в этом результате нету.

Согласен. Нужно работать над входными данными.....
 
Dr.Trader:

Если именно так, то я рад, это гораздо лучше.

В любом случае, фронттест показывает результат гораздо лучше. Поделил ваш файл на 2 части (без перемешивания, просто по порядку), в первой части 50 строк, во второй 19. Таким образом jPrediction не имеет доступпа к примерам из второго файла, и это будут действительно новые для модели данные.

В итоге На втором файле JPrediction дал ответ только в 9 случаях. Правильно в 5 случаях, неправильно в 4. Точность около 50%, ничего хорошего в этом результате нету.

 19, 50, кто больше. Возьмите любой пример из базы датасетов, где хотя бы сотни строк.

Для меня этот софт не подходит хотя бы потому, что я сам предпочту подобрать параметры и разбить данные. Но как entry level думаю будет интересен. 

 

Решетов!

Мое предложение остается в силе.

 
mytarmailS:

 Здравствуйте Юрий !

Есть вопросы )) по поводу последовательного поиска...

скажем есть у нас 10 предикторов

1, 2, 3, 4, 5, 6, 7, 8, 9, 10 

 зеленая группа предикторов это та группа которая показала самую лучшую обобщающую способность именно к этой группе будут прибавляться другие предикторы N+1

красная группа, ето группа которая показала себя немного хуже чем зеленая и она (красная) уже в переборах участвовать не будет, все переборы уже завязаны на зеленую группу 

Вопрос : что если после всех переборов с другими предикторами по одиночке N+1 окажется что в конечном итоге красная группа имеет больше обобщающей способности,  такое же вполне реально, или я что то недопонял   ????  поясните пожалуйста

Если хотите получить однозначный ответ не глядя на данные и алгоритмы, то Вам лучше всего обратиться к СанСанычу Фоменко т.к. он с умной рожицей на лице назидательно даст "точные и ценные" указания по любому вопросу, независимо от его неоднозначности.

А если хотите получить более точный ответ, то проведите А/B тестирование, т.е. в одном случае попробуйте приаттачивать к зелёным красные с чёрными, а во втором только чёрные. В каком варианте получится лучшая обобщающая способность по результатам опыта, тот и является наиболее правильным для Вашей задачи.

Суть в том, что результаты опыта всегда являются критериями истины.

К примеру, сегодня тестировал центрирование данных для jPrediction. Результаты оказались на разных выборках либо удручающими либо незначительно лучшими. Хотя для сетки с обратным распространением центрирование даёт заметное улучшение. Пришлось оставить линейное нормирование.

А если бы я не проводил A/B тестирования, а взял бы вместо опыта, "готовые знания" из какой нибудь книжонки или лекции по машинному обучению, либо спросил бы у какого нибудь всезнайки, то получил бы ответ о том, что центрирование якобы "лучше" линейного нормирования. Хотя опыт показывает, что это не для всех алгоритмов однозначно верно.

Вот такие пирожки.

Причина обращения: