Попробуйте прогнать ваши входные данные на моей сети, чтобы уменьшить кол-во наборов в обучающей выборке.

Neutron 2009.06.22 14:46 #801

Ты, при таком округлении, не забудь в распределении, число значений равных нулю поделить на 2.

paralocus 2009.06.22 15:10 #802

Да, понял(+/-0)

Vladimir 2009.06.22 16:28 #803

Neutron >>:

Дело в том, что я набираю статистику не для одной и той-же обучающей выборки, а последовательно сдвигаясь на каждом цикле на один отсчёт. Поэтому, результаты обучения не совпадают между собой. Уж не помню, зачем я так сделал, но сути это не меняет. Видимо, я хотел таким образом зацепить квазистационарность процессов на рынке и отразить их влияние на скорость обучения.

Вот, как выглядяят результаты для усреднения по 10 экспериментам, на одной и той-же обучающей выборке (рис. слева):

Видно, что для весов с нулевой стартовой инициализацией, статистического разброса нет.

Рис. справа построен для архитектуры сети с 12 входами, 5 нейронами в скрытом слое и 1 нейроном на выходе и с обучающей выборкой 120 отсчётов, т.е. дублирует ваш случай. Статистика набиралась по 50 независимым численным экспериментам. Тоже, всё работает корректно.

Да нет, я использовал в качестве входных данных первую разность цен открытия (думал, что по контексту, это ясно). Понятно, что средняя равна нулю. Прогнозировал амплитуду и знак следующей разности.

Что касается теоремы, то она мне понравилась. Но, отношения к нашим сетям имеет в качестве частного случая!

Вы доказали вырожеденный случай для длины обучающей выборки стремящейся в бесконечность. Действительно, в этом случае, для вектора входных данных представляющих собой СВ с нулевым МО, мы получим нулевые веса - лучший прогноз на завтра для интегрированной СВ, это текущее значение сегодня! Но, стоит только взять обучающюю выборку конечной длины, как натренированные веса будут стремится к равновесным, минимизирующим квадрат ошибки. В качестве примера, подтверждающим это утверждение, возмите случай для СЛАУ (та же НС). В этом случае, веса определены однозначно, ошибка обучения на обучающей выборке тождественно равна нулю (число неизвестных равно числу уравнений) и веса (коэффициенты при неизвестных), очевидно, не равны нулю.

Согласен с вашим коментарием по моей теореме. Действительно уменьшение кол-ва наборов в обучающей выборке будет отклонять веса от нулей. Но считаю что теорема применима к сетям по той причине что для вычисления корреляции не нужно использовать бесконечное количесво обучающих наборов. Статистические среднии R(m)=E{x[i]x[i+m]} вычисляются как суммы sum(x[i]x[i+m]) по имеющимся данным. Теорема значительна тем что она показывает что сеть будет иметь предсказательную силу только если эти суммы (корреляции) существенно отличны от нуля иначе веса будут сходится к нулям. Поэтому нахождение обучающих данных с ненулевой корреляцией между входами и выходом очень важно. Те входы, для которых такая корреляция мала, можно отбрасывать так как они не помогут сети в предсказаниях.

Ваша ошибка обучения на приведённых графиках как я понял не делится не на 2 не на кол-во наборов. Правильно? Мне хотелось бы прогнать ваши входные данные на моей сети чтобы удостовериться что всё работает нормально. Не могли бы вы сохранить их в файле в том виде в котором они подаются на входы и выходы сети, и поставить здесь. Вы можете использовать вашу сеть 5-4-1 с 40 выборками чтобы уменьшить кол-во данных.

Машинное обучение в трейдинге: "Новый нейронный" - проект Нейронная сеть - вход

paralocus 2009.06.22 17:28 #804

Распределения плеч каги построения и ряда транзакций для разных Н

1. Н = 1(один спред)

2. Н = 4

3. Н = 15

Vladimir 2009.06.22 17:49 #805

gpwr >>:

Согласен с вашим коментарием по моей теореме. Действительно уменьшение кол-ва наборов в обучающей выборке будет отклонять веса от нулей. Но считаю что теорема применима к сетям по той причине что для вычисления корреляции не нужно использовать бесконечное количесво обучающих наборов. Статистические среднии R(m)=E{x[i]x[i+m]} вычисляются как суммы sum(x[i]x[i+m]) по имеющимся данным. Теорема значительна тем что она показывает что сеть будет иметь предсказательную силу только если эти суммы (корреляции) существенно отличны от нуля иначе веса будут сходится к нулям. Поэтому нахождение обучающих данных с ненулевой корреляцией между входами и выходом очень важно. Те входы, для которых такая корреляция мала, можно отбрасывать так как они не помогут сети в предсказаниях.

Ваша ошибка обучения на приведённых графиках как я понял не делится не на 2 не на кол-во наборов. Правильно? Мне хотелось бы прогнать ваши входные данные на моей сети чтобы удостовериться что всё работает нормально. Не могли бы вы сохранить их в файле в том виде в котором они подаются на входы и выходы сети, и поставить здесь. Вы можете использовать вашу сеть 5-4-1 с 40 выборками чтобы уменьшить кол-во данных.

Увеличил кол-во эпох до 1000 и подкрутил параметры iProp+ чтобы шаг веса не угасал быстро. Также удалил деление ошибки обучения на 2*Кол-во эпох. Получил более приятный результат близкий к Neutron. Ошибка обучения при случайных весах в 2-3 раза меньше чем при нулевых весах, что свидетельствует о присутствии корреляции между входами и выходом. Но всё равно не нравится что с 4 по 70 эпохи ошибка обучения почти не изменяется. Надо улучшать алгоритм обучения. Хотя большинство коммерческих НС пакетов используют iProp+ так что я доверяю этому алгоритму. Остаются медленные и сложные ML и BFGS.

Индикаторы: Предсказатель на основе Использование искусственного интеллекта в Машинное обучение в трейдинге:

paralocus 2009.06.22 17:49 #806

gpwr >>:

Согласен с вашим коментарием по моей теореме.

Раз вы так дружите с математикой, то не попробовать ли вам доказать еще одну теорему об оптимуме размерности входа сети на рыночных ВР(лучше не ВР, а рядя транзакций по каги ) - вот действительно нужная вещь!

Любые вопросы новичков по Вопросы для коротких ответов. Является ли финансовый временный

Vladimir 2009.06.22 17:52 #807

paralocus >>:

Раз вы так дружите с математикой, то не попробовать ли вам доказать еще одну теорему об оптимуме размерности входа сети на рыночных ВР(лучше не ВР, а рядя транзакций по каги ) - вот действительно нужная вещь!

Попробую.

Neutron 2009.06.22 18:29 #808

gpwr писал(а) >>

Согласен с вашим коментарием по моей теореме. Действительно уменьшение кол-ва наборов в обучающей выборке будет отклонять веса от нулей. Но считаю что теорема применима к сетям по той причине что для вычисления корреляции не нужно использовать бесконечное количесво обучающих наборов. Статистические среднии R(m)=E{x[i]x[i+m]} вычисляются как суммы sum(x[i]x[i+m]) по имеющимся данным. Теорема значительна тем что она показывает что сеть будет иметь предсказательную силу только если эти суммы (корреляции) существенно отличны от нуля иначе веса будут сходится к нулям. Поэтому нахождение обучающих данных с ненулевой корреляцией между входами и выходом очень важно. Те входы, для которых такая корреляция мала, можно отбрасывать так как они не помогут сети в предсказаниях.

Существует ещё нелинейная корреляция между отсчётами. Её как раз и отлавливает двуслоная нелинейная НС и не отлавливает линейный дискриминатор, предельную теорему для которого вы и доказали.

Ваша ошибка обучения на приведённых графиках как я понял не делится не на 2 не на кол-во наборов. Правильно? Мне хотелось бы прогнать ваши входные данные на моей сети чтобы удостовериться что всё работает нормально. Не могли бы вы сохранить их в файле в том виде в котором они подаются на входы и выходы сети, и поставить здесь. Вы можете использовать вашу сеть 5-4-1 с 40 выборками чтобы уменьшить кол-во данных.

Ниже, прицеплен файл с входными данными, которые использовал я.

Файлы:

dif.zip 14 kb

Как практически оценить вклад Краевой эффект на пути Использование Нейронных сетей в

Vladimir 2009.06.22 19:29 #809

Neutron >>:

Существует ещё нелинейная корреляция между отсчётами. Её как раз и отлавливает двуслоная нелинейная НС и не отлавливает линейный дискриминатор, предельную теорему для которого вы и доказали.

Ниже, прицеплен файл с входными данными, которые использовал я.

Спасибо. О нелинейной корреляции можно много говорить. Немного погодя изложу свои мысли по ней. А пока меня заинтриговал ваш интересный вывод по поводу "девушки - зубрилы". Тот факт что недаученная сеть ("девушка - троичница") показывает более точные предсказания на out-of-sample данных меня настораживает. Дисперсия недаученного состояния намного превышает дисперсию наученного состояния. И если наученное состояние - это глобальный минимум энтропии (квадрата ошибки), то дисперсия такого состояния ноль, так как существует только один глобальный минимум. Так как разных недученных состояний сети очень много то и разных предсказаний будет много для одних и тех же входных данных. Это видно по вашим графикам. В общем, интересный но настораживающий вывод.

Обсуждение статьи "Возможности Мастера Предсказание рынка на основе Машинное обучение в трейдинге:

Neutron 2009.06.23 06:10 #810

Тут у меня самого полного понимания нет.

Согласно утверждению (Ежов Александр Александрович, Шумский Сергей Александрович "Нейрокомпьютинг"), существует оптимальная длина, на которой минимизируется ошибка обобщения Popt=w^2/d, где d - размерность входа НС, w - число всех настраиваемых параметров НС. Так вот, с этой точки зрения, НС является переобученной, если P<Popt НС "запоминает" обучающую выборку. Вариант P>Popt тоже не хорош, т.к. на большей длине, больше вероятность смены рыночной тенденции, что равносильно уменьшению корреляций между отсчётами.

С другой стороны, НС можно "перетаскать" на завышеном числе обучающих эпох и, как следствие, ошибка обобщения начнёт вновь расти, или не дотаскать... Вобщем, тут нужно проводить численные эксперименты с набором статистики, что само по себе очень ресрсоёмко! Но, это необходимо проделать. Существенно облегчит положение, доказательство вышеприведённого учловия для оптимальной длины обучающего вектора. gpwr, есть желание повозиться?

Как не "перетренировать" НС Как правильно сформировать входные Нейросети,как их освоить с

Рыночный этикет или правила хорошего тона на минном поле - страница 81