Рыночный этикет или правила хорошего тона на минном поле - страница 81

 
Ты, при таком округлении, не забудь в распределении, число значений равных нулю поделить на 2.
 
Да, понял(+/-0)
 
Neutron >>:

Дело в том, что я набираю статистику не для одной и той-же обучающей выборки, а последовательно сдвигаясь на каждом цикле на один отсчёт. Поэтому, результаты обучения не совпадают между собой. Уж не помню, зачем я так сделал, но сути это не меняет. Видимо, я хотел таким образом зацепить квазистационарность процессов на рынке и отразить их влияние на скорость обучения.

Вот, как выглядяят результаты для усреднения по 10 экспериментам, на одной и той-же обучающей выборке (рис. слева):

Видно, что для весов с нулевой стартовой инициализацией, статистического разброса нет.

Рис. справа построен для архитектуры сети с 12 входами, 5 нейронами в скрытом слое и 1 нейроном на выходе и с обучающей выборкой 120 отсчётов, т.е. дублирует ваш случай. Статистика набиралась по 50 независимым численным экспериментам. Тоже, всё работает корректно.

Да нет, я использовал в качестве входных данных первую разность цен открытия (думал, что по контексту, это ясно). Понятно, что средняя равна нулю. Прогнозировал амплитуду и знак следующей разности.

Что касается теоремы, то она мне понравилась. Но, отношения к нашим сетям имеет в качестве частного случая!

Вы доказали вырожеденный случай для длины обучающей выборки стремящейся в бесконечность. Действительно, в этом случае, для вектора входных данных представляющих собой СВ с нулевым МО, мы получим нулевые веса - лучший прогноз на завтра для интегрированной СВ, это текущее значение сегодня! Но, стоит только взять обучающюю выборку конечной длины, как натренированные веса будут стремится к равновесным, минимизирующим квадрат ошибки. В качестве примера, подтверждающим это утверждение, возмите случай для СЛАУ (та же НС). В этом случае, веса определены однозначно, ошибка обучения на обучающей выборке тождественно равна нулю (число неизвестных равно числу уравнений) и веса (коэффициенты при неизвестных), очевидно, не равны нулю.

Согласен с вашим коментарием по моей теореме. Действительно уменьшение кол-ва наборов в обучающей выборке будет отклонять веса от нулей. Но считаю что теорема применима к сетям по той причине что для вычисления корреляции не нужно использовать бесконечное количесво обучающих наборов. Статистические среднии R(m)=E{x[i]x[i+m]} вычисляются как суммы sum(x[i]x[i+m]) по имеющимся данным. Теорема значительна тем что она показывает что сеть будет иметь предсказательную силу только если эти суммы (корреляции) существенно отличны от нуля иначе веса будут сходится к нулям. Поэтому нахождение обучающих данных с ненулевой корреляцией между входами и выходом очень важно. Те входы, для которых такая корреляция мала, можно отбрасывать так как они не помогут сети в предсказаниях.

Ваша ошибка обучения на приведённых графиках как я понял не делится не на 2 не на кол-во наборов. Правильно? Мне хотелось бы прогнать ваши входные данные на моей сети чтобы удостовериться что всё работает нормально. Не могли бы вы сохранить их в файле в том виде в котором они подаются на входы и выходы сети, и поставить здесь. Вы можете использовать вашу сеть 5-4-1 с 40 выборками чтобы уменьшить кол-во данных.

 

Распределения плеч каги построения и ряда транзакций для разных Н


1. Н = 1(один спред)


2. Н = 4


3. Н = 15


 
gpwr >>:

Согласен с вашим коментарием по моей теореме. Действительно уменьшение кол-ва наборов в обучающей выборке будет отклонять веса от нулей. Но считаю что теорема применима к сетям по той причине что для вычисления корреляции не нужно использовать бесконечное количесво обучающих наборов. Статистические среднии R(m)=E{x[i]x[i+m]} вычисляются как суммы sum(x[i]x[i+m]) по имеющимся данным. Теорема значительна тем что она показывает что сеть будет иметь предсказательную силу только если эти суммы (корреляции) существенно отличны от нуля иначе веса будут сходится к нулям. Поэтому нахождение обучающих данных с ненулевой корреляцией между входами и выходом очень важно. Те входы, для которых такая корреляция мала, можно отбрасывать так как они не помогут сети в предсказаниях.

Ваша ошибка обучения на приведённых графиках как я понял не делится не на 2 не на кол-во наборов. Правильно? Мне хотелось бы прогнать ваши входные данные на моей сети чтобы удостовериться что всё работает нормально. Не могли бы вы сохранить их в файле в том виде в котором они подаются на входы и выходы сети, и поставить здесь. Вы можете использовать вашу сеть 5-4-1 с 40 выборками чтобы уменьшить кол-во данных.

Увеличил кол-во эпох до 1000 и подкрутил параметры iProp+ чтобы шаг веса не угасал быстро. Также удалил деление ошибки обучения на 2*Кол-во эпох. Получил более приятный результат близкий к Neutron. Ошибка обучения при случайных весах в 2-3 раза меньше чем при нулевых весах, что свидетельствует о присутствии корреляции между входами и выходом. Но всё равно не нравится что с 4 по 70 эпохи ошибка обучения почти не изменяется. Надо улучшать алгоритм обучения. Хотя большинство коммерческих НС пакетов используют iProp+ так что я доверяю этому алгоритму. Остаются медленные и сложные ML и BFGS.


 
gpwr >>:

Согласен с вашим коментарием по моей теореме.


Раз вы так дружите с математикой, то не попробовать ли вам доказать еще одну теорему об оптимуме размерности входа сети на рыночных ВР(лучше не ВР, а рядя транзакций по каги ) - вот действительно нужная вещь!

 
paralocus >>:

Раз вы так дружите с математикой, то не попробовать ли вам доказать еще одну теорему об оптимуме размерности входа сети на рыночных ВР(лучше не ВР, а рядя транзакций по каги ) - вот действительно нужная вещь!

Попробую.

 
gpwr писал(а) >>

Согласен с вашим коментарием по моей теореме. Действительно уменьшение кол-ва наборов в обучающей выборке будет отклонять веса от нулей. Но считаю что теорема применима к сетям по той причине что для вычисления корреляции не нужно использовать бесконечное количесво обучающих наборов. Статистические среднии R(m)=E{x[i]x[i+m]} вычисляются как суммы sum(x[i]x[i+m]) по имеющимся данным. Теорема значительна тем что она показывает что сеть будет иметь предсказательную силу только если эти суммы (корреляции) существенно отличны от нуля иначе веса будут сходится к нулям. Поэтому нахождение обучающих данных с ненулевой корреляцией между входами и выходом очень важно. Те входы, для которых такая корреляция мала, можно отбрасывать так как они не помогут сети в предсказаниях.

Существует ещё нелинейная корреляция между отсчётами. Её как раз и отлавливает двуслоная нелинейная НС и не отлавливает линейный дискриминатор, предельную теорему для которого вы и доказали.

Ваша ошибка обучения на приведённых графиках как я понял не делится не на 2 не на кол-во наборов. Правильно? Мне хотелось бы прогнать ваши входные данные на моей сети чтобы удостовериться что всё работает нормально. Не могли бы вы сохранить их в файле в том виде в котором они подаются на входы и выходы сети, и поставить здесь. Вы можете использовать вашу сеть 5-4-1 с 40 выборками чтобы уменьшить кол-во данных.

Ниже, прицеплен файл с входными данными, которые использовал я.

Файлы:
dif.zip  14 kb
 
Neutron >>:

Существует ещё нелинейная корреляция между отсчётами. Её как раз и отлавливает двуслоная нелинейная НС и не отлавливает линейный дискриминатор, предельную теорему для которого вы и доказали.

Ниже, прицеплен файл с входными данными, которые использовал я.

Спасибо. О нелинейной корреляции можно много говорить. Немного погодя изложу свои мысли по ней. А пока меня заинтриговал ваш интересный вывод по поводу "девушки - зубрилы". Тот факт что недаученная сеть ("девушка - троичница") показывает более точные предсказания на out-of-sample данных меня настораживает. Дисперсия недаученного состояния намного превышает дисперсию наученного состояния. И если наученное состояние - это глобальный минимум энтропии (квадрата ошибки), то дисперсия такого состояния ноль, так как существует только один глобальный минимум. Так как разных недученных состояний сети очень много то и разных предсказаний будет много для одних и тех же входных данных. Это видно по вашим графикам. В общем, интересный но настораживающий вывод.

 

Тут у меня самого полного понимания нет.

Согласно утверждению (Ежов Александр Александрович, Шумский Сергей Александрович "Нейрокомпьютинг"), существует оптимальная длина, на которой минимизируется ошибка обобщения Popt=w^2/d, где d - размерность входа НС, w - число всех настраиваемых параметров НС. Так вот, с этой точки зрения, НС является переобученной, если P<Popt НС "запоминает" обучающую выборку. Вариант P>Popt тоже не хорош, т.к. на большей длине, больше вероятность смены рыночной тенденции, что равносильно уменьшению корреляций между отсчётами.

С другой стороны, НС можно "перетаскать" на завышеном числе обучающих эпох и, как следствие, ошибка обобщения начнёт вновь расти, или не дотаскать... Вобщем, тут нужно проводить численные эксперименты с набором статистики, что само по себе очень ресрсоёмко! Но, это необходимо проделать. Существенно облегчит положение, доказательство вышеприведённого учловия для оптимальной длины обучающего вектора. gpwr, есть желание повозиться?

Причина обращения: