Нейросетевой фильтр

10 сентября 2014, 17:10
Server Muradasilov
2
984
1. Метод поочередного исключения примеров.

1.1. Описание метода

Суть метода заключается в том, что с его помощью можно определить, как наличие или отсутствие каждого примера влияет на процесс обучения сети при одних и тех же прочих условиях, таких как структура сети,параметры алгоритма обучения, начальные значения весовых коэффициентов. На рис.1 приведена блок-схема этого алгоритма.

1.2. Анализ полученных результатов 




На базе вышеприведенного общего алгоритма поочередного исключения примеров можно реализовать ряд алгоритмов для обнаружения выбросов, которые отличаются последним шагом, а именно – процедурой анализа показателей качества сети, полученных в результате работы алгоритма. Ниже приведены две такие процедуры: "Анализ ошибки обучения" и "Анализ суммарной ошибки".

 

 

 1.2.1. Анализ ошибки обучения Этот метод основывается на том факте,что при отсутствии выброса в обучающем множестве сети будет легче выявить закономерности предметной области, она быстрее и лучше обучится, при этом среднеквадратичная ошибка, вычисляемая после завершения процесса обучения по формуле :будет меньше. Здесь:qj y – значение j-го выхода нейросети для q-го обучающего примера;qj d – желаемое значение j-го выхода для q-го обучающего примера;J – число нейронов в выходном слое;Q – количество примеров в обучающем множестве.В качестве демонстрационного примера возьмем обучающую выборку из девяти компонент (табл. 1).

 

 На рис. 2 приведена гистограмма, полученная в результате работы предлагаемого алгоритма. Здесь i-й столбец представляет собой значение среднеквадратичной ошибки (2.1) при обучении сети на обучающем множестве с исключенным i-м примером. Как видно из рисунка, при исключении из обучающего множества третьего примера, являющегося случайным выбросом, среднеквадратичная ошибка значительно уменьшается.

Рис. 2. Распределение ошибки обучения E по примерам обучающей выборки табл.1.Выброс 3-го примера обнаруживается в виде "расщелины"

Для сравнения на рис. 3 приведена аналогичная гистограмма для обучающих примеров той же предметной области, но не имеющих выбросов ( 3,0 3 y ). Среднеквадратичные ошибки обучения сети здесь распределились по примерам более равномерно.Вместо среднеквадратичной ошибки (2.1) можно использовать простую сумму абсолютных ошибок

 Однако при обучении сети методом обратного распространения ошибки среднеквадратичная ошибка (2.1) вычисляется еще в процессе обучения, поэтому ее использование для выявления выбросов является более предпочтительным.

 

 1.2.2. Анализ суммарной ошибки

Как показал опыт, метод анализа ошибки обучения сети дает хорошие результаты на небольших обучающих множествах, в которых встречается не больше одного выброса.Для выборок, содержащих более ста элементов, эффективнее другой алгоритм, который назовем методом анализа суммарной ошибки.Идея этого метода основана на том факте, что если q-й пример является выбросом, то после обучения сети на обучающем множестве, не содержащем этого примера, его ошибка

 (ошибка обобщения) будет больше других.Если в обучающей выборке помимо q -го примера имеются и другие выбросы, то, несмотря на это, ошибка для q -го примера

(примера с выбросом) по-прежнему будет больше ошибок примеров, не содержащих выбросов. Для обнаружения примеров с выбросами будем использовать гистограмму, каждый i-й столбец которой представляет собой сумму ошибок для i-го примера, полученных на каждой итерации алгоритма поэтапного исключения примеров. Пример такой гистограммы, полученной для обучающей выборки табл.1, приведен на рис. 4. Как видно из рисунка, на выброс (3-й пример) теперь указывает не "расщелина", а пик".

 Предлагаемый метод требует не намного больше вычислений, чем предыдущий, однако показывает хорошие результаты при увеличении размера выборки, а также при наличии более одного выброса, что характерно для больших обучающих множеств.


 2. Примеры

Рассмотрим работу предлагаемых алгоритмов на примере предметной области,представляющей собой таблицу умножения,обучающие примеры которой приведены в табл. 2.

Выброс в этой таблице умножения можно создать, если, например, заменить в десятом примере правильное выражение 3 2 6 на неправильное 3 2 8 , т.е. заменить 6 10 d на 8 10 d . Результаты применения двух предлагаемых методов обнаружения выбросов – метода анализа ошибки обучения и метода анализа суммарной ошибки – приведены соответственно на рис. 5 и 6. Как видно из рисунков, случайный выброс отчетливо обнаружился на обеих гистограммах – на одной в виде "расщелины", на другой в виде "пика", соответствующих 10-му примеру


 При введении еще одного выброса, например в 3-м примере – 1 3 6 вместо 1 3 3 , на гистограмме метода анализа ошибки обучения (рис. 7) нет ярко выраженных отклонений. Объяснить это можно тем,что при исключении одного из ошибочных примеров, второй из них продолжает мешать процессу обучения.

 

Метод анализа суммарной ошибки лишен этого недостатка, и на гистограмме рис.8 отчетливо видны оба выброса. 

 

 Предлагаемые алгоритмы используются как фильтр для обнаружения и исключения выбросов в обучающих выборках при решении практических задач методом нейросетевого моделирования



 








 

Поделитесь с друзьями: