Нужны ли нам сотни классификаторов для решения проблем классификации реального мира?

13 ноября 2014, 07:00
СанСаныч Фоменко
0
347

В статье оценивается доступные сегодня 179 классификаторов, принадлежащих к 17 семействам (дискриминантный анализ, Байес, нейронные сети, машины векторов поддержки SVM , деревья решений, основанные на правилах классификаторы, усиление, складирование в мешки, случайные леса и другие ансамбли, обобщенные линейные модели, самые близкие соседи, частные наименьшие квадраты и регрессию главных компонент, логистическая регрессия, регрессия многомерных адаптивных сплайнов и другие методы), реализованные в Weka, R (с и без пакета caret), C и Matlab.

 

Использовался 121 набор данных, из базы данных UCI и другие собственные реальные задачи для получения значимых заключений о поведении классификаторов, не зависящем от набора набора данных.

 

Вероятно лучшим классификатором является версиями случайного леса (RF), реализованная в R с доступом через caret с 94.1% максимальной точностью в 90% из 84.3% наборов данных. Однако, превосходство статистически на знАчимо со вторым местом, занимаемым SVM с Гауссовским ядром, реализованным в C с использование LibSVM, который дает 92.3% максимальной точности. Эти два классификатор оказались лучше других включая ансамбль нейронных сетей, реализованный в R в пакетом caret. Случайный лес - явно лучшее семейство классификаторов (3 из 5 лучших классификаций), далее SVM (4 классификатора из 10), нейронные сети и усиливающиеся множества (5 и 3 из 20, соответственно).

Поделитесь с друзьями: