Что нового?
- Создать модели классификации текстов для проблем, таких как классификация запросов в службу поддержки и анализ мнений.
- Обучить глубокие нейронные сети с ускорением GPU, чтобы решить сложные проблемы, такие как розничная классификация изображений и анализ почерка.
- Работать с высоко-размерными категориальными данными для сценариев онлайн-рекламы - через прогноз.
- Решить много других общих задач машинного обучения, таких как анализ рисков кредита и прогнозирование потребления, используя современны, быстрые и точные алгоритмы.
- Модели тренировки быстрее в два, чем логистическая регрессия с Быстрым Линейным Алгоритмом (SDCA).
- Обучить многоуровневые пользовательские сети на GPUs до 8x быстрее с ускорением GPU для Нейронных сетей.
- Уменьшить время обучения до 10x в то время как все еще сдерживается точность моделирования при использовании выбор признака.
- concat (): создает единственный оцененный вектор-столбец из многих столбцов. Сочетание функций одного и того же типа в вектор может значительно ускорить время обучения.
- categoricalHash (): преобразовывает категорическое значение в хешированый массив индикатора. Полезно, когда число категорий велико или переменное
- категорический (): преобразовывает категорическое значение в массив индикатора, используя словарь. Полезный, когда число категорий не велико или фиксировано.
- selectFeatures (): выбирает признаки из указанных переменных, используя один из этих двух режимов: количество или взаимная информация.
- featurizeText (): производит стеллаж количеств n-граммов (последовательности последовательных слов) из данного текста. Это предлагает обнаружение языка, токенизацию, удаление стоп-слов, нормализацию текста, генерацию признака и весовой коэффициент параметра, используя TF, IDF и TF-IDF.
Алгоритмы обучения машины
Пакет MicrosoftML предоставляет быстрые и масштабируемые алгоритмы машинного обучения, которые позволяют заняться общими задачами машинного обучения, такими как классификация, регрессия и обнаружение аномалии. Это высокоэффективные алгоритмы, которые являются многопоточными, некоторые из которых выполняются вне диска, так, чтобы они могли масштабироваться к 100 GB на одном узле. Они включают:
быструю линейную модель (SDCA) - бинарная классификация и регрессия
быстрые деревья - бинарная классификация и регрессия
быстрые леса - бинарная классификация и регрессия
нейронные сети - бинарная классификация для многих классов и регрессия
логистическая регрессия - - бинарная классификация и регрессия
Более подробно по функциям машинного обучения от Майкрософт здесь