Машинное обучение и нейронные сети - страница 15

 

Лекция 6. Моделирование Монте-Карло



6. Моделирование Монте-Карло

Видео объясняет, как работает моделирование Монте-Карло и как его можно использовать для оценки значений неизвестной величины. В видео обсуждается, как работает метод и как на него влияют различные размеры выборки.

  • 00:00:00 В этой лекции Джон Гуттаг объясняет, как работает моделирование Монте-Карло и как оно полезно для оценки значений неизвестной величины. Он также отмечает, что ключом к успеху метода является то, что выборка, взятая из совокупности, будет иметь тенденцию отражать свойства совокупности, из которой она составлена.

  • 00:05:00 В видео обсуждается моделирование по методу Монте-Карло, при котором выборка берется из совокупности и анализируется, чтобы определить среднее поведение. В примере монета подбрасывается 100 раз и определяется орел или решка. Если орел определен, рассчитывается вероятность следующего броска. Если решка определена, вероятность следующего броска рассчитывается на основе имеющихся данных. Если орел снова определяется, вероятность следующего броска рассчитывается на основе имеющихся данных и предположения, что монета честная. Если решка определяется в третий раз, вероятность следующего броска основывается на предположении, что монета честная, и на имеющихся доказательствах. Поскольку нет оснований полагать, что монета честная, вероятность следующего броска мала.

  • 00:10:00 В симуляциях Монте-Карло непредсказуемые результаты случайных событий фиксируются дисперсией результатов. По мере увеличения дисперсии уверенность в точности моделирования снижается. Рулетка — игра с высокой дисперсией, а это означает, что предсказать результат сложно.

  • 00:15:00 В этом видео выполняется симуляция Монте-Карло, чтобы показать, что ожидаемый доход от вращения колеса рулетки равен 0, если вероятность результата каждый раз одинакова. Закон больших чисел гласит, что по мере того, как число испытаний стремится к бесконечности, вероятность того, что результат будет отличен от 0, стремится к 0.

  • 00:20:00 «Заблуждение игрока» — это убеждение, что если чьи-то ожидания не оправдаются в данной ситуации, это будет исправлено в будущем. Регрессия к среднему значению — это термин, введенный Фрэнсисом Гальтоном в 1885 году и описывающий, как после экстремального события (например, необычно высокого роста родителей) следующее случайное событие, вероятно, будет менее экстремальным. Эта концепция применима к рулетке, где если кто-то крутит колесо рулетки 10 раз и получает 10 красных, это экстремальное событие. Заблуждение игрока будет заключаться в том, что следующие 10 вращений должны привести к выпадению большего количества черных, в отличие от вероятности 1,1024, которую можно было бы ожидать, если бы вращения были независимыми. Профессор Гримсон не единственный, кто умеет плохо шутить.

  • 00:25:00 В этом видео Джон Гуттаг объясняет, как работает регрессия к среднему и почему это важно в азартных играх. Затем он показывает, что европейская рулетка является подклассом честной рулетки, в которой он добавляет в игру дополнительный карман, 0. Этот дополнительный карман влияет на шансы на получение номера и приближает их к 0, чем в американской рулетке, которая является подклассом европейской рулетки, в которой шансы всегда одинаковы.

  • 00:30:00 Метод моделирования Монте-Карло используется для оценки вероятностей и отношений вероятностей. Видео демонстрирует, как разные размеры выборки могут повлиять на точность расчетных вероятностей. Также объясняется математика дисперсии и стандартного отклонения.

  • 00:35:00 Моделирование методом Монте-Карло — это метод оценки неизвестных значений. Моделирование Монте-Карло можно использовать для оценки ожидаемого дохода от ставок на рулетке, ожидаемой оценки на экзамене и ожидаемого подсчета голосов политического кандидата. Эмпирическое правило гласит, что 68% данных будут находиться в пределах одного стандартного отклонения перед или за средним значением.

  • 00:40:00 Эмпирическое правило гласит, что у нас должна быть высокая степень уверенности в среднем, вычисленном в моделировании, если распределение ошибок нормальное.

  • 00:45:00 В этом видео рассказывается о функции плотности вероятности (PDF) и о том, как ее использовать для расчета вероятности того, что случайная величина примет определенные значения. Функция плотности вероятности симметрична относительно среднего значения и имеет пик в среднем значении, поэтому ее часто используют для описания вероятности того, что случайная величина примет определенное значение. Доля площади под кривой между минус 1 и 1 составляет примерно 68%.
6. Monte Carlo Simulation
6. Monte Carlo Simulation
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

Лекция 7. Доверительные интервалы



7. Доверительные интервалы

В этом видео рассматриваются различные темы, связанные со статистикой, в том числе нормальные распределения, центральная предельная теорема и оценка значения числа пи с помощью моделирования. Лектор использует Python, чтобы продемонстрировать, как строить гистограммы и функции плотности вероятности для нормальных распределений, а также как использовать метод квадратур для аппроксимации интегралов. Кроме того, спикер подчеркивает важность понимания предположений, лежащих в основе статистических методов, и необходимость проверки точности для обеспечения достоверности моделирования. Хотя доверительные интервалы могут обеспечить статистически достоверные утверждения, они могут не обязательно отражать реальность, и очень важно иметь основания полагать, что результаты моделирования близки к фактическим значениям.

  • 00:00:00 В этом разделе лектор рассказывает о предположениях, лежащих в основе эмпирического правила, и о том, как генерируются нормальные распределения в Python с использованием случайной библиотеки. Они демонстрируют, как создать дискретную аппроксимацию нормального распределения и как построить гистограмму со взвешенными ячейками. Цель взвешивания корзин состоит в том, чтобы придать каждому элементу разный вес, чтобы можно было соответствующим образом скорректировать ось Y.

  • 00:05:00 В этом разделе инструктор объясняет, как использовать Python для построения гистограмм и функций плотности вероятности (PDF) для нормальных распределений. Он показывает код для создания гистограммы с помощью библиотеки pylab, где по оси Y отображается доля значений, попадающих в определенный диапазон. Затем он определяет PDF-файлы и показывает, как их строить с помощью Python. Кривая PDF представляет собой вероятность попадания случайной величины между двумя значениями, где площадь под кривой дает вероятность того, что это произойдет. Преподаватель использует пример стандартного нормального распределения с нулевым средним значением и стандартным отклонением, равным единице.

  • 00:10:00 В этом разделе спикер объясняет, как построить функцию плотности вероятности (PDF) и интерпретирует значения Y на графике. Значения Y на самом деле являются плотностью или производной кумулятивной функции распределения, и они не являются фактическими вероятностями, поскольку они могут превышать 1 или быть отрицательными. Спикер подчеркивает, что форма кривой важнее самих значений Y, поскольку интегрирование площади под кривой позволяет определить вероятности попадания значений в определенный диапазон. Затем спикер кратко представляет алгоритм «интегрировать квадрат» в библиотеке «scipy» для интеграции.

  • 00:15:00 В этом разделе видео спикер обсуждает, как использовать численный метод, называемый квадратурой, для аппроксимации интегралов. Он показывает пример этой техники с функцией Gaussian, которая принимает три аргумента, и демонстрирует, как передать их в квадратурную функцию вместе с кортежем, предоставляющим все значения для аргументов. Затем спикер проверяет эмпирическое правило для функции Гаусса, используя случайные значения для мю и сигма, и показывает, что результаты находятся в ожидаемом диапазоне, демонстрируя правильность правила. Наконец, он объясняет важность нормального распределения и его распространенность во многих областях.

  • 00:20:00 В этом разделе спикер обсуждает нормальное распределение и то, как оно применяется к различным сценариям, таким как рост мужчин и женщин или изменение цен на нефть. Однако не все подчиняется нормальному распределению, как, например, вращения колеса рулетки. Имея дело с набором спинов, оратор показывает, как применяется центральная предельная теорема, которая утверждает, что если взять достаточно большую выборку из совокупности, средние значения выборок будут распределены нормально и будут иметь среднее значение, близкое к среднему. Население.

  • 00:25:00 В этом разделе спикер объясняет, как дисперсия выборочных средних связана с дисперсией генеральной совокупности, деленной на размер выборки. Докладчик использует симуляцию многократного броска игральной кости с разным количеством игральных костей и показывает, что стандартное отклонение уменьшается по мере увеличения количества игральных костей. Кроме того, спикер показывает, как распределение средних формирует нормальное распределение. Это демонстрирует полезность центральной предельной теоремы. Спикер также применяет эту концепцию к игре в рулетку и показывает, как распределение среднего дохода от спинов рулетки принимает форму, аналогичную нормальному распределению.

  • 00:30:00 В этом разделе спикер обсуждает, как, независимо от формы распределения исходных значений, можно использовать Центральную предельную теорему (ЦПТ) для оценки среднего с использованием достаточно больших выборок. Спикер объясняет, что даже если эмпирическое правило не совсем точное, оно достаточно близко, чтобы быть полезным в большинстве случаев. Кроме того, случайность и моделирование методом Монте-Карло могут быть полезны при вычислении того, что по своей сути не является случайным, например, значения числа пи. Это демонстрируется историческим объяснением того, как люди оценивали значение числа пи на протяжении всей истории.

  • 00:35:00 В этом разделе спикер обсуждает различные методы, используемые для оценки значения числа пи на протяжении всей истории. Эти методы включают в себя построение 96-стороннего многоугольника и моделирование Монте-Карло, в котором иголки случайным образом сбрасываются для оценки значения числа пи. В моделировании использовалась математическая формула для оценки числа пи путем нахождения отношения игл в круге к иглам в квадрате. Докладчик также упоминает о попытке смоделировать метод Монте-Карло с помощью лучника и об использовании Python для создания моделирования Монте-Карло.

  • 00:40:00 В этом разделе спикер объясняет, как оценить число пи с помощью моделирования и как определить его точность с помощью доверительных интервалов. Моделирование включает в себя бросание иголок на пол и подсчет того, сколько иголок пересекает линию, чем больше иголок, тем точнее оценка числа пи. Чтобы определить точность, стандартное отклонение вычисляется путем взятия среднего значения оценок и деления на длину оценок. Затем используется цикл для увеличения количества игл до тех пор, пока оценка pi не окажется в пределах определенного диапазона точности, что обеспечивает большую уверенность в оценке. Хотя оценки числа пи не становятся монотонно лучше по мере увеличения количества иголок, стандартные отклонения монотонно уменьшаются, что повышает достоверность оценки. Спикер подчеркивает, что недостаточно дать хороший ответ, достаточно иметь основания полагать, что ответ близок к реальному значению.

  • 00:45:00 В этом разделе спикер обсуждает разницу между статистически достоверными утверждениями и истинными утверждениями. Хотя моделирование может дать нам статистически достоверные доверительные интервалы, оно может не точно отражать реальность. Спикер вносит ошибку в свою симуляцию, заменяя 4 на 2, и, хотя доверительные интервалы верны, оценка числа пи совершенно неверна. Для обеспечения точности моделирования необходимо выполнить проверку работоспособности. Обычно полезный метод выборки случайных точек вводится для оценки площади любого региона и используется в качестве примера того, как случайность может использоваться для вычисления чего-то, что не является случайным по своей сути, например, для интегрирования.
7. Confidence Intervals
7. Confidence Intervals
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

Лекция 8. Выборка и стандартная ошибка



8. Выборка и стандартная ошибка

В этом видеоролике «Выборка и стандартная ошибка» рассматриваются различные концепции логической статистики с акцентом на методы выборки для оценки параметров совокупности. В видео рассматривается вероятностная выборка и простая случайная выборка, а также стратифицированная выборка, а также обсуждается центральная предельная теорема, которая касается согласованности средних значений и стандартных отклонений для случайных выборок из совокупности. В видео также рассматриваются такие темы, как планки погрешностей, доверительные интервалы, стандартное отклонение и стандартная ошибка, выбор соответствующего размера выборки и типы распределения. Докладчик подчеркивает важность понимания стандартной ошибки, поскольку она помогает оценить стандартное отклонение совокупности без изучения всей совокупности, а также то, что это понятие широко обсуждается в разных отделах.

  • 00:00:00 В этом разделе инструктор обсуждает тему выборки в связи с выводной статистикой. Основная идея состоит в том, чтобы изучить одну или несколько случайных выборок, взятых из совокупности, чтобы сделать ссылки на эту совокупность. Преподаватель обсуждает вероятностную выборку, при которой каждый член генеральной совокупности имеет ненулевую вероятность быть включенным в выборку. Простая случайная выборка исследуется подробно, что требует, чтобы каждый член совокупности имел равную вероятность быть выбранным в выборке. Однако инструктор отмечает, что в определенных ситуациях может потребоваться стратифицированная выборка, например, когда совокупность распределена неравномерно, и подгруппы необходимо разделить и пропорционально представить в выборке.

  • 00:05:00 В этом разделе вводится понятие стратифицированной выборки как метода выборки небольших подгрупп, которые должны быть представлены пропорционально их размеру в совокупности. Приведен пример использования стратифицированной выборки для обеспечения репрезентативности студентов-архитекторов. Однако правильно провести стратифицированную выборку может быть сложно, поэтому в этом курсе мы будем придерживаться простых случайных выборок. Курс предоставляет примерный набор данных о ежедневных высоких и низких температурах для 21 города США с 1961 по 2015 год. Данные визуализируются с помощью гистограмм, которые показывают, что данные не распределены нормально. Среднесуточная высокая температура составляет 16,3 градуса по Цельсию со стандартным отклонением примерно 9,4 градуса.

  • 00:10:00 В этом разделе видео обсуждается идея выборки и ее связь с генеральной совокупностью в целом. Взяв случайные выборки размером 100 из совокупности и сравнив средние значения и стандартные отклонения, видео показывает, что, хотя отдельные выборки могут отличаться от совокупности, в целом средние значения и стандартные отклонения будут соответствовать совокупности из-за центральной предельной теоремы. . Запустив моделирование тысячи образцов, видео демонстрирует, что среднее значение выборки составляет 16,3, а стандартное отклонение равно 0,94, обеспечивая 95% доверительный интервал от 14,5 до 18,1. Хотя доверительный интервал широк, он включает среднее значение генеральной совокупности.

  • 00:15:00 В этом разделе видео обсуждаются способы получения более точной оценки фактического среднего значения генеральной совокупности. Рассматриваются как взятие большего количества образцов, так и взятие больших образцов. Проведение эксперимента с увеличением размера выборки со 100 до 200 привело к довольно резкому падению стандартного отклонения с 0,94 до 0,66, что указывает на то, что большие размеры выборки могут помочь получить более точную оценку. Также вводится использование планок погрешностей для визуализации изменчивости данных. Доверительные интервалы можно использовать для определения того, различаются ли средние значения статистически значимо или нет. Если доверительные интервалы не перекрываются, можно сделать вывод, что средние значения существенно различаются. Когда они пересекаются, необходимы дополнительные исследования.

  • 00:20:00 В этом разделе спикер обсуждает, как построить планки погрешностей с помощью пакета PyLab в Python. Используя стандартное отклонение, умноженное на 1,96, можно создать планки погрешностей, которые показывают среднее значение и уровень достоверности оценки. По мере увеличения размера выборки планки погрешностей становятся меньше, обеспечивая большую достоверность, но не обязательно лучшую точность. Однако при использовании центральной предельной теоремы использование одной выборки все же может дать ценную информацию, даже если просмотр нескольких выборок с большими размерами выборки может быть излишним.

  • 00:25:00 В этом разделе видео обсуждается третья часть центральной предельной теоремы, в которой говорится, что дисперсия выборочных средних будет близка к дисперсии генеральной совокупности, деленной на размер выборки. Это приводит к вычислению стандартной ошибки среднего, которая равна стандартному отклонению населения, деленному на квадратный корень размера выборки. В видео используется код для проверки того, работает ли стандартная ошибка среднего, и показано, что стандартное отклонение очень хорошо отслеживает стандартную ошибку, что делает полезной оценку стандартного отклонения путем вычисления стандартной ошибки. Разница между стандартным отклонением и стандартной ошибкой заключается в том, что для вычисления первого необходимо просмотреть множество выборок, а для вычисления последней требуется только одна выборка.

  • 00:30:00 В этом разделе спикер обсуждает концепцию стандартной ошибки, которая представляет собой способ аппроксимации стандартного отклонения генеральной совокупности без проведения нескольких выборок. Формула стандартной ошибки включает стандартное отклонение генеральной совокупности, но обычно оно неизвестно, поскольку для этого потребуется изучить всю генеральную совокупность. Вместо этого в качестве оценки часто используется стандартное отклонение выборки. Докладчик демонстрирует, что для больших размеров выборки стандартное отклонение выборки является относительно точным приближением стандартного отклонения генеральной совокупности. Однако отмечается, что это может не всегда быть верным для разных типов распределения и больших популяций.

  • 00:35:00 В этом разделе видео обсуждаются различные распределения, в том числе равномерное, нормальное или гауссовское и экспоненциальное, и показаны дискретные приближения к этим распределениям. Разница между стандартным отклонением и стандартным отклонением выборки не одинакова для всех этих распределений, причем экспоненциальное является наихудшим случаем. Перекос, мера асимметрии распределения вероятностей, является важным фактором при принятии решения о том, сколько выборок необходимо для оценки генеральной совокупности. Кроме того, видео демонстрирует парадоксальный вывод о том, что размер популяции не имеет значения при определении количества необходимых образцов.

  • 00:40:00 В этом разделе докладчик обсуждает важность выбора соответствующего размера выборки для оценки среднего значения генеральной совокупности по одной выборке. Он подчеркивает, что выбор правильного размера выборки необходим для получения точного ответа и предотвращения использования слишком маленького размера выборки. После выбора размера выборки из генеральной совокупности берется случайная выборка для вычисления среднего значения и стандартного отклонения выборки. Используя оценочную стандартную ошибку, полученную из выборки, генерируются доверительные интервалы вокруг среднего значения выборки. Докладчик предупреждает, что этот метод работает только в том случае, если выбираются независимые случайные выборки, и показывает, как выбор зависимых выборок может привести к неправильным результатам. Наконец, он демонстрирует пример эксперимента для расчета доли за пределами 95% доверительных интервалов и подчеркивает, что пять процентов — это оптимальный результат.

  • 00:45:00 В этом разделе спикер обсуждает важность понимания концепции стандартной ошибки в статистическом анализе. Он подчеркивает, что если ответ слишком хорош или слишком плох, расчет вероятности неверен. Чтобы продемонстрировать, как работает стандартная ошибка, он запускает симуляцию и показывает, что доля вне доверительного интервала 95% очень близка к ожидаемому значению 5%. В заключение докладчик подчеркивает значение стандартной ошибки и то, что это понятие широко обсуждается в разных отделах.
 

Лекция 9. Понимание экспериментальных данных



9. Понимание экспериментальных данных

В этой лекции профессор Эрик Гримсон обсуждает процесс понимания экспериментальных данных, от сбора данных до использования моделей для прогнозирования. Он использует пример пружины, чтобы продемонстрировать важность измерения точности при прогнозировании линейных отношений, и исследует различные методы измерения качества подгонки. Гримсон вводит концепцию линейной регрессии и подбора полиномов, подчеркивая, что высокое значение r-квадрата не обязательно означает, что полином более высокого порядка является лучшим выбором. Гримсон использует код для оптимизации в 16-мерном пространстве, оставляя выбор, использовать или не использовать этот полином для следующей лекции.

  • 00:00:00 В этом разделе лекции профессор Эрик Гримсон обсуждает важность понимания экспериментальных данных в современном мире, интенсивно использующем данные. Он подчеркивает, что независимо от того, являетесь ли вы ученым, инженером, социологом или занимаетесь любой другой профессией, связанной с данными, вам необходимо программное обеспечение, которое может манипулировать данными для извлечения полезной информации. Он также рассказывает о процессе проведения эксперимента, получении данных и использовании моделей для прогнозирования данных. На примере пружины он объясняет, как собирать данные о ней, моделировать ее и писать программное обеспечение, которое может помочь анализировать данные.

  • 00:05:00 В этом разделе вводится понятие закона упругости Гука. Закон гласит, что сила, необходимая для сжатия или растяжения пружины, прямо пропорциональна расстоянию, на которое она сжимается или растягивается. Знак минус означает, что сила приложена в направлении, противоположном сжатию или растяжению. Закон Гука действителен для широкого диапазона пружин, но имеет ограничение на то, насколько пружина может быть растянута, прежде чем закон нарушится. Приведен пример расчета силы, необходимой для сжатия пружины на один сантиметр, по закону Гука и постоянной пружины.

  • 00:10:00 В этом разделе спикер объясняет процесс определения жесткости пружины путем измерения различных масс пружины. В идеале было бы достаточно одного измерения, но поскольку массы могут быть ненадежными, а пружины могут содержать несовершенные материалы, необходимо несколько испытаний для получения набора измерений с линейной зависимостью, которую можно построить для извлечения постоянной пружины. Докладчик демонстрирует использование функции массива для равномерного масштабирования всех значений перед построением графика точек данных. Идеальная линейная зависимость позволила бы исследователям калибровать атомно-силовые микроскопы и измерять силу в биологических структурах.

  • 00:15:00 В этом разделе спикер обсуждает, как подогнать линию к экспериментальным данным и измерить расстояние между линией и измеренными точками. Они объясняют, что целевая функция необходима для определения того, насколько хорошо подходит линия, что достигается путем нахождения линии, минимизирующей целевую функцию. Спикер также рассматривает различные способы измерения расстояния, такие как смещение по оси x, смещение по вертикали или расстояние до ближайшей точки на прямой. В конечном итоге они выбирают вертикальное смещение, поскольку оно измеряет прогнозируемое зависимое значение с учетом нового независимого значения.

  • 00:20:00 В этом разделе Эрик Гримсон объясняет, как измерить точность предсказанной линии с помощью метода наименьших квадратов. Метод включает в себя нахождение разницы между прогнозируемыми и наблюдаемыми значениями y, возведение их в квадрат для устранения знака, а затем суммирование этих квадратов разностей для всех наблюдаемых значений. Эта сумма обеспечивает меру того, как линия соответствует наблюдаемым значениям. Минимизируя разность суммы квадратов, можно найти наиболее подходящую линию. Кроме того, Гримсон обсуждает, как найти наиболее подходящую кривую, предполагая, что модель прогнозируемой кривой является полиномом, и используя метод линейной регрессии, чтобы найти полином первой или второй степени, который лучше всего соответствует данным.

  • 00:25:00 В этом разделе вводится понятие линейной регрессии как метода нахождения самой низкой точки на поверхности, которая может быть представлена всеми возможными линиями в двумерном пространстве. Линейная регрессия используется для поиска наиболее подходящей линии, начиная с некоторой точки и спускаясь вниз по градиенту на некоторое расстояние, измеряя новый градиент и повторяя до тех пор, пока не будет достигнута самая низкая точка. Алгоритм для этого очень похож на метод Ньютона. В этом разделе также рассказывается, как использовать polyFit, встроенную функцию PyLab, для нахождения коэффициентов многочлена с заданной степенью, которая обеспечивает наилучшее соответствие методом наименьших квадратов.

  • 00:30:00 В этом разделе докладчик демонстрирует, как использовать Python для подгонки строки к данным и как изменить порядок используемого полинома. Они объясняют, что чем выше порядок используемого полинома, тем ближе будет соответствие данным. Докладчик предоставляет наглядный пример набора данных, где подгонка прямой не работает, а подгонка квадратичной линии подходит лучше. Они также объясняют, как использовать функцию polyval для подбора полинома любого порядка и возврата массива предсказанных значений, демонстрируя абстрактный характер кода.

  • 00:35:00 В этом разделе спикер обсуждает, как измерить точность совпадения экспериментальных данных. Для сравнения разных моделей он предлагает измерять среднеквадратичную ошибку, так как этот подход полезен для сравнения двух моделей. Однако у этого метода есть проблема, поскольку он не дает окончательного способа узнать, действительно ли одно соответствие лучше другого. Чтобы решить эту проблему, спикер рекомендует использовать коэффициент детерминации (r-квадрат), который не зависит от масштаба и может показать, насколько соответствие близко к идеальному. Он предлагает формулу для расчета r-квадрата, которая включает измерение разницы между наблюдаемыми и предсказанными значениями и средней ошибки.

  • 00:40:00 В этом разделе спикер объясняет, как рассчитать дисперсию и значение r-квадрата для оценки точности модели. Дисперсия может быть получена путем деления суммы квадратов ошибок на количество выборок. Значение r-квадрата указывает, какая часть изменчивости данных учитывается моделью, и находится в диапазоне от нуля до единицы. Значение r-квадрата, равное единице, означает, что модель объясняет всю изменчивость, а значение r-квадрата, равное нулю, означает, что между моделью и данными нет связи. Затем докладчик представляет две функции, genFits и testFits, которые генерируют и тестируют модели с разной степенью сложности и возвращают соответствующие значения r-квадрата. Эти функции могут помочь определить наилучшее соответствие для набора данных.

  • 00:45:00 В этом разделе инструктор запускает код с квадратичной, четвертой, полиномиальной аппроксимацией 8-го и 16-го порядка, чтобы определить наилучшее соответствие данных. Они объясняют, что использование кода типа PyLab позволяет им оптимизировать 16-мерное пространство и использовать линейную регрессию для поиска наилучшего решения. Хотя полином 16-го порядка отлично справляется со своей задачей и имеет значение r в квадрате почти 97%, инструктор предупреждает, что высокое значение r в квадрате не обязательно означает, что использование полинома 16-го порядка является лучшим выбором. Они оставляют решение о том, использовать его или нет, до следующей лекции.
 

Лекция 10. Понимание экспериментальных данных (продолжение)



10. Понимание экспериментальных данных (продолжение)

В этом разделе видео ведущий подчеркивает важность поиска правильной модели для соответствия экспериментальным данным, а также избегания переобучения. Обсуждаются несколько методов, таких как использование перекрестной проверки для определения правильного баланса между сложностью модели и эффективностью при прогнозировании новых данных. Докладчик приводит примеры подгонки моделей разного порядка к экспериментальным данным и демонстрирует эффекты переобучения путем добавления шума к наборам данных. Значение R-квадрата также введено как инструмент для определения того, насколько хорошо модель соответствует данным. В целом подчеркивается важность баланса между сложностью и эффективностью модели при прогнозировании новых данных.

  • 00:00:00 В этом разделе преподаватель напоминает учащимся, что ранее они обсуждали концепцию подгонки моделей к экспериментальным данным, чтобы понять данные. Цель состоит в том, чтобы иметь модель, которая объясняет явления, лежащие в основе данных, и может делать прогнозы поведения в новых условиях. Однако, поскольку данные всегда зашумлены, при подборе модели необходимо учитывать экспериментальную неопределенность. Преподаватель повторяет использование полиномиальных выражений, в частности линейной регрессии, для поиска коэффициентов, минимизирующих различия между наблюдаемыми и прогнозируемыми данными.

  • 00:05:00 В этом разделе подробно рассматривается концепция линейной регрессии. Идея линейной регрессии состоит в том, чтобы представить все возможные линии в пространстве, которое имеет один доступ со значениями a, а другой доступ со значениями B, где значение или высота поверхности является значением этой целевой функции в каждой точке. Идея состоит в том, чтобы начать с какой-то точки на этой поверхности и идти вниз, пока не достигнете дна, где всегда будет одна нижняя точка, и как только эта точка будет достигнута, значения a и B дадут лучшую линию. Раздел завершается обсуждением определения коэффициента R в квадрате, который представляет собой независимое от масштаба значение от 0 до 1, которое измеряет, насколько хорошо модель соответствует данным.

  • 00:10:00 В этом разделе спикер обсуждает важность значения R-квадрата для подгонки моделей к экспериментальным данным. Значение R-квадрата показывает, насколько хорошо модель соответствует данным, при этом значение 1 указывает на идеальное соответствие, а значение, близкое к 0, указывает на плохое соответствие. Хотя модель более высокого порядка может лучше соответствовать данным, она не обязательно является лучшей моделью для объяснения явлений или прогнозирования. Спикер также объясняет, как он сгенерировал данные для своего примера, используя параболическую функцию с добавлением шума.

  • 00:15:00 подведение итогов. В этом разделе докладчик обсуждает, как проверить эффективность модели с помощью проверки или перекрестной проверки. Они генерируют данные из параболической дуги с добавлением шума и подбирают модели для степеней 2, 4, 8 и 16, используя два разных набора данных. Наилучшей подходящей моделью по-прежнему является 16-й порядок, но загадка заключается в том, почему полином 16-го порядка лучше всего подходит, когда данные были сгенерированы из полинома 2-й степени. Докладчик объясняет, что небольшая ошибка обучения необходима, но недостаточна для отличной модели, и что необходима проверка или перекрестная проверка, чтобы увидеть, насколько хорошо модель работает с различными данными, полученными в результате одного и того же процесса.

  • 00:20:00 В этом разделе спикер обсуждает использование экспериментальных данных и как подогнать к ним модель. Они также исследуют важность тестирования моделей на разных наборах данных, а также возможность переобучения при использовании слишком большого количества степеней свободы в модели. На своем примере они показывают, что модели низкого порядка (например, 2-го или 4-го порядка) на самом деле могут быть более эффективными для прогнозирования поведения, чем модели высокого порядка (например, 16-го порядка), и что важно тестировать модели на нескольких наборах данных, чтобы гарантировать чтобы они не были слишком сложными.

  • 00:25:00 В этом разделе спикер предупреждает об опасностях переобучения данных, когда модель предназначена для настолько идеального соответствия обучающим данным, что не может соответствовать новым наборам данных. Он объясняет, как использовать проверку для обнаружения переобучения и почему в некоторых случаях не нужны более высокие порядки входных переменных. Он демонстрирует пример подбора квадратичной модели к линии и показывает, что система отказывается от более высокого коэффициента члена, потому что он начнет подгонять шум, что приводит к менее эффективному подбору. Пример спикера подгоняет квадрат к линии и показывает, как модель работает идеально, пока не будет добавлена одна точка, которая приводит к тому, что система идеально подходит к шуму, поэтому эффективно предсказывает новые значения.

  • 00:30:00 В этом разделе спикер представляет концепцию переобучения и демонстрирует ее эффекты, добавляя небольшое количество шума к набору данных и подгоняя как квадратичную модель, так и модель первой степени. Показано, что квадратичная модель плохо работает с добавленным шумом, тогда как модель первой степени более устойчива к нему. Спикер подчеркивает, что поиск правильного баланса между чрезмерно сложной и недостаточно сложной моделью имеет решающее значение для точного прогнозирования результатов. Раздел завершается предлагаемым методом поиска правильной модели.

  • 00:35:00 В этом разделе видео обсуждается, как определить наилучшую модель для заданного набора данных, особенно в случаях, когда нет теории, которой можно было бы руководствоваться при выборе. Один из подходов заключается в повышении порядка модели до тех пор, пока она не будет хорошо прогнозировать новые данные, но не будет соответствовать исходным обучающим данным. В качестве примера в видео показано, как закон Гука применяется к растяжению пружины, и показано, что для разных сегментов данных необходимы разные линейные модели, что подчеркивает важность надлежащего сегментирования данных. Перекрестная проверка, в том числе проверка исключения и проверка K-кратности, также может помочь в выборе сложности модели при работе с большими наборами данных.

  • 00:40:00 В этом разделе спикер объясняет, как использовать перекрестную проверку для определения наилучшей модели для прогнозирования среднесуточной высокой температуры в США за 55-летний период. Они используют повторную случайную выборку для выбора случайных выборок из набора данных, обучения модели на обучающем наборе и проверки ее на тестовом наборе. Они также вычисляют среднегодовые значения высокой температуры, чтобы построить ее и создать модели с линейными, квадратичными, кубическими и квартичными измерениями, где они обучают одну половину данных, тестируют другую половину и записывают коэффициент детерминации, чтобы получить в среднем. Они сообщают средние значения для каждой размерности.

  • 00:45:00 В этом разделе докладчик демонстрирует, как случайным образом разделить набор данных на обучающий и тестовый наборы с помощью метода случайной выборки точек. Затем он проходит цикл, в котором настраивает различные обучающие и тестовые наборы, а затем подбирает каждое измерение с помощью полиномиального подбора. Затем модель можно использовать для прогнозирования значений тестового набора и сравнения их с фактическими значениями, вычисления значения R-квадрата и добавления его. Он заключает, что проведение нескольких испытаний необходимо для получения статистики по этим испытаниям, а также статистики внутри каждое испытание. Это позволяет им выбрать самую простую возможную модель, учитывающую данные.

  • 00:50:00 В этом разделе спикер обсуждает сложность моделей, которые могут эффективно предсказывать новые данные на основе экспериментальных данных. Эта сложность может исходить из теории или перекрестной проверки для определения простейшей модели, которая все еще хорошо справляется с прогнозированием поведения данных.
 

Лекция 11. Введение в машинное обучение



11. Введение в машинное обучение

В видео обсуждается концепция машинного обучения, принцип его работы и два распространенных способа его выполнения — обучение с учителем и обучение без учителя. Затем он демонстрирует пример контролируемого обучения — обучения машины прогнозированию положения новых футболистов на основе их роста и веса.

  • 00:00:00 Это резюме из 1 абзаца предназначено для общего обзора видео «Машинное обучение». Он начинается с представления идеи машинного обучения и его различных приложений, прежде чем обсуждать два основных метода машинного обучения: классификацию и кластеризацию. Затем видео переходит к ознакомлению с основами линейной регрессии, прежде чем более подробно обсудить тему машинного обучения. Последний раздел видео посвящен более краткому ознакомлению учащихся с концепциями машинного обучения.

  • 00:05:00 Машинное обучение — это процесс компьютерного обучения без явного программирования. В этой лекции мы обсудим некоторые из различных типов алгоритмов машинного обучения и то, как они работают. Мы также выделяем несколько примеров того, где в настоящее время используется машинное обучение.

  • 00:10:00 В этом видео обсуждается идея машинного обучения, как оно работает, а также два распространенных способа его осуществления — контролируемое и неконтролируемое обучение. Затем он демонстрирует пример контролируемого обучения — обучения машины прогнозированию положения новых футболистов на основе их роста и веса.

  • 00:15:00 В этом видео демонстрируется алгоритм машинного обучения, который можно использовать для создания кластеров данных на основе расстояния. Алгоритм работает, выбирая два примера в качестве образцов, группируя все остальные примеры, просто говоря: поместите его в группу, к которой он ближе всего к этому примеру, а затем находит срединный элемент этой группы.

  • 00:20:00 Машинное обучение — это процесс обучения выявлению закономерностей в данных. Процесс начинается с обучения модели машинного обучения на размеченных данных, а затем использования этой модели для выявления закономерностей в неразмеченных данных. Есть два основных способа сделать это: с помощью размеченных данных и с использованием неразмеченных данных. В первом случае модель машинного обучения способна выявлять закономерности в данных, соответствующие присвоенным ей меткам. Во втором случае модель машинного обучения способна выявлять закономерности в данных, которые соответствуют функциям, выбранным пользователем.

  • 00:25:00 В этом видео обсуждается концепция разработки признаков, которая представляет собой процесс определения того, какие признаки следует измерять и как их взвешивать, чтобы создать максимально точную модель. Используемый пример относится к маркировке рептилий, и, хотя легко маркировать один пример, это становится все труднее по мере увеличения количества примеров. Затем в видео обсуждается концепция выбора функций, которая представляет собой процесс выбора, какие функции оставить, а какие отбросить, чтобы создать максимально точную модель. Видео заканчивается примером маркировки цыплят, который не соответствует модели для рептилий, но подходит для модели для кур.

  • 00:30:00 Видео представляет собой введение в машинное обучение и его принципы. В нем рассматривается важность разработки системы, которая никогда не будет ложно маркировать какие-либо данные как нечто, чем они не являются, на примере игры, в которой два игрока пытаются определить разницу между собой. Он вводит метрику Минковского, которая является способом измерения расстояния между векторами.

  • 00:35:00 В этом видео представлено евклидово расстояние, стандартное измерение расстояния на плоскости, и манхэттенское расстояние, метрика, используемая для сравнения расстояний между объектами с различными характеристиками. Евклидово расстояние основано на квадратном корне из двух, а манхэттенское расстояние основано на расстоянии между точками сетки. В некоторых случаях, например при сравнении количества ног у разных существ, разница в чертах между объектами может быть важнее, чем расстояние между самими объектами. Инжиниринг функций — выбор функций для измерения и их взвешивания — важен в машинном обучении.

  • 00:40:00 В этом видео рассказывается о важности масштабов и о том, как они могут повлиять на работу алгоритма машинного обучения. В нем обсуждается, как можно использовать веса по-разному и как измерять расстояние между примерами. Также обсуждается, как кластеризовать данные с помощью ряда методов и как выбрать правильное количество кластеров.

  • 00:45:00 В этом видео представлена концепция машинного обучения и показано, как подогнать кривую к данным, чтобы разделить две группы. Он также предоставляет пример того, как оценивать модель машинного обучения.

  • 00:50:00 В этом видео обсуждается компромисс между чувствительностью (сколько вещей было правильно помечено) и специфичностью (насколько точно метки идентифицировали нужные элементы). Профессор Гуттаг демонстрирует метод под названием ROC (кривые оператора приемника), который помогает упростить понимание этого компромисса.
 

Лекция 12. Кластеризация




12. Кластеризация

В этом видео рассматривается концепция кластеризации точек данных в группы. В нем объясняется, как выполнить кластеризацию с использованием алгоритма k-средних и как оптимизировать алгоритм по скорости. Также обсуждается, как использовать кластеризацию для диагностики проблем с данными.

  • 00:00:00 Цель этого видео — рассмотреть концепции изменчивости и кластеризации. В видео объясняется, что изменчивость — это сумма расстояний между средним значением кластера и каждым примером в кластере, а кластеризация — это проблема оптимизации группировки набора примеров в один кластер.

  • 00:05:00 Иерархическая кластеризация — это метод кластеризации элементов в наборе данных. Алгоритм начинает с присвоения каждому элементу своего кластера, а затем находит два наиболее похожих кластера. Если осталось менее пяти кластеров, алгоритм объединяет два ближайших кластера в один кластер.

  • 00:10:00 В видео обсуждаются различные показатели кластеризации и объясняется, как каждый из них влияет на окончательные результаты кластеризации. Например, одинарная связь используется для соединения городов, расположенных ближе друг к другу, а полная связь используется для соединения городов, находящихся дальше друг от друга.

  • 00:15:00 В видео объясняется, как работает кластеризация, и наиболее часто используемый алгоритм — k-средних. Это быстро и эффективно, но его можно оптимизировать, чтобы сделать его еще быстрее.

  • 00:20:00 В этом видео автор объясняет, как группировать объекты, случайным образом выбирая K центроидов и присваивая этим центроидам точки. Автор также обсуждает потенциальные недостатки неправильного выбора K. Наконец, автор рекомендует использовать хороший алгоритм k-средних, чтобы найти лучший K.

  • 00:25:00 В этом видео автор рассказывает, как выполнить иерархическую кластеризацию и метод k-средних для подмножества данных. Он также обсуждает слабые стороны алгоритма и способы их устранения.

  • 00:30:00 В этом видео объясняется, как кластеризовать данные с помощью алгоритма k-средних. Данные делятся на кластеры, и вычисляются центроиды каждого кластера.

  • 00:35:00 В этой лекции профессор объясняет, как кластеризовать данные, используя масштабирование и дисперсию. Он показывает, как масштабировать вектор признаков и как вычислить среднее значение и стандартное отклонение масштабированных данных.

  • 00:40:00 В этом видео объясняется, как кластеризовать данные с помощью различных методов, включая Z-масштабирование, интерполяцию и метод k-средних. Результаты показывают, что данные не сгруппированы должным образом и что нет статистически значимой разницы между двумя кластерами.

  • 00:45:00 В видео обсуждается, как можно использовать кластеризацию для диагностики проблем с данными. В частности, он демонстрирует, как можно использовать кластеризацию для поиска групп пациентов со схожими характеристиками, например, тех, у кого может быть положительный результат. Затем видео показывает, как можно использовать кластеризацию для поиска различных значений K, что увеличивает количество найденных кластеров.

  • 00:50:00 В этом видео ученые данных обсуждают кластеризацию. Они объясняют, что кластеризация — это процесс объединения данных в похожие группы. Они обсуждают, как можно использовать разные параметры для создания разных кластеров и как специалист по данным должен думать о данных, чтобы создавать лучшие кластеры.
12. Clustering
12. Clustering
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

Лекция 13. Классификация



13. Классификация

В этом видео рассказывается о нескольких методах классификации, включая метод ближайших соседей, K-ближайших соседей (KNN) и логистическую регрессию. Докладчик демонстрирует KNN, используя классификацию животных и примеры распознавания рукописного ввода, и объясняет, как он избегает зашумленных данных, чтобы обеспечить более надежные результаты. Они знакомят с набором данных Titanic и объясняют важность поиска правильного баланса при использовании таких показателей, как чувствительность и специфичность, для оценки эффективности модели классификации. Кроме того, в видео обсуждаются два метода тестирования: исключение одного и повторная случайная подвыборка, а также способы их применения к классификации KNN. Наконец, докладчик объясняет, почему логистическая регрессия предпочтительнее линейной регрессии для задач классификации, подчеркивая ее способность присваивать разные веса разным переменным и давать представление о переменных с помощью весов признаков.

  • 00:00:00 В этом разделе инструктор начинает с введения концепции классификации в обучении с учителем, которая представляет собой действие прогнозирования дискретного значения, часто называемого «меткой», связанного с вектором признаков. Это может включать в себя прогнозирование того, будет ли у кого-то побочная реакция на лекарство или его оценка на курсе. Затем инструктор приводит пример, используя матрицу расстояний и двоичное представление животных, чтобы классифицировать их как рептилий или нет. Самый простой подход к классификации, известный как ближайший сосед, включает в себя запоминание обучающих данных и выбор метки, связанной с ближайшим примером, при прогнозировании метки нового примера.

  • 00:05:00 В этом разделе ведущий объясняет метод классификации K ближайших соседей (KNN), который позволяет избежать зашумленных данных и является более надежным, чем просто метод ближайшего соседа. Он демонстрирует KNN на таких примерах, как классификация животных и распознавание рукописного ввода. Метод KNN использует «голос» нескольких ближайших соседей, обычно нечетное число, а не только одного ближайшего, и это снижает влияние выбросов. Докладчик заключает, что, хотя и не безошибочный, KNN обычно является более надежным методом классификации данных с шумом.

  • 00:10:00 В этом разделе видео обсуждается алгоритм K ближайших соседей и некоторые его ограничения. Хотя метод K-ближайших соседей эффективен и прост для понимания, он требует хранения всех обучающих примеров, что может занимать много памяти, а прогнозирование классификации может занять много времени из-за необходимости сравнивать примеры. Кроме того, если K слишком велико, размер класса может доминировать в алгоритме, что приведет к ошибкам классификации. В видео предлагается использовать перекрестную проверку для выбора наилучшего значения K и объясняется, что важно выбрать K таким образом, чтобы в процессе голосования был явный победитель.

  • 00:15:00 В этом разделе ведущий представляет новый пример для классификации — предсказание, какие пассажиры переживут катастрофу «Титаника» с помощью машинного обучения. Набор данных включает информацию о классе пассажиров, возрасте, поле и о том, выжили они или нет. Чтобы оценить модель машинного обучения, докладчик объясняет, почему точность сама по себе не является хорошей метрикой при наличии дисбаланса классов, и вводит другие метрики, такие как чувствительность, специфичность, положительная прогностическая ценность и отрицательная прогностическая ценность. Он также объясняет важность выбора правильного баланса и то, как эти меры дают разную информацию.

  • 00:20:00 В этом разделе спикер обсуждает важность чувствительности и специфичности в классификаторах и как тестировать классификатор. Чувствительность и специфичность должны быть сбалансированы в зависимости от применения классификатора. Например, тест на рак потребует большей чувствительности, а тест на операцию на открытом сердце — большей специфичности. Затем докладчик объясняет два метода тестирования классификатора: исключение одного (используется для небольших наборов данных) и повторная случайная подвыборка (используется для больших наборов данных). Последний включает в себя случайное разбиение данных на наборы для обучения и тестирования, а параметр, называемый методом машинного обучения, вводится для сравнения различных методов, таких как kN и логистическая регрессия. Показан код для этих тестов, и докладчик подчеркивает важность тестирования классификатора для проверки его производительности.

  • 00:25:00 В этом разделе инструктор обсуждает два метода тестирования, исключает один и повторяет случайную выборку, а также показывает, как применить их к классификации KNN. Преподаватель также объясняет, как использовать лямбда-абстракцию, распространенный прием программирования в математике, чтобы превратить функцию четырех аргументов в функцию двух аргументов. Результаты классификации KNN с использованием обоих методов тестирования показаны и существенно не отличаются, что указывает на постоянство точности критериев оценки. Классификация KNN также показала лучшие результаты, чем случайное предсказание.

  • 00:30:00 В этом разделе спикер обсуждает логистическую регрессию, которая является распространенным методом, используемым в машинном обучении. В отличие от линейной регрессии, предназначенной для предсказания действительного числа, логистическая регрессия предсказывает вероятность определенного события. Этот метод находит веса для каждой функции, вычисляет для каждой функции вес, который используется при прогнозировании, и использует процесс оптимизации для вычисления этих весов из обучающих данных. Логистическая регрессия использует функцию журнала, отсюда и ее название, а линейная модель обучения SK — это библиотека Python, используемая для ее реализации.

  • 00:35:00 В этом разделе спикер объясняет, как построить модель логистической регрессии с использованием обучающих данных и протестировать ее с помощью набора векторов признаков. Модель логистической регрессии создается с использованием библиотеки SKLearn, и после вычисления весов переменных модель можно использовать для прогнозирования вероятностей различных меток на основе заданного вектора признаков. Докладчик также представляет понимание списков, универсальный и эффективный способ создания новых списков из существующих, что может быть особенно полезно при построении наборов тестовых векторов признаков.

  • 00:40:00 В этом разделе спикер обсуждает понимание списков в Python и его удобство для определенных задач, но предостерегает от неправильного использования. Двигаясь вперед, спикер объясняет свой процесс применения логистической регрессии в качестве модели и то, как они строят и тестируют ее, используя обучающие и тестовые данные. Затем они определяют LR, или логистическую регрессию, и показывают, как можно применять модель с ярлыками «выжил» и «не выжил». Докладчик отмечает, что логистическая регрессия работает быстрее, чем KNN, поскольку после получения весов оценка модели становится быстрым процессом.

  • 00:45:00 В этом разделе инструктор объясняет, почему логистическая регрессия предпочтительнее линейной регрессии для задач классификации. Во-первых, логистическая регрессия считается более тонкой и может присваивать разные веса разным переменным для повышения производительности. Во-вторых, он дает представление о переменных с помощью весов функций, которые можно распечатать в качестве вывода. Глядя на веса, можно понять переменные, используемые для классификации. Например, в представленной модели пассажиры салона первого класса оказывали положительное влияние на выживаемость, тогда как возраст и принадлежность к мужскому полу оказывали отрицательное влияние. Преподаватель также советует быть осторожным при интерпретации весов признаков, поскольку переменные могут быть коррелированы.
13. Classification
13. Classification
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

Лекция 14. Классификация и статистические ошибки



14. Классификация и статистические ошибки

В этом видео на YouTube обсуждаются различные классификации и статистические ошибки, которые могут привести к неверным выводам. Одним из ключевых выводов является важность понимания идей, которые можно получить при изучении моделей машинного обучения, поскольку интерпретация весов переменных в логистической регрессии может вводить в заблуждение, особенно когда признаки коррелируют. В видео также подчеркивается важность оценки эффективности классификаторов с использованием площади под кривой рабочей характеристики приемника (AUROC) и недопущения соблазна неправильного использования чисел. Кроме того, подчеркивается важность тщательного изучения данных и избегания нерепрезентативной выборки, поскольку это может привести к статистическим ошибкам, таким как «мусор на входе», «мусор на выходе» (GIGO) и предвзятость выживших.

  • 00:00:00 В этом разделе видео инструктор обсуждает важность изучения моделей машинного обучения, чтобы получить представление о системах и процессах, которые генерируют данные. Он демонстрирует это, исследуя веса различных переменных в модели логистической регрессии, которая использовалась для прогнозирования показателей выживаемости для набора данных Титаник. Глядя на относительные веса различных переменных, инструктор приходит к выводу, что для мужчин, путешествующих в третьем классе, вероятность не выжить после кораблекрушения гораздо выше. Он предостерегает от того, чтобы полагаться исключительно на модели машинного обучения для составления прогнозов, не понимая, какие выводы можно извлечь из их изучения.

  • 00:05:00 В этом разделе спикер объясняет проблемы с интерпретацией весов в логистической регрессии, особенно когда признаки коррелируют. Существует два способа использования логистической регрессии: L1 и L2, причем L2 используется по умолчанию в Python. L1 предназначен для нахождения весов и их обнуления, что позволяет избежать переобучения в многомерных задачах. Однако L1 обнуляет одну переменную, даже если она важна, но коррелирует с другой переменной, имеющей больший вес. С другой стороны, L2 распределяет вес по всем переменным, создавая впечатление, что ни одна из них не очень важна, особенно когда они коррелированы. Чтобы проиллюстрировать это, спикер привел пример классов кабины на «Титанике» и обсудил, как исключение одной переменной может изменить интерпретацию результатов.

  • 00:10:00 В этом разделе видео исследуется проблема чрезмерной интерпретации весов при работе с коррелированными функциями. При анализе некоторых примеров в видео подчеркивается, что интерпретация знака весов может быть полезной, в то время как интерпретация самих весов может вводить в заблуждение. Затем в видео рассматривается параметр P логистической регрессии и объясняется, как разные значения P могут повлиять на точность и чувствительность прогнозов. Видео завершается подчеркиванием того, что даже если точность кажется хорошей, могут быть проблемы с чувствительностью, что указывает на необходимость всестороннего анализа результатов, прежде чем делать какие-либо важные выводы.

  • 00:15:00 В этом разделе спикер рассказывает о рабочей характеристике приемника (ROC) и о том, как это кривая, которая позволяет нам посмотреть на все возможные отсечки модели, чтобы увидеть форму результатов, где ось Y представляет чувствительность, а ось x показывает 1 минус специфичность. Они упоминают о важности площади под кривой (AUC) и о том, как она помогает лучше понять производительность модели. Докладчик предупреждает, что при выборе порога для модели следует избегать углов кривой, которые являются высокочувствительными/неспецифичными или очень специфичными/нечувствительными, чтобы предотвратить принятие моделью неправильных решений и ненужных ошибок.

  • 00:20:00 В этом разделе спикер обсуждает концепцию оценки производительности классификаторов с использованием площади под кривой работы приемника (AUROC). Они объясняют, как кривая показывает эффективность классификатора по сравнению со случайным классификатором, и что чем ближе кривая к единице, тем лучше работает классификатор. Докладчик также отмечает, что определение статистической значимости оценки AUROC может быть сложной задачей и зависит от множества факторов, включая количество точек данных и используемое приложение. В конечном счете, важна полезность оценки AUROC, и она должна помочь в принятии практических решений.

  • 00:25:00 В этом разделе докладчик обсуждает концепцию площади под кривой рабочей характеристики приемника (AUROC) и объясняет, как она обычно используется по сравнению со специфичностью. Они объясняют, что вычислению площади под кривой помогает использование вогнутой кривой, которую они получают из измерения специфичности, и это помогает упростить визуализацию и сравнение статистики. Однако они предупреждают, что этот инструмент может быть использован для введения в заблуждение, и статистики должны понимать, как избежать соблазна неправильного использования цифр. Они подчеркивают, что числа сами по себе не лгут, но лжецы используют числа для создания ложного впечатления. Спикер предлагает набор пар XY, объясняя, что, хотя статистически пары кажутся одинаковыми, на графике они могут сильно различаться.

  • 00:30:00 В этом разделе спикер обсуждает важность того, чтобы не путать статистику с фактическими данными, и подчеркивает ценность визуализации данных с помощью графиков и графиков. Однако он также предупреждает, что вводящие в заблуждение изображения могут создаваться преднамеренно или непреднамеренно, и подчеркивает необходимость тщательного изучения этикеток и понимания контекста диаграммы, прежде чем делать выводы. Докладчик представляет два примера визуально вводящих в заблуждение диаграмм, одна из которых включает гендерное сравнение оценок, а другая — сравнение количества людей, получающих пособие, и работающих полный рабочий день.

  • 00:35:00 В этом разделе спикер обсуждает распространенный статистический грех Garbage In, Garbage Out (GIGO). Они приводят пример 1840-х годов, в котором данные переписи использовались, чтобы утверждать, что рабство полезно для рабов, заявляя, что освобожденные рабы с большей вероятностью сойдут с ума, чем порабощенные рабы. Джон Куинси Адамс разоблачил ошибки в этом утверждении и заявил, что были допущены чудовищные искажения фактов. Спикер подчеркивает, что точность данных имеет решающее значение, и даже если есть ошибки, они должны быть непредвзятыми, независимыми и одинаково распределенными, чтобы не было мусора на входе и выходе.

  • 00:40:00 В этом разделе спикер предостерегает от анализа плохих данных, что может быть хуже, чем полное отсутствие анализа. Часто люди делают неправильный статистический анализ с неверными данными, что приводит к рискованным выводам. Докладчик приводит пример ошибочного анализа данных переписи населения XIX века аболиционистами. Анализ неслучайных ошибок в данных привел к неверным выводам. Затем спикер цитирует, как предвзятость выживших заставила союзников сделать неверный вывод о своих самолетах во время Второй мировой войны. Они проанализировали самолеты, вернувшиеся с бомбардировок, и укрепили места с пулевыми отверстиями от зенитной артиллерии вместо сбитых самолетов. Докладчик объясняет, что статистические методы основаны на предположении, что путем случайной выборки подмножества населения можно сделать математические утверждения обо всем населении. Когда используется случайная выборка, можно сделать осмысленные выводы.

  • 00:45:00 В этом разделе спикер обсуждает нерепрезентативную выборку, также известную как удобная выборка, и ее влияние на статистический анализ. Он объясняет, что удобные выборки обычно не являются случайными и, таким образом, страдают от систематической ошибки выжившего, которая, среди прочего, может исказить результаты опросов общественного мнения и оценок курсов. Более того, он отмечает, что вычисление стандартной ошибки, предполагающее случайные и независимые выборки, не может сделать надежных выводов из удобных выборок, ссылаясь на политические опросы в качестве примера ненадежности статистического анализа. Ключевым выводом является важность понимания того, как данные были собраны и проанализированы, и верны ли предположения, лежащие в основе анализа, чтобы не стать жертвой статистических ошибок.
 

MIT 6.0002 Введение в вычислительное мышление и науку о данных, осень 2016 г. Лекция 15. Статистические ошибки и подведение итогов



15. Статистические ошибки и подведение итогов

В этом видео Джон Гуттаг обсуждает три основных типа статистических ошибок и приводит пример того, как каждый из них может привести к ложным выводам. Он призывает студентов осознавать тип данных, на которые они смотрят, и использовать соответствующий интервал, чтобы убедиться, что их выводы точны.

  • 00:00:00 Джон Гуттаг обсуждает три основных типа статистических ошибок: совершение ошибок по оси Y, начиная с 0, усечение данных, чтобы они выглядели правильно, и путаница колебаний с тенденциями. Он также приводит пример менее спорной темы, лихорадки и гриппа, где ясно, что температура не меняется, когда человек болеет гриппом. Гуттаг призывает студентов осознавать тип данных, на которые они смотрят, и использовать соответствующий интервал, чтобы убедиться, что их выводы точны.

  • 00:05:00 В этом видео статистик и профессор обсуждают опасность выборочных данных, которые могут привести к ложным выводам. Он предполагает, что для того, чтобы сделать обоснованные выводы, ученым следует изучить данные за соответствующий период времени.

  • 00:10:00 Спикер отмечает, что цифры сами по себе не всегда много значат, и что при рассмотрении статистики важен контекст. Он обсуждает два примера статистических данных, где важен контекст: свиной грипп и сезонный грипп. Он также отмечает, что, говоря о процентном изменении, важно знать знаменатель.

  • 00:15:00 В этом видео обсуждаются подводные камни использования процентов для расчета таких вещей, как кластеры рака. Он показывает, как математическое моделирование может дать более точную картину вероятности того или иного события, и как адвокаты могут использовать эту информацию в своих судебных делах.

  • 00:20:00 В этом видео объясняется, как статистический анализ может помочь ответить на вопросы о том, имеет ли определенный регион большое количество случаев рака. На видео также видно, как адвокат, о котором идет речь, провел неправильный статистический анализ, что привело к неверным выводам.

  • 00:25:00 В этом видео инструктор рассказывает о различных статистических ошибках, включая ошибку техасского снайпера и множественную проверку гипотез. Он предупреждает, что скептицизм и отрицание — разные вещи, и что, делая выводы на основе данных, нужно быть осторожным, чтобы не делать ошибок.

  • 00:30:00 Главный вывод из этого видео заключается в том, что программирование — это решение задач с помощью библиотек и алгоритмов. В видео также подчеркивается важность мышления с точки зрения вероятностей и использования случайности при решении задач.

  • 00:35:00 В этом видео профессор обсуждает различные статистические модели, которые студенты могут использовать для анализа данных. Он подчеркивает важность понимания надежности результатов и дает советы о том, как эффективно представлять данные.

  • 00:40:00 В этом видео представлена краткая история вычислительной техники и представлена концепция UROP (научная стажировка). Это объясняет, что, хотя информатика, возможно, не самая популярная специальность в кампусе, это очень достойная область для изучения. Наконец, видео дает несколько заключительных советов о том, как добиться успеха в жизни.
15. Statistical Sins and Wrap Up
15. Statistical Sins and Wrap Up
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
Причина обращения: