Учебники по программированию - страница 17

 

Диаграммы рассеяния и корреляция


Диаграммы рассеяния и корреляция

Всем привет! Сегодня мы представим краткое введение в корреляцию. Мы рассмотрим эту тему всего за три минуты. Давайте начнем!

Когда мы изучаем точечную диаграмму, иногда мы наблюдаем линейную зависимость, когда данные примерно следуют прямой линии. В таких случаях мы можем обсудить корреляцию между переменными. Однако важно не поддаваться искушению использовать термин «корреляция», когда переменные имеют отношение, отличное от линейного. Корреляции могут быть слабыми или сильными, положительными или отрицательными.

Положительная корреляция указывает на то, что при движении слева направо на графике общая форма точек данных наклоняется вверх. И наоборот, отрицательная корреляция означает, что общая форма точек данных опускается, когда мы читаем слева направо. Более сильная корреляция характеризуется тем, что точки данных более плотно сгруппированы вокруг воображаемой линии, в то время как более слабые корреляции показывают более разбросанные точки данных.

Для количественной оценки корреляции мы используем статистику, называемую коэффициентом корреляции (часто обозначаемым как «r»). Он находится в диапазоне от -1 до 1. Значения, близкие к 0, указывают на более облачные или более рассредоточенные данные. В представленных примерах корреляция 0,4 или -0,4 представляет собой умеренную корреляцию, а 0,9 или -0,9 означает более сильную корреляцию. Корреляция 1 или -1 указывает на идеальную линейную зависимость, когда все точки данных лежат точно на линии.

Важно отметить, что коэффициент корреляции «r» не следует путать с наклоном линии. Знак «r» указывает, является ли наклон положительным или отрицательным, но сам «r» конкретно не представляет наклон. Вместо этого коэффициент корреляции отражает, насколько данные разбросаны по линии, которая, как предполагается, проходит через центр данных.

Когда переменные не демонстрируют линейной зависимости, мы говорим, что они не коррелированы. Будьте осторожны при интерпретации коэффициента корреляции в таких случаях. Даже если существует четкая связь между переменными, как в случае параболической формы, вычисление корреляции даст значение, близкое к нулю.

Теперь давайте обсудим вычислительную корреляцию. Одним словом, не рекомендуется рассчитывать его вручную. К счастью, у нас есть такие инструменты, как программные пакеты, которые могут нам помочь. Например, в R используется команда «cor». Предоставляя значения X и Y (две переменные, которые мы хотим сопоставить), мы можем сразу получить коэффициент корреляции. В данной таблице, если мы назначим первую строку как X, а вторую строку как Y, мы можем просто использовать команду «cor(X, Y)», чтобы получить значение корреляции. В этом примере мы получаем корреляцию 0,787, что указывает на умеренную положительную корреляцию.

Scatterplots and Correlation
Scatterplots and Correlation
  • 2020.04.14
  • www.youtube.com
Let's talk about relationships between quantitative variables!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstat...
 

Введение в линейную регрессию


Введение в линейную регрессию

Всем привет! Сегодня мы погрузимся в линейную регрессию. Мы изучали диаграммы рассеяния и обсуждали ситуации, когда наблюдается линейная зависимость между переменными. Другими словами, по мере увеличения переменной X переменная Y имеет тенденцию увеличиваться или уменьшаться с постоянной скоростью. Мы можем обсуждать это явление, когда у нас тесные отношения, как показано в левой части графика, а также когда отношения более разбросаны, как видно на правой стороне.

Чтобы проанализировать эту линейную зависимость, мы можем разумно провести линию по графику рассеяния. Эта линия известна как линия наилучшего соответствия или линия регрессии. Теперь давайте углубимся в математические аспекты линейной регрессии. Ключевая идея включает в себя понятие остатков. Мы помещаем линию над нашими данными и выбираем конкретное значение X. Затем мы вычисляем разницу между фактическим значением Y в наборе данных и прогнозируемым значением Y в строке. Эта разница называется остатком и представляет собой отклонение между фактической и ожидаемой высотами. Вычисляя остатки для каждой точки в нашем наборе данных, возводя их в квадрат и суммируя, мы получаем величину, которую можно минимизировать.

Используя исчисление, мы можем минимизировать эту величину и вывести уравнение для линии регрессии методом наименьших квадратов. Оказывается, эта линия проходит через точку (полоска X, полоска Y), где полоска X — выборочное среднее для значений X, а полоска Y — выборочное среднее для значений Y. Наклон линии регрессии методом наименьших квадратов определяется как r × (sy / SX), где r — коэффициент корреляции, sy — стандартное отклонение значений Y, а SX — стандартное отклонение значений X. Таким образом, уравнение для линии регрессии методом наименьших квадратов представлено внизу слайда.

Вычисление этих значений вручную может быть громоздким. Чтобы упростить процесс, настоятельно рекомендуется использовать технологию или программное обеспечение. Рассмотрим данные, соответствующие диаграмме рассеяния, показанной на предыдущем слайде. Вычисляя средние значения и стандартные отклонения, мы находим, что столбец X равен 5,4, столбец Y равен 2,4 и так далее. Коэффициент корреляции составляет примерно 0,34, что указывает на положительную корреляцию от умеренной до слабой. Подставляя эти значения, мы получаем уравнение для линии регрессии методом наименьших квадратов: 0,19x + 1,34.

Я должен подчеркнуть, что выполнение этих расчетов вручную может быть утомительным. Использование технологий является гораздо более эффективным подходом. Вот пример того, как выглядит линия регрессии наименьших квадратов для этих данных. Это кажется разумным соответствием точкам данных.

Introduction to Linear Regression
Introduction to Linear Regression
  • 2020.04.17
  • www.youtube.com
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
 

Диаграммы рассеяния и линии регрессии в R


Диаграммы рассеяния и линии регрессии в R

Всем привет! В этом кратком руководстве я покажу вам, как создавать красивую графику с помощью пакета ggplot2 в RStudio. Это обсуждение подходит для новичков в статистике одного уровня. Хотя существуют более мощные и сложные методы, я сосредоточусь на наиболее интуитивно понятных и простых подходах. Мы будем работать с подмножеством набора данных iris, а именно с 50 строками, соответствующими цветку вирджинии. Наша цель — создать точечный график зависимости длины чашелистика от ширины чашелистика.

Прежде чем мы начнем, обязательно загрузите пакет tidyverse или его семейство пакетов. Если вы еще не установили его, используйте команду «install.packages('tidyverse')». Если во время установки возникают какие-либо ошибки, рекомендуется искать решения в Интернете. Как только пакет загружен, мы готовы продолжить.

Чтобы создать точечную диаграмму, мы будем использовать базовый синтаксис «qplot». Во-первых, укажите значение x, которое равно «virginica$sepal_length» для горизонтальной оси, где «virginica» — это набор данных, а «sepal_length» — это имя столбца. Затем укажите значение y как "virginica$sepal_width" для вертикальной оси. Далее нам нужно определить, как должны отображаться данные. Для точечной диаграммы мы используем «geom = 'point'». Убедитесь, что вы правильно написали слово «точка». Это создаст базовую диаграмму рассеяния.

Давайте улучшим график, настроив метки осей и изучив параметры настройки, такие как изменение цветов и размеров точек. Чтобы изменить метку оси x, используйте «xlab = 'sepal length'». Точно так же установите «ylab = 'ширина чашелистика'», чтобы изменить метку оси Y. Чтобы изменить цвет точки, добавьте «color = 'darkred'». Обратите внимание, что синтаксис для указания цвета немного своеобразен из-за сложности R.

Теперь, когда метки и цвет точки настроены, можно продолжить эксперименты. Например, вы можете изменить размер точки, используя "size =...". Дополнительно к сюжету можно добавить основной заголовок. Я призываю вас дополнительно изучить возможности «qplot», используя «?qplot» или выполняя поиск в Интернете.

Давайте сделаем еще один шаг и добавим линию регрессии. Одним из преимуществ ggplot2 и tidyverse является то, что вы можете добавлять слои на свой график, просто расширяя существующую команду. Начните с команды «qplot», которую мы создали ранее, а теперь добавьте «geom_smooth()». Это создаст подогнанную линию. Поскольку нас интересует линейная регрессия, укажите «method = 'lm'», чтобы использовать линейную модель. Рекомендуется включать этот аргумент, особенно на вводных занятиях по статистике.

Если вы хотите изменить цвет линии регрессии, вы можете включить «color = 'darkgray'» в команду «geom_smooth()». В результате получится другой цвет.

Наконец, давайте рассмотрим вопрос о том, что произойдет, если мы удалим «se = FALSE». Без этого аргумента R отобразит ленту ошибок. Грубо говоря, эта лента представляет собой доверительный интервал. Если бы нам нужно было построить график всех графиков в наборе данных, из которого были отобраны эти 50 наблюдений, мы бы ожидали, что линия регрессии будет лежать в пределах этой ленты ошибок, обеспечивая грубую меру неопределенности.

Scatterplots and Regression Lines in R
Scatterplots and Regression Lines in R
  • 2020.04.17
  • www.youtube.com
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
 

Использование линий регрессии для прогнозирования


Использование линий регрессии для прогнозирования

Всем привет! Сегодня мы углубимся в линии регрессии. Мы рассмотрим, как использовать их для создания прогнозов, обсудим ошибки прогнозов и поймем, когда их использование для прогнозов неуместно. Давайте начнем!

Вы можете узнать этот пример из моего предыдущего видео. У нас есть небольшой набор данных с пятью значениями, и я провел линию наилучшего соответствия: Ŷ = 0,19X + 1,34. Теперь давайте рассмотрим новое входное значение x = 6. Используя уравнение регрессии, мы можем предсказать соответствующее значение y. В этом случае прогноз равен 2,54. Мы можем нанести это прогнозируемое значение на линию в виде синей точки (6, 2,54).

Иногда мы делаем прогнозы, когда у нас есть значение x, соответствующее значению y в наборе данных. Например, при x = 3 у нас есть точка (3, 1). В таком случае, о какой ошибке идет речь? Мы называем это остатком. Остаток для точки данных — это разница между фактическим значением y в этой точке и значением y, предсказанным линией регрессии. При x = 3 фактическое значение y равно 1, а прогнозируемое значение y равно 1,97, в результате чего остаток составляет -0,97. Это означает, что точка (3, 1) находится примерно на 0,97 единицы ниже линии регрессии.

При использовании линий регрессии для прогнозирования важно учитывать диапазон набора данных. Мы должны делать прогнозы только для значений x, которые попадают в диапазон или разумное расширение набора данных. Классический пример — возраст против веса. Как показано на графике, существует линейная зависимость для людей в возрасте до 12 лет. В пределах этого диапазона мы можем делать достаточно точные прогнозы веса на основе возраста, используя линейную зависимость. Это называется интерполяцией, когда мы прогнозируем значения в пределах диапазона набора данных.

Однако было бы ошибочным использовать эту линейную зависимость, чтобы делать прогнозы за пределами этого диапазона, например, для сорокалетнего человека. Если бы мы применили линейную зависимость для предсказания их веса, результат составил бы более трехсот сорока фунтов, что явно нереально. Это называется экстраполяцией, и ее следует избегать.

Таким образом, при использовании линий регрессии важно понимать ошибки прогнозирования и ограничения. Остатки помогают нам количественно оценить расхождения между фактическими и прогнозируемыми значениями. Мы должны делать прогнозы только в пределах диапазона набора данных или его разумного расширения. Экстраполяция, предполагающая прогнозирование значений за пределами диапазона набора данных, может привести к неточным и ненадежным результатам.

Using Regression Lines to Make Predictions
Using Regression Lines to Make Predictions
  • 2020.04.18
  • www.youtube.com
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
 

Регрессия и прогнозирование в R с использованием команды lm()


Регрессия и прогнозирование в R с использованием команды lm()

Всем привет! Сегодня мы будем вычислять линии регрессии в R, используя встроенный набор данных «автомобили». Для начала давайте взглянем на набор данных и соберем о нем некоторую информацию с помощью команд «просмотр» и «вопросительный знак». Набор данных «автомобили» состоит из 50 записей, представляющих скорости и тормозные пути автомобилей 1920-х годов. Хотя это не свежие данные, мы все еще можем исследовать линейные отношения.

Для визуализации данных воспользуемся пакетом ggplot2 из библиотеки tidyverse. Обязательно загрузите пакет с помощью команды «library(tidyverse)». Если вы еще не установили пакет «tidyverse», вы можете сделать это с помощью команды «install.packages('tidyverse')».

Далее мы создадим точечную диаграмму данных с помощью команды «qplot». Мы отложим скорость по оси x (независимая переменная) и расстояние по оси y (переменная реакции). Чтобы указать, что мы работаем с набором данных «автомобили» и нам нужен точечный график, мы будем использовать «geom='point'». График показывает в основном линейную зависимость, предполагая, что выполнение линейной регрессии является разумным.

Чтобы добавить на график линию регрессии, мы будем использовать «geom_smooth (method = 'lm', se = FALSE)». Это задает сглаживание линейной регрессии без стандартной планки ошибок.

Теперь определим уравнение линии регрессии. Мы будем использовать команду «lm», что означает «линейная модель». Синтаксис соответствует шаблону «y ~ x», где переменная ответа (расстояние) связана с независимой переменной (скоростью). Мы присвоим результат переменной с именем «модель». Введя «резюме (модель)», мы можем получить дополнительную информацию о линии регрессии, включая коэффициенты, остатки и статистические показатели, такие как множественный R-квадрат и скорректированный R-квадрат.

Если мы хотим получить доступ к определенной информации из объекта «модель», мы можем рассматривать его как фрейм данных и использовать «$» для извлечения нужных столбцов. Например, "model$residuals" дает вектор из 50 остатков.

Мы даже можем добавить остатки и подогнанные значения в качестве новых столбцов к исходному набору данных «автомобили», используя «автомобили $ остатки» и «автомобили $ прогноз» соответственно.

Наконец, давайте воспользуемся функцией «прогнозировать», чтобы получить прогнозы скоростей, отсутствующих в наборе данных. Мы предоставим «модель» в качестве первого аргумента и создадим фрейм данных со столбцом с именем «скорость» (соответствующим пояснительной переменной). Используя функцию «data.frame», мы введем желаемые значения скорости. Например, мы можем предсказать тормозной путь для таких скоростей, как 12,5, 15,5 и 17. Прогнозные значения будут отображаться.

Regression and Prediction in R Using the lm() Command
Regression and Prediction in R Using the lm() Command
  • 2021.02.24
  • www.youtube.com
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
 

Отображение остатков в R


Отображение остатков в R

Всем привет, в сегодняшнем видео мы будем исследовать остаточные графики в R с помощью команды qplot. В этом руководстве я в первую очередь буду использовать базовые функции R. Я также работаю над другим видео о пакете broom, который является стандартным способом выполнения задач в R. Я предоставлю ссылку на это видео, как только оно будет готово.

В этом руководстве мы сосредоточимся на переменных «ветер» и «температура» из встроенного набора данных о качестве воздуха в R. Этот набор данных содержит ежедневные измерения качества воздуха в Нью-Йорке с мая по сентябрь 1973 года.

Для начала давайте загрузим пакет tidyverse. Хотя мы будем использовать только функцию qplot, давайте для согласованности загрузим весь пакет.

Прежде чем погрузиться в моделирование, важно визуализировать наши данные. Давайте создадим qplot, установив «ветер» в качестве объясняющей переменной (air_quality$wind) и «temp» в качестве переменной ответа (air_quality$temp). Поскольку у нас есть две переменные, R по умолчанию будет использовать точечную диаграмму.

Изучив график, мы можем наблюдать линейную зависимость между двумя переменными, хотя она не особенно сильная. Чтобы количественно оценить эту связь, давайте рассчитаем коэффициент корреляции с помощью функции cor. Полученный коэффициент корреляции равен -0,458, что указывает на отрицательную корреляцию.

Теперь, когда мы установили линейную зависимость, мы можем добавить на график линию регрессии. Мы изменим команду qplot, включив функцию geom_smooth с методом = «lm», чтобы указать линейную модель. Для простоты исключим ленту ошибок.

После добавления линии регрессии мы можем перейти к построению линейной модели и получить уравнение для линии регрессии. Давайте назначим линейную модель переменной с именем «модель», используя функцию lm. Мы укажем «temp» в качестве переменной ответа и «wind» в качестве независимой переменной. Важно явно указать имя фрейма данных.

Чтобы лучше понять модель, мы можем использовать функцию сводки для получения сводки по модели. В сводке представлена различная информация, в том числе точка пересечения (90,1349) и коэффициент наклона (-1,23). Интерпретация коэффициента наклона заключается в том, что на каждую единицу увеличения ветра температура снижается примерно на 1,23 единицы. Проверка файла справки предоставит информацию об используемых единицах измерения, таких как ветер в милях в час и температура в градусах по Фаренгейту.

Мы можем напрямую получить доступ к коэффициентам, используя функцию коэффициентов, которая возвращает коэффициент пересечения и ветра из модели. Кроме того, мы можем получить подогнанные значения, используя функцию fit.values, предоставляющую нам вектор прогнозируемых температур для каждого значения ветра. Мы можем добавить это как новый столбец «прогноз» во фрейм данных качества воздуха.

Точно так же мы можем получить остатки, используя функцию остатков, которая дает нам различия между наблюдаемыми и прогнозируемыми значениями. Добавление остатков в виде еще одного столбца «остатки» во фрейм данных завершает наше исследование. Мы можем снова визуализировать фрейм данных, чтобы подтвердить наличие новых столбцов.

Чтобы оценить взаимосвязь между подобранными значениями и остатками, мы можем создать график остатков. В команде qplot мы установим подобранные значения как переменную оси X (fitted.values (модель)) и остатки как переменную оси Y (остатки (модель)). Точечная диаграмма будет сгенерирована, как указано в аргументах qplot.

Целью графика остатков является выявление любых закономерностей или тенденций в остатках. В действующей линейной модели с постоянной дисперсией график должен напоминать облако без какой-либо различимой закономерности. Добавление линии регрессии с geom_smooth и method="lm" поможет проверить это. Мы также установим se = FALSE, чтобы удалить стандартную полосу ошибок.

Изучив график остатков, мы видим, что здесь нет заметной закономерности или тенденции, что указывает на то, что наша модель адекватно отражает линейную зависимость. Линия регрессии, представленная y = 0, подтверждает это наблюдение.

На этом мы завершаем наше руководство по созданию остаточных графиков в R с помощью команды qplot. Визуализируя и анализируя остатки, мы можем оценить качество подгонки и уместность нашей линейной модели. Помните, что есть несколько способов добиться одинаковых результатов в R, и изучение различных синтаксисов и функций может улучшить ваше понимание языка.

Residual Plots in R
Residual Plots in R
  • 2021.08.11
  • www.youtube.com
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
 

Выбросы: плечо, несоответствие и влияние


Выбросы: кредитное плечо, несоответствие и влияние

Всем привет! Сегодня мы углубимся в понятия рычага, несоответствия и влияния в контексте линейной регрессии. Хотя я сосредоточусь на сценарии с одной объясняющей переменной, обратите внимание, что все, что здесь обсуждается, напрямую относится и к более высоким измерениям.

В наборе данных с двумя переменными отдельные наблюдения могут демонстрировать необычные характеристики в своих значениях x, y или обоих. Когда мы используем термин «выброс», мы конкретно имеем в виду наблюдения, которые значительно отклоняются в направлении y по сравнению с общей тенденцией данных. Эти выбросы представляют собой точки с высоким расхождением.

Однако в повседневном языке мы часто используем термин «выброс» в более широком смысле. Чтобы проиллюстрировать эту концепцию, давайте рассмотрим три набора данных, каждый из которых отображает линейный тренд с одним необычным наблюдением. На первых двух графиках вы заметите точку, расположенную далеко от линии регрессии и демонстрирующую высокое расхождение. В третьем случае необычное значение довольно хорошо согласуется с общей тенденцией данных, поэтому его нельзя считать выбросом только на основании несоответствия.

Теперь давайте переключим наше внимание на кредитное плечо. Наблюдения с необычными значениями x имеют больший потенциал повлиять на соответствие модели, и говорят, что такие наблюдения имеют большое влияние. Исследуя те же три графика с точки зрения кредитного плеча, мы обнаруживаем, что два крайних правых графика содержат наблюдения с высоким кредитным плечом. Эти выбросы имеют значения x, которые значительно отличаются от большинства данных. И наоборот, первый график показывает выброс с низким кредитным плечом, поскольку его значение x хорошо согласуется с другими значениями в наборе данных.

Наблюдение, которое существенно изменяет соответствие модели, считается имеющим большое влияние. Возвращаясь к первым двум выбросам из предыдущих графиков, давайте рассмотрим их через призму влияния. На первом графике мы наблюдаем выброс с низким влиянием. Если мы удалим это значение из набора данных, линия регрессии не претерпит существенных сдвигов. Примечательно, что наклон остается относительно неизменным. И наоборот, на крайнем правом графике мы видим выброс с большим влиянием. При удалении ее из набора данных линия регрессии претерпевает существенные изменения. Как правило, влиятельные наблюдения демонстрируют как высокое несоответствие, так и высокое влияние.

Хотя все эти концепции можно выразить количественно, в этом видео я не буду вдаваться в подробности. Тем не менее, я хочу указать вам правильное направление, если вы хотите исследовать это дальше. Несоответствие часто измеряется с использованием студенческих остатков, которые представляют собой стандартизированные остатки, количественно определяющие отклонение наблюдений в направлении Y от предсказания модели. Кредитное плечо можно оценить с помощью значений шляпы, которые измеряют расстояние значений x от ожидаемого среднего значения x. Наконец, влияние часто измеряется с помощью расстояния Кука.

К счастью, вам не нужно вычислять эти показатели вручную, так как R предоставляет удобные методы. Пакет с метлой особенно полезен в этом отношении, и я как можно скорее сниму о нем видео.

Outliers: Leverage, Discrepancy, and Influence
Outliers: Leverage, Discrepancy, and Influence
  • 2021.07.14
  • www.youtube.com
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
 

R^2: коэффициент детерминации


R^2: коэффициент детерминации

Сегодняшняя тема - R-квадрат, коэффициент детерминации. Он измеряет разброс наблюдений вокруг линии регрессии или любой статистической модели. Он представляет собой долю дисперсии переменной отклика (y), которая может быть связана с изменениями объясняющей переменной (переменных), особенно в многомерных случаях.

Для линейных моделей R-квадрат всегда находится в диапазоне от 0 до 1. Значения, близкие к 1, указывают на то, что точки данных плотно сгруппированы вокруг линии регрессии, а значения, близкие к 0, указывают на больший разброс.

Чтобы сделать эту концепцию более понятной, давайте визуализируем три набора данных. Каждый набор имеет дисперсию 1 для значений y, и я нарисовал линию регрессии для каждого случая. По мере увеличения R-квадрата с 0,2 до 0,5 и до 0,8 мы наблюдаем все более и более узкий разброс данных вокруг линии регрессии.

Теперь давайте углубимся в более точное определение. R-квадрат рассчитывается как дисперсия подобранных значений y, деленная на дисперсию наблюдаемых значений y. Алгебраически это можно выразить как 1 минус дисперсия остатков, деленная на дисперсию наблюдаемых значений y. В техническом смысле мы можем записать это как:

R-квадрат = (дисперсия остатков) / (дисперсия наблюдаемых значений y)

Для дальнейшего упрощения мы часто сокращаем это алгебраическое выражение как R-squared = 1 - (RSS / TSS), где RSS представляет собой остаточную сумму квадратов, а TSS обозначает общую сумму квадратов.

Важно отметить, что в модели регрессии методом наименьших квадратов с одной объясняющей переменной коэффициент детерминации равен квадрату выборочного коэффициента корреляции (R). Другими словами, R-квадрат (большой R-квадрат) равен маленькому r-квадрату.

В случае многомерных моделей утверждение аналогично. R-квадрат равен квадрату корреляции между наблюдаемыми и подобранными значениями y. Это верно даже для случая с одной переменной, хотя мы обычно не думаем об этом в этих терминах.

Стоит отметить, что R-квадрат часто неправильно понимается и интерпретируется. Итак, давайте уточним его смысл и ограничения. R-квадрат измеряет долю изменчивости y, которая может быть объяснена изменчивостью x. По определению, он будет ниже для наборов данных с высокой изменчивостью значений y. Следовательно, модели с R-квадратом, близким к 1, не обязательно хороши, как показано в примере, где R-квадрат равен 0,93, но линейная модель плохо подходит для данных.

Точно так же модели с низким R-квадратом не обязательно плохи. Например, модель с R-квадратом 0,16 может очень хорошо соответствовать данным, но сами данные по своей сути содержат много естественной изменчивости и шума.

Помните, что R-квадрат измеряет только изменчивость линии регрессии и не указывает напрямую на полезность или целесообразность модели. Чтобы правильно оценить линейные модели, рассмотрите несколько инструментов и факторов, таких как стандартная ошибка невязки (стандартное отклонение невязок), которая дает представление о изменчивости данных по сравнению с прогнозируемыми значениями. Кроме того, вы можете проверить уровень значимости регрессии, используя статистику t для линейных подгонок и статистику f для проверки нулевой гипотезы о том, что все коэффициенты регрессии равны нулю в моделях с более высокой размерностью.

При оценке моделей крайне важно не полагаться исключительно на R-квадрат, а рассматривать его в сочетании с другими показателями и анализами.

R^2: the Coefficient of Determination
R^2: the Coefficient of Determination
  • 2021.10.20
  • www.youtube.com
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
 

Понимание распределения хи-квадрат


Понимание распределения хи-квадрат

Сегодня мы собираемся обсудить распределение хи-квадрат, фундаментальную концепцию, с которой вы столкнетесь, изучая статистические выводы в своем путешествии по науке о данных. Распределение хи-квадрат возникает, когда вы хотите измерить, насколько набор независимых числовых наблюдений отклоняется от их ожидаемых значений.

Чтобы объяснить это более формально, вы вычисляете z-оценку для каждого наблюдения, вычитая ожидаемое значение из наблюдения и разделив его на стандартное отклонение. После возведения в квадрат каждого из этих z-показателей и их суммирования вы получаете случайную величину хи-квадрат. Эта переменная количественно определяет общее отклонение ваших наблюдений от их ожидаемых значений.

Например, если все наблюдения идеально совпадают с их ожидаемыми значениями, статистика хи-квадрат будет равна нулю. По мере дальнейшего отклонения результатов от ожидаемых значений значение хи-квадрат увеличивается. Возводя z-показатели в квадрат, мы гарантируем, что низкие и высокие отклонения не компенсируют друг друга.

Распределение хи-квадрат с r степенями свободы представляет выборочное распределение этой случайной величины. Степени свободы (r) соответствуют количеству независимых наблюдений или z-показателей. Обратите внимание, что случайная величина имеет то же имя, что и распределение, но контекст обычно различает их.

Поскольку каждый z-показатель является непрерывной случайной величиной, сумма их квадратов подчиняется распределению хи-квадрат. Функция плотности вероятности распределения хи-квадрат положительна только для неотрицательных значений хи-квадрат. Распределение смещено вправо, потому что чрезвычайно высокие значения отдельных z-показателей становятся все менее вероятными.

Типичный график распределения хи-квадрат с 5 степенями свободы демонстрирует этот сильный перекос вправо. Его поддержка (множество возможных исходов) состоит строго из положительных значений. Следует помнить два важных факта: ожидаемое значение распределения хи-квадрат с r степенями свободы равно r и что пик распределения приходится на R минус 2 при условии, что R равно как минимум двум (в противном случае оно равно нулю). ).

По мере увеличения числа степеней свободы распределение хи-квадрат приближается к нормальному распределению в соответствии с центральной предельной теоремой. Это приближение можно наблюдать на эскизе, показывающем распределение хи-квадрат с R, равным 50, которое все еще демонстрирует небольшой перекос вправо.

Распределение хи-квадрат часто используется в логической статистике, как видно из первого слайда. Некоторые распространенные приложения включают проверку значимости дисперсии в предположении о нормальном распределении, проверку согласия для категориальных переменных и проверку независимости методом хи-квадрат.

Чтобы вычислить вероятности в распределении хи-квадрат, вы можете использовать кумулятивную функцию распределения (CDF). Функция CDF, обозначаемая как F(x), обеспечивает вероятность получения значения, меньшего или равного x, в указанном распределении хи-квадрат. Это можно лучше понять с помощью визуального представления, где заштрихованная область представляет вероятность.

В R вы можете выполнять вычисления хи-квадрат с помощью команды pchisq(), указав интересующее значение и количество степеней свободы. Например, чтобы вычислить вероятность получения значения, меньшего или равного 8, в распределении хи-квадрат с пятью степенями свободы, вы должны использовать pchisq(8, 5), что дает примерно 0,843.

Если вас интересуют дополнительные подробности или вычисления, связанные с распределением хи-квадрат в R, у меня есть специальные видеоролики, посвященные этим темам. Не стесняйтесь проверить их для более подробных объяснений.

Understanding the chi-squared distribution
Understanding the chi-squared distribution
  • 2022.12.07
  • www.youtube.com
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
 

Вычисления хи-квадрата в R


Вычисления хи-квадрата в R

Сегодня мы выполним некоторые вычисления хи-квадрат в R. Критерий хи-квадрат обычно используется в логической статистике для различных целей, таких как проверка согласия и проверка гипотез с участием дисперсий. Хи-квадрат — это непрерывная случайная величина, отклоненная вправо. Его ожидаемое значение обозначается «r», а его дисперсия равна 2r. В большинстве приложений r является положительным целым числом, хотя может быть и нецелым числом.

По мере увеличения значения r функция плотности вероятности (PDF) распределения хи-квадрат смещается вправо и начинает напоминать колоколообразную кривую из-за центральной предельной теоремы. Параметр r известен как количество степеней свободы для распределения хи-квадрат.

В R есть четыре основные функции для вычисления распределения хи-квадрат:

  1. rchisq(r, n): эта функция генерирует n случайных значений из распределения хи-квадрат с r степенями свободы. Например, rchisq(5, 16) генерирует 16 случайных значений из хи-квадрата с 5 степенями свободы.

  2. pchisq(x, r): это кумулятивная функция распределения (CDF) для распределения хи-квадрат с r степенями свободы. Он возвращает вероятность случайного получения значения, меньшего или равного x в этом распределении. Например, pchisq(8, 5) дает вероятность получить значение меньше или равное 8 в хи-квадрат с 5 степенями свободы, что приблизительно равно 0,844.

  3. qchisq(p, r): это обратный CDF для распределения хи-квадрат с r степенями свободы. Он возвращает значение x, для которого вероятность получения значения, меньшего или равного x, равна p. Например, qchisq(0,5, 12) дает медиану хи-квадрата с 12 степенями свободы, что приблизительно равно 0,5.

  4. dchisq(x, r): эта функция дает значение функции плотности вероятности (PDF) распределения хи-квадрат с r степенями свободы в точке x. PDF имеет теоретическое значение, но реже используется в численных расчетах.

Теперь давайте решим несколько примеров задач, используя эти функции:

Задача 1: вычислить вероятность случайного получения значения x от 12 до 18 в хи-квадрат с 15 степенями свободы.

prob <- pchisq ( 18 , 15 ) - pchisq ( 12 , 15 )

Вероятность приблизительно равна 0,4163.

Задача 2. Учитывая, что существует 80-процентная вероятность того, что случайная ничья из хи-квадрата с 20 степенями свободы больше x, найдите значение x.

x <- qchisq ( 0.2 , 20 )

Значение x приблизительно равно 14,57844.

Задача 3: Смоделируйте десять тысяч розыгрышей из распределения хи-квадрат с 4 степенями свободы и сгенерируйте гистограмму результатов.

x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )

Это создаст гистограмму смоделированных значений.

Я надеюсь, что это поможет вам понять и применить вычисления хи-квадрат в R.

Chi-Squared Calculations in R
Chi-Squared Calculations in R
  • 2020.10.15
  • www.youtube.com
In the vid, I cover the functions pchisq(), qchisq(), rchisq(), and dchisq(). If this vid helps you, please help me a tiny bit by mashing that 'like' button....
Причина обращения: