Учебники по программированию - страница 12

 

Графики ствола и листьев в R


Графики ствола и листьев в R

Всем привет! Сегодня мы познакомимся с увлекательным миром стеблевых сюжетов. График ствола и листа, также известный как график ствола, представляет собой визуальное представление данных для одной переменной. Он особенно хорошо подходит для небольших наборов данных, поскольку дает представление о форме, центре и разбросе данных. Чтобы улучшить наше понимание, мы рассмотрим два примера.

Во-первых, давайте погрузимся во встроенный «достоверный» набор данных. Этот набор данных состоит из 272 наблюдений продолжительности извержения и времени ожидания знаменитого гейзера Old Faithful в Соединенных Штатах. Все измерения записываются в секундах. В R базовая команда для создания диаграммы ствола имеет удобное название «стебель». Нам нужно указать имя переменной, которую мы хотим проанализировать из «достоверного» набора данных. Начнем с переменной времени ожидания.

Обратите внимание на ключ, расположенный в верхней части графика ствола. Десятичная точка располагается на одну цифру справа от косой черты. Глядя на диаграмму основы, мы можем определить первую пару значений в наборе данных, а именно 43 и 45. Примечательно, что R автоматически разделяет основы для размещения диапазона значений. Например, 40-е делятся на диапазон 40-44 в первом стебле и 45-49 во втором стебле и так далее.

Если мы хотим переопределить автоматическое разделение основы, мы можем использовать аргумент «масштаб». Этот аргумент позволяет нам отрегулировать высоту графика основы, указав коэффициент масштабирования. В этом случае, чтобы предотвратить расщепление стеблей, мы можем уменьшить вдвое высоту стеблей, установив «масштаб = 0,5». Хотя это может и не улучшить визуальную привлекательность, это служит ценной иллюстрацией использования аргумента «масштаба».

Теперь давайте перейдем ко второму примеру. У нас есть набор данных, состоящий из 20 наблюдений за временем реакции в миллисекундах на визуальный стимул участниками исследования. Как и раньше, мы начнем с основного сюжета ствола. В этом случае десятичная точка находится на две цифры справа от косой черты. Например, «3/1» представляет «310».

Обратите внимание, что на этом графике происходит некоторое округление. Минимальное значение в наборе данных фактически равно 309, что приводит к небольшой потере информации. Как и в предыдущем примере, мы можем изменить настройки по умолчанию с помощью команды «масштаб». Давайте поэкспериментируем с этим, отрегулировав коэффициент масштабирования. Например, установка «масштаба = 0,5» может дать еще меньше интуитивного представления о форме набора данных по сравнению с нашим исходным сюжетным графиком. Однако, если мы удвоим длину графика ствола, мы сможем лучше понять распределение данных.

На этом измененном графике вы заметите, что стебли перешли от однозначных цифр к двузначным. Например, когда мы читаем первые несколько значений, представленных в наборе данных, мы наблюдаем 307 и 309. Кроме того, следующий указанный ствол — «32» вместо «31». Это происходит из-за того, что данные, начинающиеся с «30» и «31», объединяются в один ствол. Следовательно, возможна потеря информации. Однако листья продолжают увеличиваться по порядку.

Чтобы избежать пропуска значений в основах и собрать все данные без пропусков, нам необходимо дополнительно настроить коэффициент масштабирования. В этом случае мы можем сделать стеблевой сюжет в пять раз длиннее исходной версии. Это позволяет нам получить график основы, который включает все данные без пропуска основы, что соответствует нашему желаемому представлению.

Хотя это окончательное отображение охватывает полный набор данных, оно может быть не самым оптимальным выбором из-за его чрезмерной длины. Становится сложно воспринимать форму, закономерности и лежащие в основе тенденции в наборе данных. Принимая во внимание альтернативы, лучшими вариантами для четкого и информативного основного сюжета являются либо тот, который не переопределяет разделение основного материала, либо исходный основной график, с которого мы начали.

Выбирая любой из этих вариантов, мы находим баланс между сохранением сути данных и сохранением краткого и визуально интерпретируемого представления. Важно помнить, что цель графика «стебель-листья» состоит в том, чтобы обеспечить интуицию и понимание распределения данных, позволяя нам идентифицировать основные тенденции, вариации и выбросы.

Итак, в заключение, диаграммы «стебли и листья» являются ценным инструментом для анализа небольших наборов данных. Они предлагают простые и наглядные средства для понимания формы, центра и распространения данных. Экспериментируя с коэффициентом масштабирования и разбиением основы, мы можем настроить график в соответствии с нашими конкретными требованиями. Однако крайне важно найти баланс между сбором полного набора данных и сохранением четкого представления, которое облегчает анализ и интерпретацию данных.

Теперь, когда мы изучили диаграммы «стебель-лист» на двух примерах, мы получили ценную информацию об их использовании и настройке. Вооружившись этими знаниями, мы можем применять диаграммы «стебли и листья» к другим наборам данных, чтобы раскрыть их скрытые истории и принимать обоснованные решения на основе анализа данных.

Stem-and-Leaf Plots in R
Stem-and-Leaf Plots in R
  • 2020.07.08
  • www.youtube.com
Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...
 

Качественное описание данных


Качественное описание данных

Всем привет, сегодня мы обсудим качественное описание форм наборов данных, сосредоточившись на построении словарного запаса для эффективной передачи наших наблюдений. Мы изучим различные графические представления, такие как гистограммы, многоугольники частот и графики стеблей, и обсудим их характеристики. Давайте углубимся в некоторые примеры:

Во-первых, давайте рассмотрим гистограмму. В этом случае график имеет симметричную форму, левая половина которой похожа на правую. Хотя реальные данные редко демонстрируют идеальную симметрию, мы фокусируемся на описании общей формы, а не на определении конкретных значений. Другой тип симметричного распределения — это однородный граф, в котором значения данных равномерно распределены по ячейкам. В результате получается плоская по горизонтали форма, указывающая на равную вероятность попадания значений в каждую ячейку.

Теперь давайте исследуем наборы данных, которые не являются симметричными. Вместо гистограмм мы для разнообразия будем рассматривать стеблевые графики. В этом примере сюжета ствола мы можем наблюдать асимметричную форму. Видно, что распределение неодинаково по обе стороны от центра, лежащего около 92. Более того, мы можем различить направление асимметрии. В этом случае более длинный хвост направлен к более высоким числам, от центра. Это указывает на правостороннее распределение.

С другой стороны, вот основной сюжет, перекошенный влево. Мы замечаем более длинный хвост со стороны меньших значений, тогда как данные более сконцентрированы в сторону больших значений. Важно точно описать направление асимметрии, чтобы обеспечить полное понимание набора данных.

Наконец, давайте рассмотрим набор данных, который изначально может показаться смещенным вправо из-за одного большого выброса около 160 или 170. Однако, если мы проигнорируем этот выброс, распределение будет иметь довольно симметричную форму, потенциально напоминающую кривую нормального распределения. Крайне важно идентифицировать выбросы, поскольку они могут представлять собой ошибки, исключительные случаи или явления, требующие отдельного анализа. При описании общей формы данных выбросы следует признавать, но не принимать во внимание.

Разработав словарь для описания форм наборов данных, мы можем эффективно сообщать ключевые характеристики и закономерности, наблюдаемые в данных. Понимание формы набора данных помогает интерпретировать его свойства и позволяет делать важные выводы.

Describing Data Qualitatively
Describing Data Qualitatively
  • 2020.07.12
  • www.youtube.com
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
 

Понимание среднего, медианы и моды


Понимание среднего, медианы и моды

Всем привет, сегодня мы обсудим понятия среднего, медианы и моды, сосредоточив внимание на их интерпретации как меры центральной тенденции. Каждая мера имеет свою полезность, и понимание их имеет решающее значение. Давайте быстро пройдемся по их определениям.

Среднее значение представляет собой среднее числовое значение набора данных. Он рассчитывается путем суммирования всех значений в наборе и деления суммы на количество значений. Среднее значение обычно обозначается X-bar или X с линией над ним, особенно при работе с образцами.

Медиана — это значение, которое делит данные ровно пополам. Чтобы найти медиану, упорядочите данные от наименьшего к наибольшему. Если имеется нечетное количество значений, медианой является среднее значение. Для четного числа значений усредните два средних значения, чтобы найти медиану. Медиана часто обозначается заглавной М.

Мода — это просто наиболее распространенное значение в наборе данных. Распределение может иметь несколько мод, если два или более значений имеют одинаковую частоту, но если все данные имеют одинаковую частоту, мы говорим, что у распределения нет моды.

Рассмотрим пример. Предположим, у нас есть набор данных с 16 значениями. Среднее значение рассчитывается путем суммирования всех значений и деления на 16. В этом случае среднее значение равно 67,9375. Медиана, поскольку у нас есть четное число значений, находится путем взятия среднего из двух средних значений, в результате чего получается 65,5. Режим, наиболее распространенное значение, 65.

Каждая мера центральной тенденции также имеет графическую интерпретацию. В гистограмме мода — это самая высокая точка на гистограмме, представляющая наиболее часто встречающееся значение. Медиана — это значение, которое делит гистограмму пополам, разделяя площадь поровну. Среднее значение — это значение, которое позволит сбалансировать гистограмму.

Рассмотрим пример гистограммы. Режим можно определить, определив значение x, при котором гистограмма является самой высокой, что в данном случае немного больше 3. Медиана — это значение, которое делит площадь гистограммы пополам, что составляет около 4,5. Среднее значение — это значение, которое сбалансирует гистограмму, чуть меньше 5.

Зачем нужны три меры центральной тенденции? Каждая мера имеет свои преимущества и недостатки. Среднее значение обычно используется в статистическом анализе и интуитивно понятно. Однако на него сильно влияют выбросы, и он может не подходить для асимметричных распределений.

Медиану легко вычислить и понять, и она не чувствительна к выбросам. Однако он не использует всю информацию в наборе данных и может вызвать проблемы при статистическом выводе.

Мода является универсальной мерой центральной тенденции даже для категориальных переменных. Однако наиболее распространенное значение не обязательно представляет собой середину распределения, что делает его менее надежным в качестве меры центра.

Рассмотрим небольшой набор данных результатов экзаменов, включая выбросы. В этом случае среднее значение 79 не точно описывает типичную успеваемость учащегося. Медиана, равная 94, является более описательной мерой. Удаление выброса показывает разницу более четко, поскольку среднее значение значительно меняется, а медиана остается неизменной.

Понимание различий между средним значением, медианой и модой позволяет нам эффективно интерпретировать и сообщать основные тенденции набора данных, учитывая их сильные и слабые стороны в различных сценариях.

Understanding Mean, Median, and Mode
Understanding Mean, Median, and Mode
  • 2020.07.13
  • www.youtube.com
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
 

Выборочная дисперсия и стандартное отклонение


Выборочная дисперсия и стандартное отклонение

Всем привет, сегодня мы углубимся в концепцию выборочной дисперсии и стандартного отклонения. Эти две меры помогают нам понять степень изменчивости или разброса в наборе данных. Они дают представление о том, насколько в среднем значения в наборе данных отклоняются от среднего значения.

Давайте посмотрим на формулы. В формулах «n» представляет собой общий размер выборки, «X_i» обозначает значения в наборе данных (например, X_1, X_2, X_3 и т. д.) и «X полоса» (X с линией над ней) представляет выборочное среднее значение. Хотя мы обычно используем такую технологию, как R, для вычисления этих показателей, крайне важно понимать лежащие в их основе концепции, тем более что мы больше не выполняем эти вычисления вручную.

Ключевым компонентом обеих мер является термин «X_i минус X бар», который представляет собой отклонение каждого значения (X_i) от среднего значения выборки. Другими словами, он количественно определяет, насколько каждое значение отличается в положительную или отрицательную сторону от среднего. В идеале мы хотим определить среднее значение этих отклонений, но простое среднее значение даст ноль, поскольку положительные и отрицательные отклонения компенсируют друг друга. Чтобы решить эту проблему, мы возводим в квадрат каждое отклонение (X_i минус X бар) перед вычислением среднего значения. Это приводит к формуле выборочной дисперсии, которая представляет собой среднее квадратов отклонений от среднего значения.

Однако вы могли заметить, что в формуле дисперсии мы делим на (n-1) вместо n. Для этого есть несколько причин, но вот одна из них: при вычислении среднего значения выборки (полоска X) нам нужно только (n-1) значений X_i. Это связано с тем, что бар X рассчитывается как сумма всех X_i, деленная на n. Таким образом, мы можем найти любое значение X_i, если у нас есть полоса X. Деление на (n-1) учитывает это и гарантирует, что мы вычисляем среднее значение (n-1) различных отклонений, а не всех n из них. Таким образом, мы получаем выборочную дисперсию как значимую меру изменчивости.

Другая проблема заключается в том, что дисперсия не соответствует масштабу исходных данных, что делает ее абстрактной. Чтобы решить эту проблему, мы берем квадратный корень выборочной дисперсии, в результате чего получается формула выборочного стандартного отклонения. Хотя стандартное отклонение требует дополнительных вычислений и может быть теоретически сложным, его легче интерпретировать и визуализировать, чем дисперсию. И дисперсия, и стандартное отклонение используются в разных контекстах.

Рассмотрим пример с набором данных всего из четырех значений. Чтобы вычислить выборочную дисперсию и стандартное отклонение, мы сначала вычисляем выборочное среднее путем суммирования четырех значений и деления на четыре, получая среднее значение 121. Используя формулу дисперсии, мы возводим в квадрат отклонения (X_i минус X бар) для каждого значения и усреднить квадраты отклонений, разделив их на три (на единицу меньше числа значений). Это дает дисперсию 220. Однако это значение не поддается непосредственной интерпретации. Чтобы решить эту проблему, мы берем квадратный корень из дисперсии, в результате чего стандартное отклонение равно 14,8. Это значение имеет больше смысла как мера разброса в наборе данных.

С точки зрения технологии мы можем использовать такие команды, как «var» и «sd» в R для вычисления дисперсии и стандартного отклонения соответственно. Для этих расчетов настоятельно рекомендуется использовать технологии, поскольку они экономят время и обеспечивают точные результаты. Расчет дисперсии и стандартного отклонения вручную в большинстве случаев больше не требуется.

Кроме того, важно отметить, что в большинстве случаев около двух третей значений данных находятся в пределах одного стандартного отклонения от среднего. Для колоколообразного распределения (нормальное распределение) примерно 68 % данных находятся в пределах одного стандартного отклонения, около 95 % — в пределах двух стандартных отклонений и почти все (99,7 %) — в пределах трех стандартных отклонений от среднего. Это известно как эмпирическое правило или правило 68-95-99,7.

Чтобы проиллюстрировать это, давайте рассмотрим набор данных из 200 значений, случайно выбранных из целых чисел от 0 до 100. Среднее значение этого набора данных равно 49,9, а стандартное отклонение равно 27,3. Применяя эмпирическое правило, если мы поднимемся на одно стандартное отклонение выше и ниже среднего, мы получим 68% значений, что составляет 136 значений. Если распределение имеет форму колокола (нормальное распределение), мы можем сделать еще более точные оценки. В этом случае примерно 95% значений (190 из 200) будут находиться в пределах двух стандартных отклонений от среднего, и почти все значения (199 из 200) будут находиться в пределах трех стандартных отклонений от среднего.

В заключение еще один пример с использованием эмпирического правила. Предположим, у нас есть результаты стандартизированного теста, которые примерно соответствуют распределению в форме колокола. Средний балл равен 1060, а стандартное отклонение равно 195. Применяя эмпирическое правило, мы можем оценить, что около 68% баллов попадут между 865 и 1255 (на одно стандартное отклонение ниже и выше среднего). Приблизительно 95% баллов будут лежать между 670 и 1450 (два стандартных отклонения ниже и выше среднего). Наконец, около 99,7% баллов будут находиться в диапазоне от 475 до 1645 (три стандартных отклонения ниже и выше среднего).

Понимание дисперсии и стандартного отклонения помогает нам понять разброс и изменчивость в наборе данных. Хотя технологии облегчают их вычисление, крайне важно понимать основные концепции для эффективной интерпретации и анализа данных. Используя эти меры, мы можем получить ценную информацию и принять обоснованные решения на основе характеристик данных.

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

Процентили и квантили в R


Процентили и квантили в R

Сегодня мы будем обсуждать процентили и квантили в R. Давайте начнем с рассмотрения их значений.

Процентили — это способ измерения относительного положения значения в наборе данных. Как правило, p-й процентиль набора данных — это значение, превышающее p процентов данных. Например, 50-й процентиль — это медиана, 25-й процентиль — это первый квартиль, а 75-й процентиль — это третий квартиль. Он представляет значение, которое лежит выше 75 процентов данных.

Существуют различные методы вычисления процентилей, и общепринятого подхода не существует. Однако хорошая новость заключается в том, что все методы дают очень похожие результаты. Для вычисления процентилей лучше всего полагаться на такие технологии, как R, которые обеспечивают эффективные и точные расчеты.

С другой стороны, квантили по сути такие же, как процентили. Однако термин «квантили» часто используется, когда речь идет о десятичных значениях, тогда как «процентили» связаны с целыми значениями. Например, у вас может быть 15-й процентиль, но квантиль 0,15. Преимущество квантилей в том, что они обеспечивают большую точность, выражая значения с таким количеством знаков после запятой, какое необходимо.

Теперь давайте переключимся на R и изучим, как вычислять процентили и квантили, используя «верный» набор данных, который содержит информацию о продолжительности извержения и времени ожидания гейзера Old Faithful в Соединенных Штатах, измеряемом в минутах.

Чтобы вычислить процентили и квантили в R, мы можем использовать функцию «квантили». Это требует двух аргументов. Во-первых, мы указываем интересующую нас переменную, в данном случае это "faithful$waiting". Далее указываем искомый квантиль, записанный в виде десятичной дроби. Например, чтобы вычислить 35-й процентиль (квантиль 0,35), мы пишем 0,35 в качестве аргумента квантиля. Выполняя команду, мы получаем результат, например 65 в данном случае. Это означает, что примерно 35% всех извержений имеют время ожидания меньше или равное 65.

В R можно одновременно вычислять несколько квантилей, предоставляя вектор квантилей. Например, с помощью функции "c()" мы можем указать квантили 0,35, 0,70 и 0,95. Результатом будет вектор, содержащий соответствующие квантили: 65, 81 и 89.

Еще одна полезная команда — «summary», которая предоставляет сводку по переменной. Передавая в команду переменную "faithful$waiting", мы получаем первый квартиль (25-й процентиль), медиану (50-й процентиль), третий квартиль (75-й процентиль), а также минимальное, максимальное и среднее значения.

Теперь обратимся к противоположному вопросу. Если у нас есть значение в наборе данных и мы хотим определить его процентиль, мы можем использовать команду «ecdf». Указав интересующую переменную, например «faithful$waiting», и предоставив конкретное значение из набора данных, например 79, команда вернет процентиль этого значения. В этом примере результат равен 0,6617647, что указывает на то, что время ожидания 79 соответствует приблизительно 66-му процентилю.

Понимание процентилей и квантилей позволяет нам оценивать относительное положение значений в наборе данных, предоставляя ценную информацию о распределении и характеристиках данных.

Percentiles and Quantiles in R
Percentiles and Quantiles in R
  • 2020.07.18
  • www.youtube.com
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Z-баллы


Z-баллы

Привет всем, в сегодняшнем обсуждении мы рассмотрим z-оценки, также известные как стандартные оценки. Этот метод позволяет нам измерить относительное положение значений в наборе данных.

Z-оценка представляет собой количество стандартных отклонений, на которое значение отклоняется от среднего. Например, если у нас есть набор данных со средним значением 50 и стандартным отклонением 8, значение 62 будет иметь z-показатель 1,5. Это означает, что значение 62 на 1,5 стандартных отклонения выше среднего.

Z-оценки особенно полезны для оценки относительных позиций в наборах данных с симметричным распределением, особенно в тех, которые следуют колоколообразному или нормальному распределению. Однако при работе с искаженными данными или наборами данных, содержащими выбросы, среднее значение и стандартное отклонение могут неточно отражать центр и разброс данных. Следовательно, полезность z-показателей в таких случаях снижается.

Формула для расчета z-показателя: z = (x - μ) / σ, где x — значение в наборе данных, μ — среднее значение, а σ — стандартное отклонение. Среднее значение иногда обозначается значком x, а стандартное отклонение — s, но формула остается прежней.

Z-показатели особенно ценны при сравнении относительных позиций значений в разных наборах данных. Давайте рассмотрим пример, чтобы проиллюстрировать это. Средний рост взрослых мужчин в США составляет 69,4 дюйма со стандартным отклонением 3,0 дюйма. С другой стороны, средний рост взрослых женщин в Соединенных Штатах составляет 64,2 дюйма со стандартным отклонением 2,7 дюйма. Теперь мы можем сравнить относительную редкость мужчин ростом 64,2 дюйма и женщин ростом 69,4 дюйма.

Чтобы рассчитать z-показатель для мужчины, мы используем формулу (64,2 - 69,4) / 3,0. Полученный z-показатель равен -1,73, что указывает на то, что рост мужчины на 1,73 стандартного отклонения ниже среднего роста мужчин. Для женщины z-показатель равен (69,4–64,2)/2,7, что дает z-показатель 1,93. Это означает, что рост женщины на 1,93 стандартного отклонения выше среднего роста женщин. Сравнивая абсолютные значения двух z-показателей, можно сделать вывод, что рост женщины более необычен по сравнению со средним ростом женщин.

Важно отметить, что сами по себе z-показатели не дают четкого различия между «обычными» и «необычными» значениями. Общепринято считать значения, отличающиеся более чем на два стандартных отклонения от среднего, необычными, а значения, отличающиеся более чем на три стандартных отклонения, очень необычными. Однако это всего лишь эмпирическое правило, и решение в конечном итоге зависит от контекста и конкретного распределения данных.

Чтобы продемонстрировать это, давайте рассмотрим случай с мужчиной ростом 76 дюймов. Используя ту же формулу и заданное среднее значение и стандартное отклонение для мужчин, мы вычисляем z-показатель, равный 2,2. Поскольку это значение больше 2 по абсолютной величине, мы должны считать рост человека необычным в соответствии с соглашением.

Эмпирическое правило служит ориентиром при работе с примерно колоколообразными распределениями. Около 68 % значений находятся в пределах одного стандартного отклонения от среднего (значения z от -1 до 1), приблизительно 95 % находятся в пределах двух стандартных отклонений (значения z от -2 до 2) и около 99,7 % находятся в пределах трех стандартных отклонений. стандартные отклонения (z-баллы от -3 до 3).

В заключение, z-показатели предлагают полезный способ оценить относительное положение значений в наборе данных. Они особенно полезны для сравнения значений в разных наборах данных и определения редкости или необычности конкретного значения. Однако важно учитывать форму распределения, выбросы и контекст данных при интерпретации z-показателей.

В заключение краткий пример. Предположим, у нас есть набор данных о росте взрослых женщин в Соединенных Штатах, который примерно соответствует распределению в форме колокола. Средний рост составляет 64,2 дюйма со стандартным отклонением 2,7 дюйма.

Используя эмпирическое правило, мы можем оценить диапазоны роста, в которые попадает определенный процент женщин. В пределах одного стандартного отклонения от среднего будет найдено примерно 68% роста женщин. Вычитая 2,7 из 64,2, мы получаем 61,5 дюйма, а прибавляя 2,7, получаем 66,9 дюйма. Таким образом, мы можем оценить, что рост около 68% женщин находится между 61,5 и 66,9 дюймами.

Расширяя до двух стандартных отклонений, мы обнаруживаем, что примерно 95% роста женщин находятся в этом диапазоне. Вычитая 2,7 дважды из среднего, мы получаем 58,8 дюйма, а дважды добавляя 2,7, мы получаем 69,6 дюйма. Следовательно, можно ожидать, что рост около 95% женщин будет находиться в диапазоне от 58,8 до 69,6 дюймов.

Наконец, в пределах трех стандартных отклонений, которые охватывают примерно 99,7% данных, мы трижды вычитаем 2,7 из среднего значения, чтобы получить 56,1 дюйма, и трижды прибавляем 2,7, чтобы получить 71,7 дюйма. Следовательно, мы можем оценить, что рост около 99,7% женщин будет между 56,1 и 71,7 дюймами.

Понимание z-показателей и их интерпретации позволяет нам оценивать относительное положение и редкость значений в наборе данных, предоставляя ценную информацию в различных областях, таких как статистика, исследования и анализ данных.

Помните, что z-показатели обеспечивают стандартизированную меру относительного положения с учетом среднего значения и стандартного отклонения набора данных. Они являются мощным инструментом для понимания распределения и сравнения значений в разных наборах данных.

Z-Scores
Z-Scores
  • 2020.07.19
  • www.youtube.com
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
 

Резюме пяти чисел и тест 1,5 x IQR для выбросов


Резюме пяти чисел и тест 1,5 x IQR для выбросов

Всем привет! Сегодня мы углубимся в концепции сводки из пяти чисел и теста 1,5-кратного IQR для выбросов. Начнем с определения квартилей набора данных. Квартили — это значения, которые делят набор данных на четыре равные части. Первый квартиль (Q1) лежит выше примерно 25% данных, второй квартиль (Q2) лежит выше примерно половины данных (также известный как медиана), а третий квартиль (Q3) лежит выше примерно 75% данных. данные.

Важно отметить, что разделение на четыре равные части может быть неточным, если набор данных делится неравномерно. Первый и третий квартили можно найти, сначала определив медиану. Чтобы найти Q1 и Q3, мы делим набор данных на верхнюю половину и нижнюю половину и вычисляем медианы этих двух половин. Медиана верхней половины — Q3, а медиана нижней половины — Q1.

Давайте рассмотрим пример, чтобы проиллюстрировать это. Рассмотрим следующий набор данных с 17 значениями, перечисленными от самого низкого до самого высокого. Медиана, или Q2, будет значением посередине, которое в данном случае является девятым значением (поскольку 17 — нечетное число значений). Следовательно, медиана равна 42. Чтобы найти Q1, мы рассматриваем восемь значений, меньших медианы. Сортируя их, мы находим 16, 18, 20 и 22. Поскольку это четное число значений, мы берем среднее значение двух средних значений, что дает нам 18. Аналогично для Q3 мы рассматриваем восемь значений, превышающих медиана, равная 45, 48, 50 и 55. Опять же, взяв среднее из двух средних значений, мы получаем Q3 как 52.

Таким образом, для этого примера квартили Q1 = 18, Q2 = 42 и Q3 = 52. Сводка набора данных из пяти чисел состоит из этих квартилей вместе с минимальным и максимальным значениями в наборе данных. В нашем случае сводка из пяти чисел — это 5, 18, 42, 52 и 93, где 5 представляет собой минимальное значение, а 93 — максимальное.

Другой полезной мерой является межквартильный размах (IQR), который количественно определяет разброс средней половины данных. Он рассчитывается как разница между Q3 и Q1. В нашем примере IQR равен 52 - 18 = 34. IQR фокусируется на диапазоне значений в пределах средних 50% набора данных и меньше зависит от экстремальных значений.

Теперь давайте рассмотрим другой пример. Предположим, у нас есть экзаменационные баллы 22 студентов, перечисленные ниже. Мы хотим описать распределение баллов, используя сводку из пяти чисел и IQR. Во-первых, нам следует с осторожностью использовать среднее значение в качестве меры центра, так как на него могут влиять экстремальные значения. В этом случае среднее значение равно 75,3, но, поскольку некоторые учащиеся набрали исключительно низкие баллы, среднее значение может не точно отражать типичную успеваемость учащихся. Точно так же диапазон, представляющий собой разницу между минимальным и максимальным значениями (2 и 100 соответственно), может вводить в заблуждение из-за экстремальных значений.

Для получения более точного описания вычисляем пятизначную сводку. Сортируя оценки, мы находим минимальное значение как 2 и максимальное значение как 100. Медиана (Q2) — это значение посередине, которое в данном случае равно 80. Нижняя половина набора данных состоит из восьми значений, меньших, чем медиана с 76 и 83 в качестве двух средних значений. Взяв их среднее значение, мы находим Q1 равным 79. Точно так же для верхней половины набора данных у нас есть медиана, равная 83, в результате чего Q3 равен 83.

Таким образом, сводка из пяти чисел для этого набора данных равна 2, 79, 80, 83 и 100. Из этой сводки мы видим, что средняя половина оценок лежит между 79 и 83, что указывает на то, что оценки плотно упакованы вокруг медиана.

Чтобы выявить выбросы в наборе данных, мы можем использовать 1,5-кратный тест IQR. IQR, рассчитанный ранее, составляет 83 - 79 = 4. Умножение IQR на 1,5 дает нам 6. Мы вычитаем 6 из Q1 и прибавляем 6 к Q3, чтобы установить диапазон, в пределах которого значения не считаются выбросами. В этом случае любое значение ниже 73 или выше 89 следует рассматривать как выброс в соответствии с этим правилом.

Применяя этот тест к набору данных, мы обнаруживаем, что 2 и 100 следует считать выбросами. Как профессор, рекомендуется игнорировать эти экстремальные баллы или придавать им меньшее значение при определении кривой экзамена.

Используя сводку из пяти чисел, IQR и тест 1,5-кратного IQR, мы лучше понимаем распределение баллов и можем выявить потенциальные выбросы, которые могут повлиять на общий анализ.

The Five-Number Summary and the 1.5 x IQR Test for Outliers
The Five-Number Summary and the 1.5 x IQR Test for Outliers
  • 2020.07.15
  • www.youtube.com
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
 

Блочные диаграммы


Блочные диаграммы

Сегодня мы обсудим блочные диаграммы, также известные как диаграммы с усами. Блочная диаграмма — это графическое представление набора данных с одной переменной на основе сводки из пяти чисел. Давайте погрузимся прямо в пример, чтобы лучше понять их.

Предположим, у нас есть набор данных, для которого мы хотим построить сводку из пяти чисел и коробчатую диаграмму. Набор данных выглядит следующим образом: 34, 42, 48, 51,5 и 58. Сначала мы располагаем числа в порядке возрастания, чтобы найти минимальное (34) и максимальное (58) значения. Поскольку число значений нечетное, медианой является значение посередине, которое в данном случае равно 48.

Далее мы делим набор данных на две половины: нижнюю половину и верхнюю половину. Медиана нижней половины — 42, а медиана верхней половины — 51,5. Эти значения известны как первый квартиль (Q1) и третий квартиль (Q3) соответственно.

Используя сводку из пяти чисел, мы можем построить коробочную диаграмму. Блочная диаграмма состоит из прямоугольника, представляющего диапазон между Q1 и Q3. Нижняя часть прямоугольника соответствует Q1, верхняя часть прямоугольника соответствует Q3, а горизонтальная линия внутри прямоугольника представляет собой медиану. «Руки» диаграммы простираются от коробки до минимального и максимального значений (34 и 58 соответственно).

Целью ящичной диаграммы является визуализация распределения данных. Поле представляет средние 50% набора данных, а руки охватывают остальные значения. В данном примере, поскольку нет экстремальных значений, на блочной диаграмме не отображаются выбросы.

Давайте рассмотрим еще один пример, в котором мы хотим определить сводку из пяти чисел, проверить выбросы с помощью теста 1,5-кратного IQR и построить ящичковую диаграмму. Набор данных выглядит следующим образом: 62, 64, 75, 81,5 и 110.

Рассчитав межквартильный размах (IQR) путем вычитания Q1 из Q3, мы находим, что он равен 17,5. Чтобы выполнить тест 1,5-кратного IQR, мы умножаем IQR на 1,5. Вычитая IQR из Q1 в 1,5 раза (64 - 1,5 * 17,5), получаем 37,5. Прибавив IQR в 1,5 раза к Q3 (81,5 + 1,5 * 17,5), мы получим 107,75. Любое значение ниже 37,5 или выше 107,75 следует считать выбросом.

В этом случае значение 110 превышает верхний предел и классифицируется как выброс. При построении блочной диаграммы мы рисуем плечи блочной диаграммы только до самых крайних значений, не являющихся выбросами. Значение выброса 110 указано отдельной точкой, а верхняя часть простирается только до 90, что представляет собой самое высокое значение в пределах диапазона, не являющегося выбросом.

Блочные диаграммы особенно полезны при сравнении данных между группами, например, при построении графика одной категориальной и одной количественной переменной. Этот тип графика, часто называемый рядом расположенной коробчатой диаграммой, обеспечивает четкое визуальное сравнение различных групп. В качестве примера можно рассмотреть знаменитый набор данных об ирисах, где мы сравниваем ширину лепестков трех видов: setosa, versicolor и virginica. Изучая коробчатую диаграмму, мы можем заметить, что вид setosa обычно имеет более узкие лепестки по сравнению с двумя другими видами. Кроме того, мы можем различить различия в разбросе ширины лепестков внутри каждой группы.

Таким образом, ящичные диаграммы обеспечивают краткую визуализацию сводки из пяти чисел и позволяют легко сравнивать различные группы. Они отображают минимальное значение, первый квартиль (Q1), медиану, третий квартиль (Q3) и максимальное значение набора данных. Поле представляет средние 50% данных, причем нижняя часть поля соответствует Q1, а верхняя часть — Q3. Линия внутри прямоугольника представляет собой медиану.

Блочные диаграммы также могут отображать выбросы, т. е. значения, выходящие за пределы диапазона, определенного 1,5-кратным IQR-тестом. Чтобы определить выбросы, мы вычисляем IQR (Q3 - Q1) и умножаем его на 1,5. Затем мы вычитаем 1,5-кратный IQR из Q1 и прибавляем 1,5-кратный IQR к Q3. Любые значения ниже нижнего предела или выше верхнего предела считаются выбросами.

При построении коробчатой диаграммы с выбросами плечи графика простираются только до самых экстремальных значений, которые не являются выбросами. Выбросы изображаются как отдельные точки за пределами плеч ящичной диаграммы. Это гарантирует, что ящичковая диаграмма точно представляет распределение данных, не являющихся выбросами, и позволяет избежать вводящих в заблуждение интерпретаций.

Блочные диаграммы особенно полезны при сравнении данных между различными группами или категориями. Построение нескольких коробчатых диаграмм рядом друг с другом упрощает сравнение распределений и понимание различий в анализируемых переменных.

Например, используя набор данных радужной оболочки, мы можем создать параллельную диаграмму для сравнения ширины лепестков видов setosa, versicolor и virginica. Это позволяет визуально наблюдать различия в ширине лепестков между видами и разброс значений внутри каждой группы.

Таким образом, ящичные диаграммы представляют собой визуальную сводку сводки из пяти чисел, что упрощает понимание распределения данных и сравнение различных групп. Они дают представление о центральной тенденции, разбросе и наличии выбросов в наборе данных, что делает их ценным инструментом для анализа и визуализации данных.

Boxplots
Boxplots
  • 2020.07.16
  • www.youtube.com
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
 

Блочные диаграммы в R


Блочные диаграммы в R

Всем привет! Сегодня мы узнаем, как создавать красивые диаграммы в R с помощью команды qplot. Существует несколько способов создания коробчатых диаграмм в R, но наиболее визуально привлекательные часто получаются из пакета ggplot2, который является частью семейства пакетов tidyverse. Итак, давайте углубимся в это!

Если вы раньше не использовали эти функции, вам необходимо установить пакет tidyverse на свой компьютер с помощью команды install.packages. Этот шаг быстрый, если вы еще этого не сделали. После установки вам необходимо загрузить пакет в память с помощью команды library(tidyverse) в начале каждого сеанса, чтобы получить доступ к его функциям.

В этом руководстве мы сосредоточимся на использовании команды qplot из пакета ggplot2. Теперь давайте начнем с двух примеров создания коробчатых диаграмм.

Во-первых, давайте вручную введем некоторые данные. Мы создадим вектор под названием «баллы» длиной 21, который может представлять баллы учеников на экзамене по математике в классе размером 21.

Чтобы создать коробчатую диаграмму оценок, мы используем команду qplot. Базовый синтаксис остается прежним: укажите переменные для осей x и y и используйте аргумент geom, чтобы указать, что нам нужна блочная диаграмма. В этом случае мы отложим баллы по оси x.

Чтобы сделать нашу блочную диаграмму более визуально привлекательной, мы можем внести некоторые улучшения. Во-первых, мы можем удалить бессмысленные числа на оси Y, используя y = "". Затем, если нам нужна вертикальная диаграмма, мы можем переключить оси, используя y для оценок и удалив метку оси x. Мы также можем добавить цвет к линиям и внутренней части коробки, используя аргументы color и fill соответственно. Наконец, мы можем настроить метки и добавить заголовок к диаграмме, используя аргументы ylab и main.

Теперь давайте перейдем ко второму примеру, используя встроенный набор данных под названием chickweights. Этот набор данных содержит 71 наблюдение с двумя переменными: вес разных цыплят и корм, который им давали. Мы создадим параллельную диаграмму для сравнения распределения веса цыплят по разным типам корма.

Как и в предыдущем примере, мы используем команду qplot и указываем набор данных, используя data = chickweights. Затем мы указываем, что нам нужна вертикальная блочная диаграмма с весами по оси Y и подачами по оси X. Чтобы различать ящичные диаграммы по типу подачи, мы можем использовать аргумент заполнения и сопоставить его с переменной подачи.

Опять же, для настройки доступно множество других параметров, включая стили шрифтов, размеры меток и размеры точек. Вы можете исследовать дальше, выполнив поиск в Интернете.

С помощью всего лишь нескольких модификаций мы можем создавать профессионально выглядящие ящичные диаграммы в R. Эти примеры демонстрируют мощь и гибкость пакета ggplot2 для визуализации данных.

Boxplots in R
Boxplots in R
  • 2020.07.17
  • www.youtube.com
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...
 

Вероятностные эксперименты, исходы, события и выборочные пространства


Вероятностные эксперименты, исходы, события и выборочные пространства

Всем привет! Сегодня мы углубимся в основы вероятности. Мы рассмотрим такие темы, как выборочные пространства, результаты, события и многое другое. Вероятностный эксперимент, также известный как случайный эксперимент, представляет собой испытание, результат которого нельзя предсказать с уверенностью. Однако повторные испытания могут выявить определенные тенденции. Давайте рассмотрим несколько примеров.

  1. Подбросьте монетку и запишите, выпадет ли она орлом или решкой.
  2. Используйте программу случайного набора номера, чтобы связаться с 10 избирателями и спросить, за кого они намерены голосовать.
  3. Бросьте два кубика и запишите сумму чисел.
  4. Бросьте два кубика и посчитайте, сколько раз выпадет шестерка.

Обратите внимание, что в последних двух примерах, несмотря на то, что действие одно и то же (бросок двух игральных костей), записанные данные немного отличаются. Следовательно, мы рассматриваем их как отдельные вероятностные эксперименты. Теперь давайте обсудим немного словарного запаса.

Результат конкретного испытания в вероятностном эксперименте называется исходом. Совокупность всех возможных результатов вероятностного эксперимента называется пространством выборки (обозначается заглавной S). Подмножество выборочного пространства называется событием.

Чтобы проиллюстрировать это, давайте рассмотрим пример. Предположим, мы подбрасываем две монеты и записываем результаты. Пространство выборки состоит из четырех исходов: решка-орел, решка-решка, решка-орел и решка-решка. Если мы определим событие E как «оба броска одинаковы», то у нас будет два исхода внутри этого события: орел-орел и решка-решка. Это событие является подмножеством выборочного пространства.

Как правило, событие представляет собой то, что может произойти во время вероятностного эксперимента, но оно может произойти несколькими способами. В предыдущем примере событие «оба броска одинаковы» может произойти двумя разными способами.

Если событие может произойти только одним способом, то есть оно состоит из одного исхода, мы называем его простым событием. Дополнение к событию E, обозначаемое как E' или иногда с чертой над E, представляет собой набор всех исходов в выборочном пространстве, не входящих в E. Когда происходит E, E' не происходит, и наоборот.

Например, предположим, что мы случайным образом выбираем целое число от 1 до 9 с помощью счетчика. Пусть E будет событием «результат — простое число». Выборочное пространство — это целые числа от 1 до 9, а E — множество простых чисел меньше 10: {2, 3, 5, 7}. Дополнение к E (E') — это событие, когда E не встречается, состоящее из чисел меньше 10, которые не являются простыми: {1, 4, 6, 8, 9}.

Два события называются непересекающимися, если у них нет общих исходов, то есть они не могут произойти одновременно в одном испытании вероятностного эксперимента. Например, подбросьте четыре монеты и запишите результаты. Пусть E — событие «первые два броска — решка», а F — событие «выпало не менее трех решек». Эти два события можно представить следующим образом:

Э: {ХХХХ, ХХХХ...} Ф: {ТТТТ, ТТТТТ, ТТТТТ, ТТТТТХ...}

Обратите внимание, что нет общих исходов для множеств E и F. Таким образом, эти события не пересекаются.

Существуют разные способы описания вероятности события, и два общих подхода — это эмпирическая вероятность (или статистическая вероятность) и классическая вероятность (или теоретическая вероятность).

Эмпирическая вероятность основана на наблюдении. Мы проводим вероятностный эксперимент несколько раз, подсчитываем, сколько раз произошло событие, и делим его на общее количество испытаний. Это соответствует доле раз, когда событие произошло в прошлом. Например, если мы подбрасываем монету 100 раз и она выпадает орлом 53 раза, эмпирическая вероятность того, что монета выпадет орлом, составляет 53/100 или 53%.

Классическая вероятность, с другой стороны, применяется, когда все результаты в пространстве выборки равновероятны. Мы подсчитываем количество исходов в событии и делим его на общее количество исходов в пространстве выборки. Математически это выражается как мощность (количество элементов) события E, деленная на мощность выборочного пространства S. Например, если мы бросаем честную кость, есть шесть равновероятных исходов, и если нас интересует простое событие E получения пятерки, классическая вероятность равна 1/6.

Рассмотрим другой пример. Если трижды подбросить честную монету, получится восемь равновероятных исходов: HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. Пусть E — событие выпадения ровно двух решек. В пространстве выборки есть три исхода (HHH, HHT и HTH) в событии E. Следовательно, классическая вероятность события E равна 3/8.

Теперь давайте рассмотрим вопрос вероятности, используя частотное распределение вводного класса статистики в большом университете. Распределение показывает количество учеников на каждом уровне класса: 67 первокурсников, 72 второкурсника и так далее. Если мы случайным образом выберем человека из этого класса, какова вероятность того, что он второкурсник? Это классический вероятностный вопрос.

В данном частотном распределении всего 222 исхода (учащиеся класса), из них 72 исхода соответствуют второкурсникам. Таким образом, вероятность случайного выбора второкурсника составляет 72/222, примерно 32,4%.

Теперь давайте переключим наше внимание на несколько другой вопрос, используя то же частотное распределение. Какова вероятность того, что следующий человек, который зарегистрируется на курс, будет младшим или старшим? На этот раз нас интересует эмпирическая вероятность, поскольку у нас нет уверенности в будущей регистрации.

Мы смотрим на имеющиеся у нас данные о студентах, которые уже зарегистрировались. Среди них 29 юниоров и 54 пенсионера. Чтобы рассчитать эмпирическую вероятность, мы делим количество студентов, подходящих для события (младших или старших классов), на общее количество зарегистрированных студентов. Следовательно, вероятность равна (29 + 54)/222, примерно 37,7%.

Важно отметить, что независимо от того, имеем ли мы дело с эмпирической или классической вероятностью, некоторые факты остаются верными. Вероятность любого события лежит между 0 и 1. Событие с вероятностью 0 невозможно, а событие с вероятностью 1 наверняка. Если пространство выборки обозначено как S, вероятность появления S всегда равна 1.

Если у нас есть непересекающиеся события E и F (без общих исходов), вероятность того, что произойдет хотя бы одно из них, равна сумме их индивидуальных вероятностей. Однако вероятность того, что E и F появятся одновременно, равна 0, поскольку они взаимоисключающие.

Кроме того, если у нас есть дополнительные события (события, которые охватывают все возможные исходы), сумма их вероятностей всегда равна 1. Если событие E происходит, вероятность того, что его дополнение (E') не произойдет, равна 1 минус вероятность возникновения E.

В повседневном языке мы часто используем вероятность неформально, основываясь на интуиции и личном опыте. Это известно как субъективная вероятность. Однако в статистике мы полагаемся на эмпирическую и классическую вероятность для строгих расчетов. Субъективной вероятности не хватает математической точности, и она не является предметом статистического анализа.

Probability Experiments, Outcomes, Events, and Samples Spaces
Probability Experiments, Outcomes, Events, and Samples Spaces
  • 2020.07.25
  • www.youtube.com
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
Причина обращения: