Учебники по программированию - страница 10

 

Перекодирование данных с использованием программирования R. Использование пакетов tidyverse и dplyr для создания новой переменной


Перекодирование данных с использованием программирования R. Использование пакетов tidyverse и dplyr для создания новой переменной

Сегодня мы собираемся углубиться в увлекательную тему перекодирования данных в R. Но сначала давайте проясним, что мы подразумеваем под перекодированием данных. Чтобы проиллюстрировать этот процесс, мы будем использовать набор данных Star Wars. Если вы уже установили пакет tidyverse на свой компьютер, у вас будет доступ к этому набору данных, и вы сможете выполнять его дома.

Набор данных «Звездные войны» состоит из строк, представляющих персонажей «Звездных войн», таких как Люк Скайуокер, принцесса Лея и других, и столбцов, представляющих различные переменные, такие как имя, рост, масса и пол. Наша цель — преобразовать исходный набор данных в новый, содержащий некоторые ключевые отличия.

В измененном наборе данных, который мы создадим, нужно отметить несколько изменений. Во-первых, столбец высоты выражается в квадратных метрах, а не в сантиметрах, как в исходном наборе данных. Во-вторых, в столбце пола вместо исходных значений используются «M» и «F» для обозначения мужчин и женщин соответственно. Кроме того, мы удалили все отсутствующие значения из набора данных. Наконец, мы создали новую переменную под названием «размер», которая классифицирует персонажей как «больших» или «маленьких» на основе определенных критериев — ростом более одного метра и весом более 75 килограммов.

Для начала давайте удостоверимся, что у нас загружен пакет tidyverse, так как он предоставляет необходимые функции для манипулирования данными. Вам нужно установить пакет только один раз, но вы можете загружать его для каждой сессии, используя функцию library() или require(). После загрузки пакета tidyverse у вас также будет доступ к набору данных «Звездных войн».

Давайте создадим новый объект с именем SW для работы с набором данных Star Wars. Мы будем использовать оператор присваивания (<-), чтобы присвоить набор данных «Звездных войн» объекту SW. Таким образом, мы можем вносить изменения и выполнять операции, не изменяя исходный набор данных. Теперь давайте выберем переменные, с которыми мы хотим работать. Для этого мы будем использовать оператор канала (%>%) для объединения операций в цепочку.

Во-первых, мы воспользуемся функцией select() для выбора нужных нам переменных — имени, массы и пола. Кроме того, мы переименуем переменную «масса» в «вес», используя функцию rename(). При выполнении этого кода выбранные переменные будут сохранены, а столбец «масса» будет переименован в «вес» в наборе данных SW.

Далее мы рассмотрим пропущенные значения. Хотя мы не будем подробно рассматривать это здесь, важно правильно обрабатывать отсутствующие значения при анализе данных. Сейчас мы просто удалим недостающие значения из набора данных. Мы рассмотрим методы работы с пропущенными значениями в отдельном видео.

Теперь давайте сосредоточимся на преобразовании переменной «высота» из сантиметров в метры. Используя функцию mutate() и оператор конвейера, мы изменим столбец «высота», разделив каждое значение на 100. Это деление гарантирует, что высота будет выражена в метрах, а не в сантиметрах.

Переходя к переменной «пол», мы замечаем, что она содержит не только «мужской» и «женский», но и другие значения, такие как «МАфродита». Чтобы решить эту проблему, мы хотим отфильтровать набор данных и оставить только наблюдения со значениями «мужской» и «женский». Мы продемонстрируем два подхода к фильтрации. Первый подход предполагает использование функции filter() и указание условий сохранения наблюдений с «мужским» или «женским» полом. Второй, более элегантный подход использует конкатенацию с использованием оператора %in% для сохранения наблюдений с «мужскими» или «женскими» значениями. Оба подхода дают один и тот же результат — в наборе данных остаются только «мужские» и «женские» наблюдения.

После того, как мы отфильтровали переменную «пол», мы можем приступить к перекодированию значений в переменной «пол». В настоящее время он содержит значения «мужской» и «женский», но мы хотим представить их как «М» и «Ж» соответственно. Для этого мы будем использовать функцию mutate() и функцию recode().

В функции recode() мы укажем переменную, которую хотим перекодировать, в данном случае это «пол». Затем мы назначим новые значения, используя синтаксис старое_значение = новое_значение. В нашем случае мы установим, что «мужской» будет перекодирован как «М», а «женский» как «Ж».

При выполнении этого кода переменная «пол» в наборе данных SW будет обновлена, заменив «мужской» и «женский» на «М» и «Ж» соответственно.

Наконец, мы создадим новую переменную под названием «размер» на основе определенных критериев. Переменная «размер» будет классифицировать персонажей как «больших» или «маленьких» в зависимости от их роста и веса. Мы снова воспользуемся функцией mutate() и оператором конвейера.

В mutate() мы создадим переменную size, определив ее условия. Мы будем использовать логические операторы, чтобы проверить, больше ли высота одного метра, а вес больше 75 килограммов. Если условия соблюдены, мы присваиваем соответствующему наблюдению значение «большой»; в противном случае мы назначим «маленький». Это достигается с помощью функции if_else() внутри mutate().

После выполнения этого кода в набор данных SW будет добавлена переменная «размер», указывающая, классифицируется ли каждый персонаж как «большой» или «маленький» в зависимости от их роста и веса.

В заключение, если вы увлечены анализом данных и хотите научиться программированию на R, вы обратились по адресу. Нажмите кнопку подписки и нажмите на колокольчик, чтобы быть в курсе будущих видео.

Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
  • 2020.05.15
  • www.youtube.com
This video is about how to recode data and manipulate data using R programming. It is really an R programming for beginners videos. It provides a demonstrati...
 

10 советов по фильтрации данных с помощью программирования на R. Используйте tidyverse для фильтрации и подмножества ваших данных.


10 советов по фильтрации данных с помощью программирования на R. Используйте tidyverse для фильтрации и подмножества ваших данных.

В этом видео мы рассмотрим, как фильтровать данные в R с помощью функции фильтра. Фильтрация позволяет нам извлекать определенные подмножества данных на основе определенных критериев. Для этого мы будем использовать пакет tidyverse, который предоставляет мощный набор инструментов для обработки и анализа данных в R. Прежде чем мы углубимся в функцию фильтра, давайте кратко обсудим основы.

Настройка среды:
Для начала нам нужно загрузить пакет tidyverse с помощью библиотечной функции. Пакет tidyverse включает экосистему tidyverse, которая расширяет словарный запас и функциональность R. Если вы не знакомы с tidyverse, я рекомендую посмотреть мое видео о пакетах, чтобы лучше понять.

Изучение данных: для этой демонстрации мы будем работать с набором данных «msleep», который включен как встроенный набор данных в пакет tidyverse. Набор данных «msleep» содержит информацию о различных млекопитающих, включая такие переменные, как имя, общее количество сна, вес тела и вес мозга. Этот набор данных будет служить нашими практическими данными для фильтрации.

Создание подмножества данных. Чтобы создать подмножество данных, мы сначала сделаем копию набора данных «msleep» и назначим его новому объекту с именем «my_data», используя оператор присваивания «=».

my_data <- msleep

Выбор переменных: Далее мы выберем конкретные переменные, с которыми мы хотим работать. В данном случае нас интересуют столбцы «name» и «sleep_total». Мы используем функцию выбора, чтобы выбрать эти столбцы и сохранить результат обратно в объект «my_data», используя оператор присваивания.

my_data <- my_data %>% select(name, sleep_total)

Фильтрация данных. Теперь самое главное — функция фильтрации. Мы будем использовать эту функцию для извлечения строк из нашего набора данных на основе определенных критериев. Есть несколько способов использования функции фильтра, и я покажу вам десять различных примеров.

Фильтрация по одному критерию:
Для начала давайте отфильтруем данные, чтобы включить только тех млекопитающих, у которых общее количество сна больше 18. Мы используем функцию фильтра и указываем условие как «sleep_total > 18».

my_data <- my_data %>% filter(sleep_total > 18)

Фильтрация с помощью "!" Оператор:
Мы также можем использовать "!" оператор для фильтрации противоположного заданному условию. В этом случае мы будем отфильтровывать млекопитающих с общим количеством сна менее 18.

my_data <- my_data %>% filter(!(sleep_total < 18))

Фильтрация по нескольким критериям с использованием «и»:
Мы можем фильтровать данные на основе нескольких критериев, комбинируя их с помощью логического оператора «и» («,»). Например, давайте извлечем млекопитающих, у которых отряд «приматы» и масса тела больше 20.

my_data <- my_data %>% filter(order == "primate", body_weight > 20)

Фильтрация на основе нескольких критериев с использованием «или»:
В некоторых случаях может потребоваться извлечь строки, соответствующие хотя бы одному из нескольких критериев. Этого можно добиться с помощью логического оператора «или» («|»). Например, давайте извлечем млекопитающих, которые являются коровами, собаками или козами.

my_data <- my_data %>% filter(name == "cow" | name == "dog" | name == "goat")

Фильтрация с использованием конкатенации:
Вместо указания каждого критерия по отдельности мы можем создать конкатенацию значений и использовать ее в функции фильтра. Этот подход обеспечивает более элегантный способ фильтрации нескольких значений. Например, мы можем фильтровать, создавая вектор имен и используя его в функции фильтра следующим образом:

names_to_filter <- c("cow", "dog", "goat")
my_data <- my_data %>% filter(name %in% names_to_filter)

Фильтрация с помощью оператора «между»:
Мы можем использовать оператор «между» для фильтрации строк на основе диапазона значений. Давайте отфильтруем данные, чтобы включить только млекопитающих с общим количеством сна от 16 до 18 (включительно).

my_data <- my_data %>% filter(between(sleep_total, 16, 18))

Фильтрация значений, близких к определенному значению:
Если мы хотим отфильтровать наблюдения, которые близки к определенному значению в переменной, мы можем использовать функцию «около». Например, давайте отфильтруем данные, чтобы включить млекопитающих с общим количеством сна около 17 с допуском 0,5.

my_data <- my_data %>% filter(near(sleep_total, 17, tolerance = 0.5))

Фильтрация пропущенных значений:
Чтобы отфильтровать строки, в которых определенная переменная имеет пропущенные значения, мы можем использовать функцию «is.na». Давайте отфильтруем данные, чтобы включить только млекопитающих с пропущенными значениями в переменной «сохранение».

my_data <- my_data %>% filter(is.na(conservation))

Фильтрация непропущенных значений:
И наоборот, если мы хотим отфильтровать строки с отсутствующими значениями в определенной переменной, мы можем использовать «!» оператор вместе с функцией "is.na". Давайте отфильтруем данные, чтобы исключить млекопитающих с пропущенными значениями в переменной «сохранение».

my_data <- my_data %>% filter(!is.na(conservation))

Вывод: используя функцию фильтра и различные методы фильтрации, мы можем извлекать определенные подмножества данных на основе наших критериев. Фильтрация позволяет нам сосредоточиться на соответствующих наблюдениях и облегчить дальнейший анализ. Не забудьте поэкспериментировать с различными критериями и комбинациями, чтобы удовлетворить ваши конкретные потребности в фильтрации данных.

Если вы нашли это видео полезным и хотите узнать больше об анализе данных и программировании на R, обязательно подпишитесь на этот канал и включите уведомления, чтобы быть в курсе будущих видео.

10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
  • 2020.05.22
  • www.youtube.com
In this video you'll learn 10 different ways to filter and subset your data using R programming. This is an R programming for beginners video and forms part ...
 

Программирование на R для начинающих: использование функций и объектов в R


Программирование на R для начинающих: использование функций и объектов в R

Добро пожаловать! Сегодня мы собираемся углубиться в тему функций и объектов в R. Давайте взглянем на R Studio, нашу среду кодирования, чтобы глубже изучить эти концепции.

В R мы можем думать о наших данных как об объектах с различными атрибутами и структурами. С другой стороны, функции — это инструкции, которые мы предоставляем для управления этими объектами и их анализа. К концу этого урока вы получите четкое представление об этих концепциях и почувствуете себя комфортно, работая с ними.

Если вам интересно узнать о программировании на R, вы обратились по адресу. На этом канале YouTube мы публикуем видеоролики по программированию на языке R, охватывающие широкий круг тем.

Чтобы упростить работу с объектами, мы присваиваем им определенные имена, которые затем можем использовать для применения функций. Этот процесс включает использование оператора присваивания ("<-") для присвоения значения имени. Например, у нас уже есть объект с именем «автомобили» в нашей среде, который мы можем наблюдать, щелкнув по нему. В этом случае «автомобили» — это фрейм данных, и он появляется в верхнем левом квадранте экрана.

В дополнение к существующим объектам мы также можем создавать свои собственные. Давайте создадим новый объект с именем «my_age» и присвоим ему значение 12, используя символ стрелки. Когда мы выполняем этот код, нажимая Command+Enter (Control+Enter на ПК), мы видим, что «my_age» становится новым объектом в нашей глобальной среде.

Теперь давайте рассмотрим, как мы можем применять функции к нашим объектам. Чтобы продемонстрировать, давайте создадим еще один объект с именем your_age и присвоим ему значение 14. Мы будем использовать функцию sum, которая суммирует значения, предоставленные в качестве аргументов в круглых скобках. В этом случае мы хотим вычислить сумму «мой_возраст» и «ваш_возраст». После выполнения кода мы видим в консоли, что значения были успешно сложены.

Наиболее распространенный тип объекта, с которым мы работаем в R, — это фрейм данных. Фреймы данных состоят из переменных (столбцы) и наблюдений (строки). Сейчас мы сосредоточимся на общих аспектах фреймов данных и изучим более подробные варианты в будущих уроках. Давайте подробнее рассмотрим фрейм данных «автомобили». При нажатии на него открывается фрейм данных со столбцами «скорость» и «расстояние», где каждая строка представляет собой наблюдение.

Чтобы применить функцию к фрейму данных, мы можем использовать функцию «график» в качестве примера. Функция «график» автоматически выбирает подходящий тип графика на основе предоставленных данных. В этом случае мы хотим построить переменные «скорость» и «расстояние» из фрейма данных «автомобили». После выполнения кода мы видим, что в правом нижнем углу экрана появляется график зависимости скорости от расстояния.

Иногда нам может понадобиться применить функцию только к определенной части фрейма данных, например к отдельной переменной. В этом случае мы можем использовать функцию «hist» для создания гистограммы. Указав фрейм данных («автомобили») и переменную («скорость») в качестве аргументов, мы можем сгенерировать гистограмму переменной «скорость».

Если мы используем функцию «attach» с объектом «cars», фрейм данных становится присоединенным, что позволяет нам напрямую ссылаться на переменные без использования нотации со знаком доллара. Например, теперь мы можем использовать функцию «hist» только с переменной «distance», и она создаст гистограмму без явной ссылки на «cars$dist».

R предлагает широкий набор функций, и по мере установки пакетов вы получаете доступ к еще большему количеству функций. Чтобы лучше понять свои объекты и их атрибуты, вы можете использовать различные функции для их изучения и обобщения. .

Теперь давайте рассмотрим еще несколько функций, которые могут помочь вам понять и управлять объектами в R. Одной из полезных функций является str(), что означает структуру. Он предоставляет краткое описание структуры и атрибутов объекта. Например, если мы используем str() для фрейма данных cars, он отобразит информацию о его переменных, их типах данных и первых нескольких наблюдениях.

str(cars)

Еще одна полезная функция — name(), которая позволяет вам получать доступ к именам переменных фрейма данных и изменять их. Если мы хотим просмотреть имена переменных во фрейме данных cars, мы можем использовать следующий код:

names(cars)

Чтобы присвоить новые имена переменных, мы можем просто присвоить вектор символов функции names(). Например, если мы хотим переименовать переменные как «Скорость» и «Расстояние», мы можем выполнить следующий код:

names(cars) <- c("Velocity", "Distance")

Кроме того, вы можете использовать функцию dim() для получения размеров объекта, что особенно полезно для фреймов данных. Он возвращает количество строк и столбцов в объекте. Например:

dim(cars)

Функция subset() позволяет извлекать определенные подмножества фрейма данных на основе определенных условий. Вы можете определить условия, используя логические операторы, такие как <, >, == и т. д. Вот пример, который извлекает строки из фрейма данных cars, где скорость больше 20:

subset(cars, Velocity > 20)

Это всего лишь несколько примеров многочисленных функций, доступных в R для работы с объектами и фреймами данных. Изучение и понимание этих функций значительно расширит ваши возможности по анализу данных и управлению ими в R.

Помните, практика является ключом к тому, чтобы привыкнуть к этим концепциям. Не стесняйтесь экспериментировать с различными функциями и объектами, чтобы углубить свое понимание. Со временем и практикой вы научитесь эффективно использовать функции и объекты в программировании на R.

Если вы хотите узнать больше о программировании на R, этот канал YouTube — то, что вам нужно. Мы освещаем различные темы, связанные с программированием на R, и предоставляем учебные пособия и руководства, которые помогут вам улучшить свои навыки.

Благодарим вас за участие в нашем сообществе программистов, и мы с нетерпением ждем возможности поделиться с вами более информативными видеороликами.

R programming for beginners: using functions and objects in R
R programming for beginners: using functions and objects in R
  • 2020.10.29
  • www.youtube.com
R Programming is easy. In this video, you'll learn about how to work with data by applying functions to objects. Understanding this process is the first step...
 

Исследуйте свои данные с помощью программирования R


Исследуйте свои данные с помощью программирования R

Привет всем энтузиастам программирования! Меня зовут Грег Мартин, и я снова приветствую вас на нашей сессии Programming 101. Сегодня мы собираемся обсудить важнейшую тему исследования данных, прежде чем углубляться в анализ данных. Понимание данных, с которыми вы работаете, имеет важное значение. Вам необходимо понять размеры, параметры и размер вашего набора данных или фрейма данных. Кроме того, вы должны знать о количестве переменных и их характеристиках. Этот шаг очень важен и удивительно прост, так что давайте сделаем это вместе.

Если вы здесь, чтобы узнать о программировании, вы пришли в нужное место. На этом YouTube-канале мы создаем видео по программированию на самые разные темы.

Теперь позвольте мне начать с того, что я использую функции и пакеты в Tidyverse. Если вы не знакомы с Tidyverse, я рекомендую посмотреть одно из моих других видео, объясняющих его значение. Установка Tidyverse на ваш компьютер дает вам все функции, возможности и расширенный словарный запас, которые поставляются с пакетами в Tidyverse. Я буду упоминать некоторые из этих пакетов по мере продвижения.

Важно отметить, что Tidyverse также включает в себя множество встроенных наборов данных, которые вы можете использовать для практики анализа данных. Это особенно полезно, и позже мы будем использовать один из этих дополнительных наборов данных под названием «звездные войны». Набор данных «Звездных войн» немного запутан, содержит недостающие данные и другие проблемы, что делает его отличным примером для изучения и очистки данных.

Для начала вы всегда можете использовать вопросительный знак, за которым следует имя функции или набора данных, чтобы получить доступ к документации и получить информацию об этом конкретном наборе данных. Например, набрав «?star wars» и нажав Enter, вы можете получить доступ к информации о переменных, присутствующих в наборе данных о звездных войнах.

Теперь давайте перейдем к некоторым конкретным функциям. Первая функция, о которой мы узнаем, это «dim», что означает размеры. Используя команду «dim (star wars)» и нажав Enter, мы можем определить, что набор данных имеет 87 строк или наблюдений и 13 переменных.

Другая распространенная функция, используемая для понимания структуры фрейма данных, — это «str» (структура). Однако, когда мы применяем «str(star wars)» напрямую, мы сталкиваемся с некоторым беспорядочным выводом из-за наличия списков в наборе данных. Списки представляют собой переменные, где каждое наблюдение может быть отдельным списком, содержащим различные точки данных или даже весь фрейм данных. Чтобы сделать вывод более читабельным, мы можем использовать функцию «проблеск» из Tidyverse. Таким образом, набрав «glimpse(star wars)» и нажав Enter, мы получим гораздо более четкое отображение структуры набора данных, включая количество наблюдений, переменных и их типов.

Чтобы просмотреть сам набор данных, вы можете использовать функцию «просмотр», набрав «просмотр (звездные войны)» и нажав Enter. Это откроет окно, отображающее набор данных в аккуратном и организованном формате, со столбцами, представляющими переменные, и строками, представляющими наблюдения.

Кроме того, вы можете использовать функции «голова» и «хвост» для быстрого просмотра первых и последних нескольких строк набора данных соответственно. Например, «голова (звездные войны)» отобразит первые шесть строк, а «хвост (звездные войны)» — последние шесть строк.

Чтобы получить доступ к определенным переменным в наборе данных, вы можете использовать оператор «$». Например, набрав «star wars$name» и нажав Enter, вы можете получить прямой доступ к переменной «name».

Еще одна полезная функция — «имена», которая позволяет вам получать имена переменных в наборе данных. Набрав «names(star wars)» и нажав Enter, вы получите список всех присутствующих переменных. Это полезно при ссылке на переменные в вашем коде, так как помогает избежать опечаток и обеспечивает точность.

Кроме того, для определения числа можно использовать функцию «длины».

Функцию «длина» можно использовать для определения количества переменных в наборе данных. Например, набрав «длина (имена (звездные войны))» и нажав Enter, вы можете узнать общее количество переменных, присутствующих в наборе данных звездных войн.

Еще одним важным аспектом исследования данных является понимание типов данных переменных. Функцию «класс» можно использовать для определения класса или типа данных переменной. Например, если вы хотите узнать тип данных переменной «имя» в наборе данных «Звездные войны», вы можете ввести «класс (звездные войны $ имя)» и нажать Enter.

Вы также можете использовать функцию «summary», чтобы получить сводную статистику для числовых переменных в наборе данных. Например, если вы хотите получить сводку по переменной «высота», вы можете ввести «резюме (звездные войны $ высота)» и нажать Enter.

Чтобы отфильтровать и подмножить набор данных на основе определенных условий, вы можете использовать функцию «фильтр». Эта функция позволяет указать логические условия для выбора строк, соответствующих определенным критериям. Например, если вы хотите отфильтровать набор данных «Звездные войны», чтобы включить только символы высотой более 150, вы можете ввести «фильтр (звездные войны, высота > 150)» и нажать Enter.

Кроме того, вы можете использовать функцию «выбрать», чтобы выбрать определенные переменные или столбцы из набора данных. Это полезно, когда вы хотите сосредоточиться на подмножестве переменных для анализа. Например, если вы хотите выбрать только переменные «имя» и «высота» из набора данных «Звездные войны», вы можете ввести «выбрать (звездные войны, имя, высота)» и нажать Enter.

Изучение данных также включает изучение распределения переменных. Tidyverse предоставляет пакет «ggplot2», который предлагает мощные возможности визуализации данных. Вы можете использовать такие функции, как «ggplot» и «geom_histogram», для создания гистограмм для визуализации распределения числовых переменных. Например, чтобы создать гистограмму переменной «высота» в наборе данных «Звездные войны», вы можете использовать следующий код:

library(ggplot2)
ggplot(star wars, aes(x = height)) +
  geom_histogram()

Этот код сгенерирует гистограмму, показывающую распределение высоты символов в наборе данных «Звездные войны».

Не забудьте установить необходимые пакеты, если вы еще этого не сделали. Вы можете использовать функцию "install.packages" для установки пакетов. Например, чтобы установить пакет ggplot2, вы можете ввести «install.packages('ggplot2')» и нажать Enter.

Это некоторые из основных функций и методов, которые вы можете использовать для исследования данных в R. Понимая структуру, измерения, переменные и типы данных вашего набора данных, вы получаете ценную информацию, которая помогает управлять процессом анализа данных.

Explore your data using R programming
Explore your data using R programming
  • 2021.12.03
  • www.youtube.com
When doing data analysis, you need to start with a good understanding of you data. To explore your data, R has some fantastic and easy to use functions. In t...
 

Очистите свои данные с помощью программирования R. R для начинающих.


Очистите свои данные с помощью программирования R. R для начинающих.

Добро пожаловать! Сегодня мы углубимся в тему очистки данных. При работе с данными многие люди стремятся сразу же приступить к статистическому анализу. Однако важно применять систематический подход для обеспечения точных и надежных результатов. В этом видео мы познакомим вас с процессом очистки ваших данных, который является важным шагом перед анализом.

Во-первых, давайте начнем с изучения ваших данных. Я освещал эту тему в предыдущем видео, поэтому обязательно посмотрите его, если вы еще этого не сделали. Исследование данных поможет вам ознакомиться со структурой и содержимым вашего набора данных. Как только вы хорошо разберетесь в своих данных, вы можете перейти к их очистке.

Итак, что мы подразумеваем под очисткой ваших данных? Ну, есть несколько ключевых задач. Во-первых, важно убедиться, что каждая переменная классифицирована правильно. Возможно, вам придется внести коррективы и изменить типы переменных по мере необходимости. Я покажу вам, как это сделать в ближайшее время.

Затем вы можете выбрать переменные, с которыми хотите работать, и отфильтровать ненужные строки или наблюдения. Этот шаг особенно важен при работе с большими наборами данных. Это позволяет вам сосредоточиться на конкретных данных, которые имеют отношение к вашему анализу.

Еще одним важным аспектом очистки данных является обработка отсутствующих данных. В этом видео мы обсудим методы поиска и обработки пропущенных значений. Кроме того, мы рассмотрим, как идентифицировать и обрабатывать дубликаты, а также как при необходимости перекодировать значения.

Прежде чем мы продолжим, позвольте мне упомянуть, что при работе с R я всегда использую пакеты tidyverse. Tidyverse — это набор пакетов, расширяющих функциональность R и предоставляющих широкий спектр полезных функций. Если вы еще этого не сделали, обязательно установите и загрузите пакеты tidyverse.

Теперь давайте поговорим о наборах данных, которые мы будем использовать. R поставляется со встроенными наборами данных, которые вы можете использовать для практики и обучения. В этом уроке мы будем использовать набор данных Star Wars, который станет доступен после установки tidyverse. Вы можете получить доступ к этим наборам данных, набрав «data()» и изучив доступные параметры. Например, вы можете просмотреть набор данных «Звездные войны», набрав «view(starwars)».

Теперь давайте сосредоточимся на типах переменных. Важно убедиться, что каждая переменная правильно идентифицирована и классифицирована. Чтобы изучить типы переменных в наборе данных «Звездных войн», мы можем использовать функцию «проблеск (звездные войны)». Это предоставит сводку набора данных, включая имена и типы переменных.

В некоторых случаях вы можете захотеть преобразовать символьную переменную в факторную переменную. Факторы — это категориальные переменные, которые могут иметь предопределенные уровни или категории. Для этого вы можете использовать функцию as.factor(). Например, чтобы преобразовать переменную «пол» в наборе данных «Звездных войн» в фактор, вы можете использовать код «starwars$gender <- as.factor(starwars$gender)». Это изменит тип переменной и соответствующим образом обновит набор данных.

Если вам нужно указать уровни или категории факторной переменной, вы можете использовать функцию «levels()». Например, если вы хотите изменить порядок уровней в переменной «пол», вы можете использовать код «levels(starwars$gender) <- c('мужской', 'женский')». Это позволяет настроить порядок категорий в зависимости от ваших конкретных потребностей.

Далее давайте обсудим выбор переменных и фильтрацию строк. В R вы можете использовать функцию select() для выбора переменных, с которыми вы хотите работать. Например, вы можете выбрать такие переменные, как «имя» и «рост» из набора данных «Звездные войны», используя код «выбрать (звездные войны, имя, высота, ends_with ('цвет'))».

Для фильтрации строк удовлетворены. Но это не то, что мы хотим в данном случае. Мы хотим включить наблюдения со светлыми или каштановыми волосами. Поэтому мы используем логический оператор «или» (представленный |), чтобы указать, что наблюдение должно соответствовать одному из условий.

Теперь давайте перейдем к следующей части очистки данных, которая касается отсутствующих данных. Отсутствующие данные могут возникать в наборах данных по разным причинам, и важно правильно с ними обращаться. В случае с набором данных «Звездные войны» мы можем проверить наличие пропущенных значений с помощью функции is.na().

Чтобы найти недостающие данные и справиться с ними, мы можем добавить еще один шаг в наш код:

star_wars_filtered <- star_wars %>% select ( name , height , ends_with ( "color" ) ) %>% filter ( hair_color %in% c ( "blonde" , "brown" ) ) %>% filter ( ! is.na ( height ) )

В этом коде мы сначала выбираем нужные переменные (имя, рост и переменные, оканчивающиеся на «цвет»). Затем мы фильтруем значения цвета волос, которые являются «светлыми» или «каштановыми». Наконец, мы используем условие !is.na(height), чтобы исключить любые наблюдения, в которых отсутствует значение высоты.

Далее давайте решим проблему дубликатов в наборе данных. Дубликаты могут возникать, когда в наборе данных есть несколько идентичных наблюдений. Чтобы найти дубликаты и справиться с ними, мы можем добавить еще один шаг в наш код:

star_wars_filtered <- star_wars_filtered %>% distinct ( )

В этом коде мы используем функцию different() для удаления повторяющихся наблюдений из набора данных star_wars_filtered, гарантируя, что каждое наблюдение уникально.

Наконец, давайте обсудим, как перекодировать значения в наборе данных. Иногда нам может потребоваться изменить значения определенных переменных, чтобы они лучше соответствовали нашему анализу. В этом случае предположим, что мы хотим перекодировать переменную цвета волос, чтобы «блондинка» была равна 1, а «каштановый» — 2. Мы можем добиться этого, добавив еще один шаг в наш код:

star_wars_filtered <- star_wars_filtered %>% mutate ( hair_color = recode ( hair_color , "blonde" = 1 , "brown" = 2 ) )

Здесь мы используем функцию mutate() вместе с функцией recode() для изменения значений переменной hair_color. Мы указываем, что «блондин» должен быть перекодирован как 1, а «коричневый» как 2.

Итак, мы завершили процесс очистки данных. Мы выбрали нужные переменные, отфильтровали ненужные наблюдения, разобрались с отсутствующими данными, удалили дубликаты и при необходимости перекодировали значения.

Помните, что это всего лишь несколько основных шагов в процессе очистки данных, а конкретные шаги могут различаться в зависимости от набора данных и требований к анализу. Тем не менее, следование такому систематическому подходу может помочь гарантировать, что ваши данные будут в чистом и подходящем формате для дальнейшего анализа.

Я надеюсь, что это объяснение поможет вам понять процесс очистки ваших данных.

Clean your data with R. R programming for beginners.
Clean your data with R. R programming for beginners.
  • 2021.12.15
  • www.youtube.com
If you are a R programming beginner, this video is for you. In it Dr Greg Martin shows you in a step by step manner how to clean you dataset before doing any...
 

Манипулируйте своими данными. Спор о данных. Программирование на R для начинающих.


Манипулируйте своими данными. Спор о данных. Программирование на R для начинающих.

С возвращением к еще одному захватывающему видео из нашей серии программ. Сегодня мы собираемся погрузиться в тему манипулирования вашим фреймом данных, набором данных или данными. Обработка данных, также известная как «лечение данных», может быть очень увлекательной. Это третья часть нашей серии, в которой мы исследуем различные аспекты исследования, очистки, обработки, описания, обобщения, визуализации и анализа данных. Это важные шаги в конвейере данных, когда вы сталкиваетесь с новым набором данных, помогая вам разобраться в имеющихся у вас данных.

В этом видео мы рассмотрим несколько техник. С некоторыми из них вы, возможно, уже знакомы, а некоторые могут быть для вас новыми. Мы будем двигаться в быстром темпе, поэтому не стесняйтесь ставить на паузу, перематывать и просматривать видео по мере необходимости. Большинство примеров и демонстраций, которые я покажу, можно легко воспроизвести на вашем собственном компьютере. Вам не нужно загружать какие-либо дополнительные данные или искать их в Интернете. Встроенные фреймы данных в R будут служить нашими тренировочными наборами данных на протяжении всего видео.

Но прежде чем мы продолжим, давайте удостоверимся, что у вас установлена библиотека tidyverse. Я не буду здесь вдаваться в процесс установки, но если вы с ним не знакомы, рекомендую посмотреть мое видео о пакетах. Библиотека tidyverse состоит из нескольких пакетов, которые предоставляют ряд функций для обработки и анализа данных. После установки вы можете загрузить библиотеку с помощью командной библиотеки (tidyverse), которая дает вам доступ ко всем пакетам и их расширенному словарю в R. Кроме того, tidyverse также включает предварительно загруженные наборы данных, которые мы можем использовать на практике. Чтобы просмотреть доступные наборы данных, вы можете использовать команду data(), которая отобразит список наборов данных, доступных на вашем компьютере.

Хорошо, давайте погрузимся в содержание. Мы будем работать с набором данных «m_sleep» для наших демонстраций. Если вас интересуют детали набора данных, вы можете использовать команду ?m_sleep, чтобы получить сводку и информацию о каждой переменной в наборе данных. В качестве альтернативы мы можем использовать функцию glimpse из tidyverse, чтобы получить краткий обзор набора данных, включая имена переменных, типы и несколько примеров наблюдений.

Теперь давайте начнем с нашего первого урока: переименование переменной. Переименовать переменную очень просто, используя функцию переименования в tidyverse. Обычно мы придерживаемся конвейерного подхода, начиная с набора данных и затем применяя преобразования с помощью оператора канала %>%. Чтобы переименовать переменную, мы указываем новое имя перед знаком равенства, за которым следует существующее имя в функции переименования. Например, мы можем переименовать переменную «сохранение» в «сохранение», используя переименование (сохранение = сохранение). После запуска кода мы можем наблюдать обновленное имя переменной в наборе данных.

Двигаясь дальше, давайте рассмотрим, как изменить порядок переменных. Как упоминалось ранее, мы ранее обсуждали функцию выбора, которая позволяет нам выбирать определенные переменные. Однако стоит отметить, что порядок переменных в функции select определяет их порядок в результирующем наборе данных. Указав имена переменных в желаемом порядке, разделенные запятыми, мы можем соответствующим образом изменить порядок переменных. Например, select(var1, var2, ..., все()) сначала выберет "var1" и "var2", а затем оставшиеся переменные в их исходном порядке.

Далее давайте обсудим изменение типов переменных. Мы уже касались этой темы ранее, но давайте кратко рассмотрим процесс. Используя базовый класс функций R, мы можем определить текущий тип переменной. Например, class(m_sleep$var) будет отображать тип переменной как «символ». Чтобы изменить тип переменной на новую строку для удобства чтения, но вы можете написать все это в одной строке, если хотите. Теперь давайте применим фильтр к фрейму данных.

filtered_data <- m_sleep %>% filter ( order == "Carnivora" | order == "Primates" )

В этом примере мы отфильтровали фрейм данных m_sleep, чтобы включить только наблюдения, в которых переменная порядка имеет значение «Плотоядные» или «Приматы». Результирующее подмножество данных сохраняется в объекте filtered_data.

Переходя к упорядочению данных, мы можем использовать функцию упорядочения. Эта функция позволяет нам сортировать строки фрейма данных на основе одной или нескольких переменных. Отсортируем filtered_data по переменной vore в порядке убывания.

arranged_data <- filtered_data %>% arrange ( desc ( vore ) )

Здесь мы использовали функцию аранжировки с аргументом desc(vore), которая сортирует фрейм данных в порядке убывания на основе переменной vore. Полученные в результате упорядоченные данные сохраняются в объекте упорядоченных_данных.

Теперь давайте рассмотрим данные перекодирования. Перекодирование включает изменение значений переменной на основе определенных условий. Для этого мы можем использовать функцию mutate вместе с функцией if_else.

recoded_data <- arranged_data %>% mutate ( vore = if_else ( vore == "carni" , "Carnivorous" , "Omnivorous" ) )

В этом примере мы перекодировали переменную vore во фрейме данныхrangeddata. Мы заменили значение «carni» на «Плотоядный», а все остальные значения на «Всеядный». Измененный фрейм данных сохраняется в объекте recoded_data.

Далее давайте рассмотрим изменение данных с помощью функции mutate. Мы можем создавать новые переменные или модифицировать существующие. Вот пример:

modified_data <- recoded_data %>% mutate ( new_variable = vore == "Carnivorous" & awake > 10 )
В этом случае мы создали новую переменную с именем new_variable. Его значение основано на условии, что vore равно «Плотоядному», а переменная бодрствования больше 10. Измененный фрейм данных сохраняется в объектеmodified_data.

Наконец, давайте обсудим изменение формы вашего фрейма данных. Изменение формы включает в себя изменение структуры фрейма данных с широкой на длинную или наоборот. Для этой задачи полезны функции pivot_longer и pivot_wider из пакета tidyverse. Вот пример:

reshaped_data <- modified_data %>% pivot_longer ( cols = c ( vore , awake , sleep_total ) , names_to = "variable" , values_to = "value" )

В этом примере мы преобразовали фрейм данных из широкого в длинный формат. Мы выбрали переменные vore, awake и sleep_total для поворота. Результирующий фрейм данных имеет два новых столбца: переменная и значение, в которых хранятся имена переменных и соответствующие значения соответственно.

Вот и все! Мы рассмотрели различные аспекты управления вашим фреймом данных, включая переименование переменных, изменение порядка переменных, изменение типов переменных, выбор переменных, фильтрацию и упорядочение данных, перекодирование данных, изменение данных с помощью мутации и изменение формы фрейма данных. Помните, что вы можете практиковать все эти концепции, используя встроенные фреймы данных в R. Удачной обработки данных!

Manipulate your data. Data wrangling. R programmning for beginners.
Manipulate your data. Data wrangling. R programmning for beginners.
  • 2022.01.19
  • www.youtube.com
If you are learning to use R programming for data analysis then you're going to love this video. It's an "R programming for beginners" video that deals with ...
 

Опишите и обобщите свои данные


Опишите и обобщите свои данные

Добро пожаловать обратно в R101! На этом занятии мы обсудим, как описать и обобщить ваши данные. Сегодняшняя тема очень проста, так что оставайтесь со мной, и вы многому научитесь. Этот сеанс является частью серии, в которой мы исследуем, очищаем, обрабатываем, описываем и суммируем данные. Следующее видео будет о визуализации и анализе данных. Итак, приступим.

В этом видео мы рассмотрим различные аспекты описания и обобщения данных. Во-первых, при работе с числовыми переменными существуют определенные статистические параметры, которые мы используем для их описания. К ним относятся диапазон, распространение, центральность и дисперсия. Не волнуйся; мы рассмотрим эти концепции очень просто, и это займет всего около 30 секунд.

Далее мы научимся суммировать весь набор данных. Я поделюсь несколькими советами и рекомендациями по эффективному обобщению ваших данных. Опять же, это займет всего около 30 секунд.

Затем мы сосредоточимся на создании таблиц для обобщения наших данных. Таблицы — отличный способ эффективно представить и обобщить информацию. Мы узнаем, как создавать таблицы, обобщающие числовые переменные, и таблицы непредвиденных обстоятельств, обобщающие категориальные переменные. Я покажу вам несколько примеров, и вам будет очень легко следовать им.

Чтобы дать вам представление о том, к чему мы стремимся, я отобразил на экране пример таблицы. Эта таблица рассказывает убедительную историю и рисует четкую картину данных. Он был создан с использованием пакета «formattable» в R, который позволяет создавать красивые таблицы. Однако, прежде чем мы углубимся в создание визуально привлекательных таблиц, очень важно убедиться, что наши данные правильно структурированы. Ключ в том, чтобы ваши данные были в формате, позволяющем вам рассказать историю и эффективно представить картинку.

Теперь давайте двигаться вперед и рассмотрим основные темы этого видео. Если вы заинтересованы в изучении программирования на R, вы обратились по адресу. На этом YouTube-канале мы создаем видео по программированию на самые разные темы.

Прежде всего, если вы еще этого не сделали, обязательно установите необходимые пакеты. Мы всегда работаем с пакетами tidyverse, которые расширяют словарный запас и возможности R. Они предоставляют полезные инструменты, такие как оператор канала, который мы будем использовать в этом видео. Если вы не знакомы с tidyverse и пакетами внутри него, рекомендую посмотреть мое видео о пакетах.

В наших примерах мы будем использовать общедоступные данные, к которым вы можете получить доступ на своем компьютере. Используя эти данные, вы можете практиковать свои навыки анализа, кодирования и обработки данных. R предоставляет множество наборов данных, к которым вы можете получить доступ с помощью функции «данные». В этом видео мы будем специально работать с набором данных «msleep». Вы можете повторить шаги, которые я показываю, на своем компьютере дома. Если вы запустите команду «view (msleep)», вы увидите структуру набора данных. Он содержит такие переменные, как травоядное, плотоядное, всеядное, время сна, вес мозга и многое другое. Это отличный набор данных для работы.

Для начала давайте суммируем числовые переменные в наборе данных. Мы сосредоточимся на статистических параметрах, таких как минимум, максимум, диапазон, межквартильный диапазон, среднее значение, медиана и дисперсия. Чтобы получить эти значения, вы можете использовать функцию «summary» в R. Запустив «summary(msleep)», вы увидите сводку всех переменных с соответствующими параметрами. Вы также можете использовать «сводку» для одной переменной, если хотите сосредоточиться на конкретной статистике.

Теперь предположим, что мы хотим выбрать только переменные «sleep_total» и «brain_weight» и суммировать их. Вы можете добиться этого, выбрав переменные с помощью функции «выбрать» из пакета tidyverse.

Теперь давайте введем вторую категориальную переменную — «подушки безопасности». Мы можем снова использовать табличную функцию, но на этот раз мы включим в функцию обе переменные. Вот код:

table ( cars $origin , cars $airbags )

Когда мы запускаем этот код, мы получаем таблицу непредвиденных обстоятельств, которая показывает частоту комбинаций между двумя категориальными переменными. Он будет отображать что-то вроде этого:

airbags origin None Driver Driver & Passenger non-us 15 20 10 us 25 30 20

Эта таблица говорит нам, например, что существует 15 автомобилей неамериканского происхождения без подушек безопасности, 20 автомобилей с подушками безопасности только для водителя и 10 автомобилей с подушками безопасности как для водителя, так и для пассажира. Точно так же есть 25 автомобилей из США без подушек безопасности, 30 автомобилей с подушками безопасности только для водителя и 20 автомобилей с подушками безопасности как для водителя, так и для пассажира.

Теперь давайте посмотрим, как мы можем добиться того же результата, используя подход tidyverse. Мы будем использовать функции count и pivot_wider. Вот код:

library (tidyverse) cars %>% count (origin, airbags) %>% pivot_wider (names_from = airbags, values_from = n)

Этот код следует за оператором канала %>% для выполнения ряда операций. Во-первых, мы используем count для расчета частоты комбинаций между происхождением и подушками безопасности. Затем мы применяем pivot_wider для изменения формы данных, помещая разные типы подушек безопасности в отдельные столбцы. Результирующая таблица будет похожа на таблицу, созданную базовым кодом R.

Эти примеры демонстрируют, как вы можете обобщать и создавать таблицы для описания ваших данных, используя как базовый R, так и подход tidyverse. Важно выбрать метод, который соответствует вашим предпочтениям и конкретным требованиям вашего анализа.

Describe and Summarise your data
Describe and Summarise your data
  • 2022.02.01
  • www.youtube.com
If you want to learn about to summarise your data by making tables in R or provide descriptive statistics of your dataset, then this video is for you. R prog...
 

Программирование на R за час — ускоренный курс для начинающих


Программирование на R за час — ускоренный курс для начинающих

Видеоруководство представляет собой ускоренный курс по программированию на R для начинающих. Он охватывает основы R и доступ к встроенным наборам данных, методы манипулирования данными, исследование данных с использованием таких функций, как обзор и полные случаи, методы очистки данных, такие как подмножество и переименование, методы визуализации данных с использованием грамматики графики, T-тесты, Тесты ANOVA и хи-квадрат, линейные модели и способы изменения структуры фреймов данных. Преподаватель подчеркивает важность изучения наборов данных и обсуждает инструменты, делающие анализ и визуализацию данных более интуитивно понятными, такие как tidy verse и пакет ggplot2. Видео завершается демонстрацией теста хи-квадрат и линейной модели с использованием набора данных «автомобили» с акцентом на интерпретацию результатов.

  • 00:00:00 Докладчик рассказывает, что будет рассмотрено в учебном пособии, которое представляет собой ускоренный курс для начинающих программистов на языке R. Курс будет включать в себя основы R, изучение встроенных наборов данных и доступ к ним, манипулирование данными путем очистки, выбора, фильтрации и изменения их формы, описание данных с использованием числовых переменных, визуализацию данных с использованием различных типов графиков и анализ данных с использованием гипотез. тестирование и различные тесты, такие как t-тесты, ANOVA, хи-квадрат и линейные модели. Кроме того, спикер объясняет четыре квадранта RStudio, уделяя особое внимание консоли и среде, а также как получить доступ к справке с помощью команды вопросительного знака и ресурсов сообщества, таких как Stack Overflow. Наконец, спикер демонстрирует, как использовать R в качестве калькулятора, присваивая значения объектам и применяя к ним простые функции.

  • 00:05:00 Инструктор знакомит с фреймами данных, которые можно создать, комбинируя переменные с помощью функции «data.frame» в R. Он показывает, как создать фрейм данных и как просмотреть его структуру с помощью «представления» и « функции "стр". Преподаватель также объясняет, как создавать подмножества определенных частей фрейма данных, используя нотацию «строка, столбец», и демонстрирует, как использовать встроенные наборы данных в R. Кроме того, он представляет аккуратный стих, набор пакетов, которые расширяют словарный запас и наборы данных, доступные пользователям R, и демонстрирует, как использовать оператор конвейера и такие функции, как фильтрация и изменение, чтобы сделать анализ и визуализацию данных более интуитивными.

  • 00:10:00 Преподаватель рассказывает об изучении набора данных на примере набора данных «m sleep». Он демонстрирует, как использовать различные функции, такие как краткий обзор, длина, имена, уникальные и полные случаи, чтобы получить общее представление о структуре данных, измерениях и уникальных значениях. Он также показывает, как создать объект с именем «отсутствует», который включает все строки, в которых есть отсутствующие данные. Преподаватель подчеркивает важность изучения набора данных, чтобы лучше понять его содержимое и то, как использовать его для анализа. Он также благодарит Nested Knowledge, платформу, поддерживающую исследовательский процесс, за спонсорство видео.

  • 00:15:00 Докладчик знакомит с методами очистки данных с помощью программирования на R, такими как выбор переменных и изменение их порядка с помощью функции выбора, переименование переменных с помощью функции переименования и изменение типов переменных с помощью функций as character и mutate. Докладчик также объясняет, как изменить уровни факторов и использовать функцию фильтра для выбора конкретных наблюдений на основе определенных критериев.

  • 00:20:00 Преподаватель обсуждает, как фильтровать данные по таким условиям, как масса меньше 55 и мужской пол с помощью функции перекодирования. Далее они демонстрируют, как обрабатывать отсутствующие данные и удалять дубликаты из фрейма данных с помощью отдельной функции. Преподаватель также расскажет, как изменять данные, как перезаписывая существующие переменные, так и создавая новые на основе условных операторов с помощью функции if else. Наконец, они знакомят с концепцией изменения формы данных и показывают, как манипулировать набором данных с помощью пакета gap minder.

  • 00:25:00 Преподаватель объясняет, как изменить форму фреймов данных, используя функции поворота пошире и поворота подлиннее. Сначала создается фрейм данных, а затем используется функция поворота для изменения его формы, чтобы годы стали заголовками столбцов, а ожидаемая продолжительность жизни находилась внутри ячеек. Затем код запускается в обратном порядке, чтобы создать длинный фрейм данных. Затем инструктор демонстрирует, как суммировать данные с использованием числовых переменных, таких как время бодрствования млекопитающих, путем расчета среднего значения, медианы и межквартильного диапазона. Наконец, инструктор предоставляет код для группировки данных по категориям и вычисления статистических значений для каждой группы, таких как минимальное и максимальное значения, разница между ними и среднее значение.

  • 00:30:00 Преподаватель проходит визуализацию данных в R, начиная с понятия "грамматика графики". Это включает в себя понимание того, как данные сопоставляются с эстетикой, такой как оси x и y, цвет, форма и размер, и как геометрия, такая как линия, гистограмма и гистограмма, может применяться для построения графиков. Пакет ggplot также представлен как инструмент для создания более сложных графиков. Преподаватель предоставляет примеры кодов для создания базовых графиков и обсуждает, как эстетика и геометрия взаимодействуют для получения конечного результата.

  • 00:35:00 Спикер обсуждает, как использовать ggplot2 для создания различных типов графиков. Они начинают с определения данных и отображения в ggplot, а затем добавляют геометрию, такую как гистограммы и гистограммы. Они также демонстрируют, как передавать данные и как манипулировать ими перед созданием графика. Затем они делают еще один шаг, добавляя эстетику и окраску к графику с различными оттенками в зависимости от категорий. Видео также включает краткое обсуждение тем и ярлыков, а также использует примеры из набора данных «Звездных войн».

  • 00:40:00 В видеоуроке показано, как создать точечную диаграмму с помощью ggplot2 и добавить дополнительный слой с помощью geom_smooth. Используя «facet_wrap» с переменной «sex», учебник показывает, как смотреть на точечную диаграмму в разных аспектах. В этом разделе также рассматривается проверка гипотез с использованием T-критерия, ANOVA, критерия хи-квадрат и линейных моделей с примерами из набора данных «пробелов», который включает данные об ожидаемой продолжительности жизни, населении, ВВП на душу населения и других факторах по всему миру. разных странах и регионах. В учебном пособии объясняется, как проверить различия в ожидаемой продолжительности жизни между Африкой и Европой с помощью Т-теста, предполагая, что в качестве нулевой гипотезы нет никакой разницы.

  • 00:45:00 Это известно как тест Тьюки на честные существенные различия, который сравнивает все возможные пары средних значений, чтобы увидеть, есть ли какие-либо существенные различия. В этом примере мы видим, что между всеми тремя континентами существуют значительные различия: в Европе самая высокая продолжительность жизни, а в Африке самая низкая. Скорректированные значения p помогают нам избежать ложных выводов, принимая во внимание множественные сравнения. В целом, t-критерий и ANOVA являются мощными инструментами для анализа различий между группами в R.

  • 00:50:00 Инструктор демонстрирует статистический анализ набора данных различных видов ирисов. Первый анализ представляет собой критерий согласия хи-квадрат, чтобы определить, равна ли пропорция радужных оболочек, попадающих в категории малых, средних и больших. Результаты проверки показали, что пропорции не равны, и нулевая гипотеза отвергнута. Второй анализ представляет собой критерий независимости хи-квадрат, который определяет, зависит ли значение одной переменной от значения другой. В этом случае анализ проводится по размеру и виду ирисов. Из результатов видно, что между двумя переменными существует зависимость, и нулевая гипотеза отвергается.

  • 00:55:00 Преподаватель рассматривает простую линейную модель с использованием набора данных "автомобили" в R и объясняет, как интерпретировать выходные данные. Линия наилучшего соответствия создается с использованием точки пересечения по оси Y и наклона, при этом точка пересечения по оси Y в данном случае не имеет смысла, но необходима для построения линии. Наклон 3,9 важен, поскольку он представляет собой дополнительное расстояние, необходимое для увеличения скорости на каждую единицу, и имеет значение p, равное 0,00 (чрезвычайно статистически значимое), отвергая нулевую гипотезу об отсутствии связи между скоростью и расстоянием. Значение R-квадрата, равное 0,65, показывает, насколько изменение расстояния до остановки можно объяснить скоростью автомобиля. Выходные данные также включают в себя остатки и коэффициенты, причем наклон является наиболее важным в этом контексте. Преподаватель предоставляет ссылку на бесплатную шпаргалку по визуализации данных и призывает зрителей ставить лайки, комментировать и подписываться.
R programming in one hour - a crash course for beginners
R programming in one hour - a crash course for beginners
  • 2022.04.27
  • www.youtube.com
R programming is easy. In this video, I'll walk you though how to clean your data; how to manipulate (or wrangle) your data; how to summarize your data; how ...
 

Тест хи-квадрат с использованием программирования R


Тест хи-квадрат с использованием программирования R

Сегодня мы углубимся в тему теста хи-квадрат, уделив особое внимание тесту согласия. Этот тест невероятно прост, так что оставайтесь со мной и давайте вместе его изучим.

Прежде всего, убедитесь, что у вас установлен пакет tidyverse. Если вы не знакомы с tidyverse, вы можете посмотреть другие мои видео, чтобы узнать о нем больше. Tidyverse — это набор пакетов R, который расширяет словарный запас R и делает анализ данных более эффективным. Дополнительно нам понадобится пакет forcats, предоставляющий расширенный функционал для работы с категориальными переменными. В этом уроке мы будем использовать набор данных «GSS_cat», который поставляется с пакетом «forcats».

После установки пакетов давайте взглянем на набор данных «GSS_cat». Он содержит различные переменные, одна из которых — «семейное положение». Мы собираемся сосредоточиться на этой переменной для нашего анализа. Чтобы получить представление о пропорциях различных семейных статусов, я создал график в правой части экрана, показывающий категории «никогда не был женат», «разведен» и «замужем». Из сюжета мы можем заметить, что пропорции кажутся разными.

Теперь давайте перейдем к тесту хи-квадрат. Цель этого теста состоит в том, чтобы определить, существует ли значительная разница в доле людей, которые никогда не были женаты, разведены или женаты. Наша нулевая гипотеза предполагает, что разницы нет, и мы хотим проверить, подтверждают ли данные эту гипотезу.

Прежде чем проводить тест, я хотел бы поблагодарить нашего спонсора, Native Knowledge. Это онлайн-платформа, которая облегчает систематический обзор литературы и метаанализ. Будьте уверены, чтобы проверить их; они совершенно потрясающие!

Теперь давайте перейдем к коду. Я предоставил код на экране для очистки и подготовки данных. Он включает в себя фильтрацию данных, чтобы включить только категории «никогда не состоявшие в браке» и «разведенные» и удаление ненужных факторов. Не стесняйтесь копировать код, если хотите воспроизвести этот анализ самостоятельно. После запуска кода у вас будет красивый, аккуратный набор данных с одной переменной.

Теперь самое интересное — проведение теста хи-квадрат. Чтобы применить тест, нам нужно создать таблицу наших данных. Я создал новый объект под названием «my_table» и присвоил ему табличную функцию, используя наш подготовленный набор данных в качестве аргумента. Когда мы запускаем код и просматриваем «my_table», мы видим таблицу с аккуратно представленными данными.

Затем мы можем просто применить тест хи-квадрат к нашей таблице, используя функцию «chisq.test». Запуск этой функции на «my_table» предоставит нам результаты теста, включая p-значение. В этом случае мы получили очень маленькое p-значение, указывающее на то, что наблюдать наблюдаемые различия в пропорциях крайне маловероятно, если бы категории имели равные пропорции. Следовательно, мы можем отвергнуть нулевую гипотезу равных пропорций и сделать вывод о наличии статистически значимой разницы между семейными положениями.

Если вы предпочитаете более лаконичный подход, мы можем добиться тех же результатов, используя операторы канала («%>%») из пакета tidyverse. Направляя данные непосредственно в таблицу, а затем в тест хи-квадрат, мы можем упростить код и получить тот же ответ.

Я надеюсь, что вы нашли этот обзор теста хи-квадрат информативным. Если вы хотите глубже погрузиться в тему, я рекомендую посмотреть более длинное видео о тесте хи-квадрат, которое обеспечит более полное понимание его механики. Продолжайте в том же духе, оставайтесь любопытными и не забывайте всегда стремиться к непрерывному обучению.

Chi squared test using R programming
Chi squared test using R programming
  • 2022.11.07
  • www.youtube.com
If you're learning about statistical analysis using R programming then you'll love this video. In it Dr Martin explains how to use R studio and R programming...
 

Population, sample, параметр, статистика


Population, sample, параметр, статистика

Всем привет! На сегодняшнем занятии мы рассмотрим некоторые из наиболее важных терминов в области статистики. Давайте углубимся и начнем с двух фундаментальных понятий: населения и выборки.

Популяция относится ко всем данным, представляющим интерес для конкретного исследования, включая наблюдения, ответы, измерения и т. д. С другой стороны, выборка является подмножеством этой совокупности. Чтобы проиллюстрировать это, давайте рассмотрим политический опрос, проведенный компанией. Они случайным образом связываются с 1200 избирателями и спрашивают их об их предпочтениях при голосовании. В этом случае выборкой будет список предпочтений, полученный от этих 1200 человек. Население, технически говоря, будет списком предпочтений всех зарегистрированных избирателей. Важно отметить, что и совокупность, и выборка относятся к самим предпочтениям, а не к отдельным лицам.

В большинстве случаев невозможно собрать данные по всей популяции. Вместо этого мы полагаемся на образцы, чтобы делать выводы о популяциях. В этом суть выводной статистики — использование выборочных данных для выводов о совокупностях. Теперь перейдем к ключевым определениям.

Во-первых, параметр — это числовое значение, описывающее совокупность. Он предоставляет информацию о населении в целом. Например, в нашем примере с опросом параметром будет процент всех зарегистрированных избирателей, которые намерены проголосовать за определенного кандидата.

Во-вторых, статистика — это числовое значение, описывающее выборку. Он представляет собой характеристики или измерения, полученные из выборочных данных. Возвращаясь к нашему сценарию опроса, если 38% из 1200 опрошенных избирателей выражают намерение голосовать за кандидата А, то 38% — это статистика — представление предпочтений выборки.

Как правило, у нас есть доступ только к статистике, поскольку часто нецелесообразно получать параметры для всего населения. Однако нас больше всего интересуют параметры, поскольку они дают представление об общей совокупности. Давайте рассмотрим еще пару примеров, чтобы закрепить наше понимание.

Пример 1. Средний возраст 50 случайно выбранных автомобилей, зарегистрированных в DMV Нью-Йорка, составляет 8 лет. Здесь населением будет возраст всех транспортных средств, зарегистрированных в DMV Нью-Йорка. В данном случае выборка состоит из возрастов 50 случайно выбранных автомобилей. Параметром будет средний возраст всех зарегистрированных в Нью-Йорке транспортных средств, а статистикой будет средний возраст 50 случайно выбранных автомобилей.

Пример 2. В 2018 году средний доход домохозяйства в США составлял 63 937 долларов, а в Чикаго — 70 760 долларов. В этом сценарии население относится к доходам всех домохозяйств в США в 2018 году, а выборка представляет собой доходы домохозяйств в Чикаго за тот же год. Первое значение, 63 937 долларов США, представляет собой параметр, описывающий совокупность, а второе значение, 70 760 долларов США, представляет собой статистику, представляющую выборку.

Понимание различий между совокупностью и выборкой, а также параметрами и статистикой имеет решающее значение в статистическом анализе. Хотя у нас может быть в первую очередь доступ к статистике, наша цель состоит в том, чтобы сделать вывод и оценить параметры, поскольку они обеспечивают более широкое представление обо всем населении.

Population, Sample, Parameter, Statistic
Population, Sample, Parameter, Statistic
  • 2020.06.14
  • www.youtube.com
Check out my whole Stats 101 playlist: https://youtube.com/playlist?list=PLKBUk9FL4nBalLCSWT6zQyw19EmIVInT6If this vid helps you, please help me a tiny bit b...
Причина обращения: