프로그래밍 자습서 - 페이지 10

 

R 프로그래밍을 사용하여 데이터를 기록합니다. tidyverse 및 dplyr 패키지를 사용하여 새 변수 생성


R 프로그래밍을 사용하여 데이터를 기록합니다. tidyverse 및 dplyr 패키지를 사용하여 새 변수 생성

오늘 우리는 R에서 데이터를 기록하는 흥미로운 주제를 탐구할 것입니다. 그러나 먼저 데이터를 기록한다는 것이 무엇을 의미하는지 명확히 합시다. 이 프로세스를 설명하기 위해 Star Wars 데이터 세트를 사용합니다. 컴퓨터에 tidyverse 패키지를 이미 설치한 경우 이 데이터 세트에 액세스할 수 있으며 집에서 따라할 수 있습니다.

Star Wars 데이터 세트는 Luke Skywalker, Leia 공주 등과 같은 Star Wars 캐릭터를 나타내는 행과 이름, 키, 질량, 성별과 같은 다양한 변수를 나타내는 열로 구성됩니다. 우리의 목표는 원본 데이터 세트를 몇 가지 주요 차이점이 포함된 새 데이터 세트로 변환하는 것입니다.

우리가 만들 수정된 데이터 세트에는 주목해야 할 몇 가지 변경 사항이 있습니다. 먼저 높이 열은 원래 데이터 세트에서와 같이 센티미터 대신 미터 제곱으로 표시됩니다. 둘째, 성별 열은 원래 값 대신 "M"과 "F"를 사용하여 각각 남성과 여성을 나타냅니다. 또한 데이터 세트에서 누락된 값을 모두 제거했습니다. 마지막으로 키가 1m 이상이고 몸무게가 75kg 이상인 특정 기준에 따라 문자를 "크다" 또는 "작다"로 분류하는 "크기"라는 새 변수를 만들었습니다.

시작하려면 데이터 조작에 필요한 기능을 제공하는 tidyverse 패키지가 로드되었는지 확인하십시오. 패키지는 한 번만 설치하면 되지만 library() 또는 require() 함수를 사용하여 각 세션에 대해 로드할 수 있습니다. tidyverse 패키지가 로드되면 Star Wars 데이터 세트에도 액세스할 수 있습니다.

Star Wars 데이터 세트로 작업할 SW라는 새 개체를 만들어 보겠습니다. 할당 연산자(<-)를 사용하여 Star Wars 데이터 세트를 SW 개체에 할당합니다. 이렇게 하면 원본 데이터 세트를 수정하지 않고도 변경하고 작업을 수행할 수 있습니다. 이제 작업할 변수를 선택하겠습니다. 이를 달성하기 위해 파이프 연산자(%>%)를 활용하여 작업을 함께 연결합니다.

먼저 select() 함수를 사용하여 원하는 변수(이름, 질량 및 성별)를 선택합니다. 또한 rename() 함수를 사용하여 "mass" 변수의 이름을 "weight"로 바꿉니다. 이 코드를 실행하면 선택한 변수가 유지되고 SW 데이터 세트에서 "질량" 열의 이름이 "중량"으로 변경됩니다.

다음으로 누락된 값을 처리합니다. 여기서 자세히 다루지는 않겠지만 데이터 분석에서 누락된 값을 적절하게 처리하는 것이 중요합니다. 지금은 단순히 데이터 세트에서 누락된 값을 제거합니다. 누락된 값을 처리하는 기술은 별도의 동영상에서 다룹니다.

이제 "높이" 변수를 센티미터에서 미터로 변환하는 데 초점을 맞추겠습니다. mutate() 함수와 파이프 연산자를 사용하여 각 값을 100으로 나누어 "높이" 열을 수정합니다. 이렇게 나누면 높이가 센티미터 대신 미터로 표시됩니다.

"gender" 변수로 이동하면 "MAphrodite"와 같이 "male" 및 "female" 이외의 값이 포함되어 있음을 알 수 있습니다. 이 문제를 해결하기 위해 데이터 세트를 필터링하고 "남성" 및 "여성" 값이 있는 관찰만 유지하려고 합니다. 필터링을 위한 두 가지 접근 방식을 시연합니다. 첫 번째 접근 방식은 filter() 함수를 사용하고 "남성" 또는 "여성" 성별로 관찰을 유지하기 위한 조건을 지정하는 것입니다. 두 번째로 보다 우아한 접근 방식은 "남성" 또는 "여성" 값이 있는 관측값을 유지하기 위해 %in% 연산자를 사용하는 연결을 사용합니다. 두 접근 방식 모두 동일한 결과를 산출합니다. "남성" 및 "여성" 관측값만 데이터 세트에 남습니다.

"gender" 변수를 필터링하면 "gender" 변수의 값을 다시 코딩할 수 있습니다. 현재 "남성" 및 "여성" 값을 포함하지만 각각 "M" 및 "F"로 표시하려고 합니다. 이를 달성하기 위해 mutate() 함수와 recode() 함수를 사용합니다.

recode() 함수 내에서 우리는 다시 코딩하려는 변수를 지정합니다. 이 경우 "gender"입니다. 그런 다음 old_value = new_value 구문을 사용하여 새 값을 할당합니다. 이 경우 "남성"을 "M"으로, "여성"을 "F"로 기록하도록 설정합니다.

이 코드를 실행하면 SW 데이터 세트의 "성별" 변수가 업데이트되어 "남성"과 "여성"을 각각 "M"과 "F"로 바꿉니다.

마지막으로 특정 기준에 따라 "크기"라는 새 변수를 만듭니다. "크기" 변수는 키와 몸무게에 따라 문자를 "큰" 또는 "작은"으로 분류합니다. mutate() 함수와 파이프 연산자를 다시 사용합니다.

mutate() 내에서 조건을 정의하여 "크기" 변수를 생성합니다. 논리 연산자를 사용하여 높이가 1미터 이상이고 무게가 75kg보다 큰지 확인합니다. 조건이 충족되면 해당 관찰에 "big"을 할당합니다. 그렇지 않으면 "소형"을 할당합니다. 이것은 mutate() 내의 if_else() 함수를 사용하여 달성됩니다.

이 코드가 실행되면 "크기" 변수가 SW 데이터 세트에 추가되어 키와 몸무게에 따라 각 문자가 "큰" 또는 "작은"으로 분류되는지 나타냅니다.

결론적으로 데이터 분석에 대한 열정이 있고 R 프로그래밍을 배우고자 하는 열망이 있다면 잘 찾아오셨습니다. 구독 버튼을 누르고 종 모양 알림을 클릭하여 향후 동영상에 대한 최신 정보를 받아보세요.

Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
  • 2020.05.15
  • www.youtube.com
This video is about how to recode data and manipulate data using R programming. It is really an R programming for beginners videos. It provides a demonstrati...
 

R 프로그래밍을 사용한 10가지 데이터 필터링 팁. tidyverse를 사용하여 데이터를 필터링하고 하위 집합으로 만듭니다.


R 프로그래밍을 사용한 10가지 데이터 필터링 팁. tidyverse를 사용하여 데이터를 필터링하고 하위 집합으로 만듭니다.

이 비디오에서는 필터 기능을 사용하여 R에서 데이터를 필터링하는 방법을 살펴봅니다. 필터링을 통해 특정 기준에 따라 데이터의 특정 하위 집합을 추출할 수 있습니다. 이를 위해 R에서 데이터 조작 및 분석을 위한 강력한 도구 세트를 제공하는 tidyverse 패키지를 사용할 것입니다. 필터 기능에 들어가기 전에 기본 사항에 대해 간략하게 설명하겠습니다.

환경 설정:
시작하려면 라이브러리 함수를 사용하여 tidyverse 패키지를 로드해야 합니다. tidyverse 패키지에는 R의 어휘와 기능을 확장하는 tidyverse 생태계가 포함되어 있습니다. tidyverse에 익숙하지 않은 경우 더 나은 이해를 위해 패키지에 대한 제 비디오를 시청하는 것이 좋습니다.

데이터 탐색: 이 데모에서는 tidyverse 패키지에 내장된 데이터 세트로 포함된 "msleep" 데이터 세트로 작업할 것입니다. "msleep" 데이터 세트에는 이름, 총 수면, 체중 및 뇌 무게와 같은 변수를 포함하여 다양한 포유류에 대한 정보가 포함되어 있습니다. 이 데이터 세트는 필터링을 위한 연습 데이터로 사용됩니다.

데이터 하위 집합 만들기: 데이터 하위 집합을 만들기 위해 먼저 "msleep" 데이터 집합의 복사본을 만들고 할당 연산자 "="를 사용하여 "my_data"라는 새 개체에 할당합니다.

my_data <- msleep

변수 선택: 다음으로 작업할 특정 변수를 선택합니다. 이 경우 "name" 및 "sleep_total" 열에 관심이 있습니다. select 함수를 사용하여 이러한 열을 선택하고 할당 연산자를 사용하여 "my_data" 개체에 결과를 다시 저장합니다.

my_data <- my_data %>% select(name, sleep_total)

데이터 필터링: 이제 주요 부분인 필터 기능이 나옵니다. 이 기능을 사용하여 특정 기준에 따라 데이터 세트에서 행을 추출합니다. 필터 기능을 사용할 수 있는 여러 가지 방법이 있으며 10가지 다른 예를 살펴보겠습니다.

단일 기준으로 필터링:
시작하려면 총 수면 시간이 18 이상인 포유류만 포함하도록 데이터를 필터링해 보겠습니다. 필터 기능을 사용하고 조건을 "sleep_total > 18"로 지정합니다.

my_data <- my_data %>% filter(sleep_total > 18)

"!"를 사용한 필터링 운영자:
"!"도 사용할 수 있습니다. 연산자는 주어진 조건의 반대를 필터링합니다. 이 경우 총 수면 시간이 18 미만인 포유류를 필터링합니다.

my_data <- my_data %>% filter(!(sleep_total < 18))

"and"를 사용하여 여러 기준에 기반한 필터링:
논리 "and" 연산자(",")를 사용하여 결합하여 여러 기준에 따라 데이터를 필터링할 수 있습니다. 예를 들어, 목이 "영장류"이고 체중이 20 이상인 포유류를 추출해보자.

my_data <- my_data %>% filter(order == "primate", body_weight > 20)

"또는"을 사용하여 여러 기준을 기반으로 필터링:
경우에 따라 여러 기준 중 하나 이상을 충족하는 행을 추출해야 할 수 있습니다. 논리 "or" 연산자("|")를 사용하여 이를 달성할 수 있습니다. 예를 들어 소, 개 또는 염소인 포유류를 추출해 보겠습니다.

my_data <- my_data %>% filter(name == "cow" | name == "dog" | name == "goat")

연결을 사용한 필터링:
각 기준을 개별적으로 지정하는 대신 값을 연결하여 필터 기능 내에서 사용할 수 있습니다. 이 접근 방식은 여러 값을 필터링하는 보다 우아한 방법을 제공합니다. 예를 들어 다음과 같이 이름 벡터를 만들고 필터 함수에서 사용하여 필터링할 수 있습니다.

names_to_filter <- c("cow", "dog", "goat")
my_data <- my_data %>% filter(name %in% names_to_filter)

"between" 연산자를 사용한 필터링:
"사이" 연산자를 사용하여 값 범위를 기준으로 행을 필터링할 수 있습니다. 총 수면 시간이 16~18회(포함)인 포유류만 포함하도록 데이터를 필터링해 보겠습니다.

my_data <- my_data %>% filter(between(sleep_total, 16, 18))

특정 값에 가까운 값 필터링:
변수 내의 특정 값에 가까운 관측치를 필터링하려면 "near" 기능을 사용할 수 있습니다. 예를 들어 허용오차 0.5 내에서 총 수면 시간이 17회에 가까운 포유류를 포함하도록 데이터를 필터링해 보겠습니다.

my_data <- my_data %>% filter(near(sleep_total, 17, tolerance = 0.5))

누락된 값에 대한 필터링:
특정 변수에 누락된 값이 있는 행을 필터링하려면 "is.na" 함수를 사용할 수 있습니다. "conservation" 변수에 누락된 값이 있는 포유류만 포함하도록 데이터를 필터링해 보겠습니다.

my_data <- my_data %>% filter(is.na(conservation))

누락되지 않은 값 필터링:
반대로 특정 변수에서 누락된 값이 있는 행을 필터링하려면 "!" "is.na" 함수와 함께 연산자. "conservation" 변수에 누락된 값이 있는 포유류를 제외하도록 데이터를 필터링해 보겠습니다.

my_data <- my_data %>% filter(!is.na(conservation))

결론: 필터 기능과 다양한 필터링 기술을 활용하여 기준에 따라 데이터의 특정 하위 집합을 추출할 수 있습니다. 필터링을 통해 관련 관찰에 집중하고 추가 분석을 용이하게 할 수 있습니다. 특정 데이터 필터링 요구 사항에 맞게 다양한 기준과 조합을 실험해 보십시오.

이 비디오가 도움이 되었고 데이터 분석 및 R 프로그래밍에 대해 자세히 알아보려면 이 채널을 구독하고 알림을 활성화하여 향후 비디오에 대한 최신 정보를 얻으십시오.

10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
  • 2020.05.22
  • www.youtube.com
In this video you'll learn 10 different ways to filter and subset your data using R programming. This is an R programming for beginners video and forms part ...
 

초보자를 위한 R.R 프로그래밍으로 데이터 정리


초보자를 위한 R.R 프로그래밍으로 데이터 정리

다시 오신 것을 환영합니다! 오늘은 데이터 정리에 대해 알아보겠습니다. 데이터로 작업할 때 많은 사람들이 즉시 통계 분석에 뛰어들고 싶어합니다. 그러나 정확하고 신뢰할 수 있는 결과를 보장하기 위해 체계적인 접근 방식을 취하는 것이 중요합니다. 이 비디오에서는 분석 전 중요한 단계인 데이터 정리 과정을 안내합니다.

먼저 데이터 탐색부터 시작하겠습니다. 이 주제는 이전 영상에서 다뤘으니 아직 안 보신 분들은 꼭 보세요. 데이터 탐색은 데이터 세트의 구조와 콘텐츠에 익숙해지는 데 도움이 됩니다. 데이터를 잘 이해하고 나면 데이터 정리로 넘어갈 수 있습니다.

그렇다면 데이터를 정리한다는 것은 무엇을 의미합니까? 몇 가지 주요 작업이 관련되어 있습니다. 첫째, 각 변수가 올바르게 분류되었는지 확인하는 것이 중요합니다. 필요에 따라 변수 유형을 조정하고 변경해야 할 수도 있습니다. 이 작업을 수행하는 방법을 곧 보여 드리겠습니다.

다음으로, 작업할 변수를 선택하고 원하지 않는 행이나 관찰을 필터링할 수 있습니다. 이 단계는 대규모 데이터 세트를 처리할 때 특히 중요합니다. 이를 통해 분석과 관련된 특정 데이터에 집중할 수 있습니다.

데이터 정리의 또 다른 중요한 측면은 누락된 데이터를 처리하는 것입니다. 이 비디오에서는 누락된 값을 찾고 처리하는 기술에 대해 설명합니다. 또한 중복 항목을 식별하고 처리하는 방법과 필요한 경우 값을 다시 코딩하는 방법을 다룹니다.

진행하기 전에 R로 작업할 때 항상 tidyverse 패키지를 사용한다는 점을 언급하겠습니다. tidyverse는 R의 기능을 확장하고 다양한 유용한 기능을 제공하는 패키지 모음입니다. 아직 설치하지 않았다면 tidyverse 패키지를 설치하고 로드하십시오.

이제 사용할 데이터 세트에 대해 이야기해 보겠습니다. R에는 연습과 학습에 사용할 수 있는 기본 제공 데이터 세트가 함께 제공됩니다. 이 레슨에서는 Tidyverse를 설치하면 사용할 수 있는 Star Wars 데이터 세트를 사용합니다. "data()"를 입력하고 사용 가능한 옵션을 탐색하여 이러한 데이터 세트에 액세스할 수 있습니다. 예를 들어 "view(starwars)"를 입력하여 Star Wars 데이터 세트를 볼 수 있습니다.

이제 변수 유형에 초점을 맞추겠습니다. 각 변수가 올바르게 식별되고 분류되었는지 확인하는 것이 중요합니다. Star Wars 데이터 세트에서 변수 유형을 탐색하기 위해 "glimpse(starwars)" 함수를 사용할 수 있습니다. 이것은 변수 이름과 유형을 포함하여 데이터 세트의 요약을 제공합니다.

경우에 따라 문자 변수를 요인 변수로 변환해야 할 수 있습니다. 요인은 미리 정의된 수준 또는 범주를 가질 수 있는 범주형 변수입니다. 이를 위해 "as.factor()" 함수를 사용할 수 있습니다. 예를 들어 Star Wars 데이터 세트의 "gender" 변수를 요인으로 변환하려면 "starwars$gender <- as.factor(starwars$gender)" 코드를 사용할 수 있습니다. 이렇게 하면 변수 유형이 변경되고 이에 따라 데이터 세트가 업데이트됩니다.

요인 변수의 수준 또는 범주를 지정해야 하는 경우 "levels()" 함수를 사용할 수 있습니다. 예를 들어, "gender" 변수의 레벨 순서를 변경하려면 "levels(starwars$gender) <- c('masculine', 'feminine')" 코드를 사용할 수 있습니다. 이렇게 하면 특정 요구 사항에 따라 범주 순서를 사용자 지정할 수 있습니다.

다음으로 변수 선택 및 행 필터링에 대해 설명하겠습니다. R에서는 "select()" 함수를 사용하여 작업할 변수를 선택할 수 있습니다. 예를 들어 "select(starwars, name, height, ends_with('color'))" 코드를 사용하여 Star Wars 데이터 세트에서 "name" 및 "height"와 같은 변수를 선택할 수 있습니다.

행을 필터링하려면 만족합니다. 하지만 이 경우에는 우리가 원하는 것이 아닙니다. 머리 색깔이 금발이거나 갈색인 관측치를 포함하려고 합니다. 따라서 논리 연산자 "or"(|로 표시)를 사용하여 관찰이 조건 중 하나를 충족해야 함을 지정합니다.

이제 누락된 데이터를 처리하는 데이터 정리의 다음 부분으로 이동하겠습니다. 누락된 데이터는 다양한 이유로 데이터 세트에서 발생할 수 있으며 이를 적절하게 처리하는 것이 중요합니다. Star Wars 데이터셋의 경우 is.na() 함수를 사용하여 누락된 값을 확인할 수 있습니다.

누락된 데이터를 찾아 처리하기 위해 코드에 다른 단계를 추가할 수 있습니다.

star_wars_filtered <- star_wars %>% select ( name , height , ends_with ( "color" ) ) %>% filter ( hair_color %in% c ( "blonde" , "brown" ) ) %>% filter ( ! is.na ( height ) )

이 코드에서는 먼저 원하는 변수(이름, 높이 및 "색상"으로 끝나는 변수)를 선택합니다. 그런 다음 "금발" 또는 "갈색"인 머리 색상 값을 필터링합니다. 마지막으로 !is.na(height) 조건을 사용하여 높이 값이 누락된 관측치를 제외합니다.

다음으로 데이터 세트의 중복 문제를 해결해 보겠습니다. 데이터 세트에 동일한 관찰이 여러 개 있는 경우 중복이 발생할 수 있습니다. 중복을 찾아 처리하기 위해 코드에 다른 단계를 추가할 수 있습니다.

star_wars_filtered <- star_wars_filtered %>% distinct ( )

이 코드에서는 distinct() 함수를 사용하여 star_wars_filtered 데이터 세트에서 중복 관찰을 제거하여 각 관찰이 고유하도록 합니다.

마지막으로 데이터 세트의 값을 다시 코딩하는 방법에 대해 설명하겠습니다. 때로는 분석에 더 적합하도록 특정 변수의 값을 수정해야 할 수도 있습니다. 이 경우 "blonde"를 1로, "brown"을 2로 하여 머리 색깔 변수를 다시 코딩하고 싶다고 가정해 보겠습니다. 코드에 다른 단계를 추가하여 이를 달성할 수 있습니다.

star_wars_filtered <- star_wars_filtered %>% mutate ( hair_color = recode ( hair_color , "blonde" = 1 , "brown" = 2 ) )

여기에서 recode() 함수와 함께 mutate() 함수를 사용하여 hair_color 변수의 값을 수정합니다. "blonde"는 1로, "brown"은 2로 코딩해야 한다고 지정합니다.

이제 데이터 정리 프로세스를 완료했습니다. 우리는 원하는 변수를 선택하고, 원하지 않는 관찰을 필터링하고, 누락된 데이터를 처리하고, 중복을 제거하고, 필요한 경우 값을 다시 코딩했습니다.

이는 데이터 정리 프로세스의 일부 기본 단계일 뿐이며 특정 단계는 데이터 세트 및 분석 요구 사항에 따라 다를 수 있음을 기억하십시오. 그러나 이와 같은 체계적인 접근 방식을 따르면 데이터가 깨끗하고 추가 분석에 적합한 형식인지 확인하는 데 도움이 될 수 있습니다.

이 설명이 데이터 정리 프로세스를 이해하는 데 도움이 되기를 바랍니다.

Clean your data with R. R programming for beginners.
Clean your data with R. R programming for beginners.
  • 2021.12.15
  • www.youtube.com
If you are a R programming beginner, this video is for you. In it Dr Greg Martin shows you in a step by step manner how to clean you dataset before doing any...
 

R 프로그래밍을 사용하여 데이터 탐색


R 프로그래밍을 사용하여 데이터 탐색

안녕하세요, 프로그래밍 애호가 여러분! 제 이름은 Greg Martin입니다. 프로그래밍 101 세션에 다시 오신 것을 환영합니다. 오늘은 데이터 분석에 들어가기 전에 데이터 탐색의 중요한 주제에 대해 논의할 것입니다. 작업 중인 데이터를 이해하는 것이 필수적입니다. 데이터 세트 또는 데이터 프레임의 치수, 매개변수 및 크기를 파악해야 합니다. 또한 변수의 수와 특성을 알고 있어야 합니다. 이 단계는 매우 중요하고 놀라울 정도로 쉬우므로 함께 해봅시다.

프로그래밍에 대해 배우기 위해 여기에 오셨다면 잘 찾아오셨습니다. 이 YouTube 채널에서는 다양한 주제를 다루는 프로그래밍 동영상을 제작합니다.

이제 Tidyverse 내에서 기능과 패키지를 사용한다고 말하면서 시작하겠습니다. Tidyverse에 익숙하지 않은 경우 Tidyverse의 의미를 설명하는 다른 비디오 중 하나를 시청하는 것이 좋습니다. 컴퓨터에 Tidyverse를 설치하면 Tidyverse의 패키지와 함께 제공되는 모든 기능, 기능 및 확장된 어휘를 사용할 수 있습니다. 진행하면서 이러한 패키지 중 일부를 언급하겠습니다.

중요한 것은 Tidyverse에는 데이터 분석을 연습하는 데 사용할 수 있는 다양한 내장 데이터 세트도 포함되어 있다는 것입니다. 이는 특히 유용하며 나중에 "스타워즈"라는 추가 데이터 세트 중 하나를 사용할 것입니다. 스타워즈 데이터 세트는 누락된 데이터 및 기타 문제를 포함하고 있어 데이터를 탐색하고 정리하기 위한 훌륭한 예입니다.

시작하려면 항상 물음표 다음에 함수 또는 데이터 세트 이름을 사용하여 문서에 액세스하고 해당 특정 데이터 세트에 대한 정보를 얻을 수 있습니다. 예를 들어 "?star wars"를 입력하고 Enter 키를 누르면 star wars 데이터 세트에 있는 변수에 대한 정보에 액세스할 수 있습니다.

이제 몇 가지 특정 기능으로 이동하겠습니다. 우리가 배울 첫 번째 함수는 차원을 나타내는 "dim"입니다. "dim(star wars)" 명령을 사용하고 Enter 키를 누르면 데이터 세트에 87개의 행 또는 관측치와 13개의 변수가 있음을 확인할 수 있습니다.

데이터 프레임의 구조를 이해하는 데 사용되는 또 다른 공통 함수는 "str"(구조)입니다. 그러나 "str(star wars)"를 직접 적용하면 데이터 세트 내에 목록이 있기 때문에 지저분한 출력이 발생합니다. 목록은 각 관찰이 다양한 데이터 포인트 또는 전체 데이터 프레임을 포함하는 별도의 목록일 수 있는 변수를 나타냅니다. 출력을 더 읽기 쉽게 만들기 위해 Tidyverse의 "glimpse" 기능을 사용할 수 있습니다. 따라서 "glimpse(star wars)"를 입력하고 Enter 키를 누르면 관측치, 변수 및 해당 유형의 수를 포함하여 데이터 세트의 구조가 훨씬 더 깔끔하게 표시됩니다.

데이터 세트 자체를 보려면 "view(star wars)"를 입력하고 Enter 키를 눌러 "보기" 기능을 사용할 수 있습니다. 이렇게 하면 변수를 나타내는 열과 관찰을 나타내는 행이 있는 데이터 세트를 깔끔하고 조직적인 형식으로 표시하는 창이 열립니다.

또한 "head" 및 "tail" 기능을 사용하여 각각 데이터 세트의 처음 및 마지막 몇 행을 빠르게 볼 수 있습니다. 예를 들어 "head(star wars)"는 처음 6개 행을 표시하고 "tail(star wars)"는 마지막 6개 행을 표시합니다.

데이터 세트 내의 특정 변수에 액세스하려면 "$" 연산자를 사용할 수 있습니다. 예를 들어 "star wars$name"을 입력하고 Enter 키를 누르면 "name" 변수에 직접 액세스할 수 있습니다.

또 다른 유용한 기능은 데이터 세트 내에서 변수 이름을 검색할 수 있는 "이름"입니다. "names(star wars)"를 입력하고 Enter 키를 누르면 존재하는 모든 변수 목록을 얻을 수 있습니다. 이는 오타를 방지하고 정확성을 보장하므로 코드에서 변수를 참조할 때 유용합니다.

또한 "길이" 기능을 사용하여 숫자를 결정할 수 있습니다.

"길이" 함수는 데이터 세트 내의 변수 수를 결정하는 데 사용할 수 있습니다. 예를 들어 "length(names(star wars))"를 입력하고 Enter 키를 누르면 star wars 데이터 세트에 있는 총 변수 수를 확인할 수 있습니다.

데이터 탐색의 또 다른 중요한 측면은 변수의 데이터 유형을 이해하는 것입니다. "class" 함수는 변수의 클래스 또는 데이터 유형을 결정하는 데 사용할 수 있습니다. 예를 들어, star wars 데이터 세트에서 "name" 변수의 데이터 유형을 알고 싶다면 "class(star wars$name)"을 입력하고 Enter 키를 누르면 됩니다.

"요약" 기능을 사용하여 데이터 세트의 숫자 변수에 대한 요약 통계를 얻을 수도 있습니다. 예를 들어 "height" 변수의 요약을 얻으려면 "summary(star wars$height)"를 입력하고 Enter 키를 누릅니다.

특정 조건에 따라 데이터 세트를 필터링하고 하위 집합으로 만들려면 "필터" 기능을 사용할 수 있습니다. 이 기능을 사용하면 특정 기준을 충족하는 행을 선택하는 논리적 조건을 지정할 수 있습니다. 예를 들어 키가 150보다 큰 문자만 포함하도록 star wars 데이터 세트를 필터링하려면 "filter(star wars, height > 150)"를 입력하고 Enter 키를 누릅니다.

또한 "선택" 기능을 사용하여 데이터 세트에서 특정 변수 또는 열을 선택할 수 있습니다. 이는 분석을 위해 변수의 하위 집합에 집중하려는 경우에 유용합니다. 예를 들어, star wars 데이터 세트에서 "name" 및 "height" 변수만 선택하려는 경우 "select(star wars, name, height)"를 입력하고 Enter 키를 누르면 됩니다.

데이터 탐색에는 변수 분포 조사도 포함됩니다. Tidyverse는 강력한 데이터 시각화 기능을 제공하는 "ggplot2" 패키지를 제공합니다. "ggplot" 및 "geom_histogram"과 같은 함수를 사용하여 숫자 변수의 분포를 시각화하는 히스토그램을 만들 수 있습니다. 예를 들어 star wars 데이터 세트에서 "height" 변수의 히스토그램을 생성하려면 다음 코드를 사용할 수 있습니다.

library(ggplot2)
ggplot(star wars, aes(x = height)) +
  geom_histogram()

이 코드는 스타워즈 데이터 세트의 캐릭터 높이 분포를 보여주는 히스토그램을 생성합니다.

아직 설치하지 않은 경우 필수 패키지를 설치해야 합니다. "install.packages" 기능을 사용하여 패키지를 설치할 수 있습니다. 예를 들어 ggplot2 패키지를 설치하려면 "install.packages('ggplot2')"를 입력하고 Enter 키를 누릅니다.

다음은 R에서 데이터 탐색에 사용할 수 있는 몇 가지 필수 기능 및 기술입니다. 데이터 세트의 구조, 차원, 변수 및 데이터 유형을 이해하면 데이터 분석 프로세스를 안내하는 데 도움이 되는 귀중한 통찰력을 얻을 수 있습니다.

Explore your data using R programming
Explore your data using R programming
  • 2021.12.03
  • www.youtube.com
When doing data analysis, you need to start with a good understanding of you data. To explore your data, R has some fantastic and easy to use functions. In t...
 

데이터를 조작하십시오. 데이터 랭글링. 초보자를 위한 R 프로그래밍.


데이터를 조작하십시오. 데이터 랭글링. 초보자를 위한 R 프로그래밍.

프로그래밍 시리즈의 또 다른 흥미로운 비디오에 오신 것을 환영합니다. 오늘은 데이터 프레임, 데이터 세트 또는 데이터를 조작하는 주제에 대해 자세히 살펴보겠습니다. "데이터 닥터링"이라고도 하는 데이터 랭글링은 매우 재미있을 수 있습니다. 이 시리즈의 3부에서는 데이터 탐색, 정리, 조작, 설명, 요약, 시각화 및 분석의 다양한 측면을 살펴봅니다. 이는 새로운 데이터 세트를 접할 때 데이터 파이프라인의 필수 단계로, 보유하고 있는 데이터를 이해하는 데 도움이 됩니다.

이 비디오에서는 다양한 기술을 다룰 것입니다. 그들 중 일부는 이미 익숙할 수도 있고 일부는 새로운 것일 수도 있습니다. 우리는 빠른 속도로 움직일 것이므로 필요에 따라 비디오를 일시 중지, 되감기 및 검토할 수 있습니다. 내가 보여줄 대부분의 예제와 데모는 자신의 컴퓨터에서 쉽게 복제할 수 있습니다. 추가 데이터를 다운로드하거나 온라인에서 검색할 필요가 없습니다. R에 내장된 데이터 프레임은 비디오 전체에서 실습 데이터 세트로 사용됩니다.

그러나 진행하기 전에 tidyverse 라이브러리가 설치되어 있는지 확인하십시오. 여기서는 설치 과정에 들어가지 않겠지만, 낯설다면 패키지에 대한 제 영상을 보시는 것을 추천합니다. tidyverse 라이브러리는 데이터 조작 및 분석을 위한 다양한 기능을 제공하는 여러 패키지로 구성됩니다. 일단 설치되면 명령 라이브러리(tidyverse)를 사용하여 라이브러리를 로드할 수 있으며 R 내의 모든 패키지 및 확장된 어휘에 액세스할 수 있습니다. 또한 tidyverse에는 실습에 활용할 수 있는 사전 로드된 데이터 세트도 포함되어 있습니다. 사용 가능한 데이터 세트를 보려면 data() 명령을 사용하면 컴퓨터에서 액세스할 수 있는 데이터 세트 목록이 표시됩니다.

자, 내용을 살펴보겠습니다. 데모를 위해 "m_sleep" 데이터 세트로 작업할 것입니다. 데이터 세트의 세부 정보가 궁금하면 ?m_sleep 명령을 사용하여 데이터 세트의 각 변수에 대한 요약 및 정보를 얻을 수 있습니다. 또는 tidyverse의 살짝 보기 기능을 사용하여 변수 이름, 유형 및 몇 가지 관찰 예를 포함하여 데이터 세트의 간결한 개요를 얻을 수 있습니다.

이제 첫 번째 학습인 변수 이름 바꾸기부터 시작하겠습니다. 변수의 이름을 바꾸는 것은 tidyverse의 이름 바꾸기 기능을 사용하는 것입니다. 우리는 일반적으로 데이터 세트로 시작한 다음 파이프 연산자 %>%를 사용하여 변환을 적용하는 파이프라인 접근 방식을 따릅니다. 변수의 이름을 바꾸려면 등호 앞에 새 이름을 지정한 다음 rename 함수 내에서 기존 이름을 지정합니다. 예를 들어 rename(conserve = 보존)을 사용하여 변수 "conservation"을 "conserve"로 이름을 바꿀 수 있습니다. 코드를 실행한 후 데이터 세트에서 업데이트된 변수 이름을 관찰할 수 있습니다.

계속해서 변수를 재정렬하는 방법을 살펴보겠습니다. 앞에서 언급했듯이 특정 변수를 선택할 수 있는 select 함수에 대해 이전에 논의했습니다. 그러나 선택 함수의 변수 순서가 결과 데이터 세트의 순서를 결정한다는 점은 주목할 가치가 있습니다. 쉼표로 구분하여 원하는 순서로 변수 이름을 지정하면 그에 따라 변수를 재정렬할 수 있습니다. 예를 들어, select(var1, var2, ..., everything())은 "var1"과 "var2"를 먼저 선택한 다음 나머지 변수를 원래 순서로 선택합니다.

다음으로 변수 유형 변경에 대해 설명하겠습니다. 이전에 이 주제에 대해 다루었지만 프로세스를 간략하게 검토해 보겠습니다. 기본 R 함수 클래스를 사용하여 변수의 현재 유형을 결정할 수 있습니다. 예를 들어 class(m_sleep$var)는 변수 유형을 "문자"로 표시합니다. 가독성을 위해 변수의 유형을 새 줄로 변경하지만 원하는 경우 한 줄에 모두 작성할 수 있습니다. 이제 필터를 데이터 프레임에 적용해 보겠습니다.

filtered_data <- m_sleep %>% filter ( order == "Carnivora" | order == "Primates" )

이 예제에서는 순서 변수가 "Carnivora" 또는 "Primates"인 관찰만 포함하도록 데이터 프레임 m_sleep을 필터링했습니다. 데이터의 결과 하위 집합은 Filtered_data 개체에 저장됩니다.

데이터 정렬로 이동하면 정렬 기능을 사용할 수 있습니다. 이 함수를 사용하면 하나 이상의 변수를 기준으로 데이터 프레임의 행을 정렬할 수 있습니다. 내림차순으로 vore 변수를 기준으로 Filtered_data를 정렬해 보겠습니다.

arranged_data <- filtered_data %>% arrange ( desc ( vore ) )

여기에서는 vore 변수를 기준으로 데이터 프레임을 내림차순으로 정렬하는 인수 desc(vore)와 함께 배열 함수를 사용했습니다. 정렬된 결과 데이터는 배열_데이터 개체에 저장됩니다.

이제 레코딩 데이터를 다루겠습니다. 재코딩은 특정 조건에 따라 변수 값을 변경하는 것과 관련됩니다. 이를 수행하기 위해 if_else 함수와 함께 mutate 함수를 사용할 수 있습니다.

recoded_data <- arranged_data %>% mutate ( vore = if_else ( vore == "carni" , "Carnivorous" , "Omnivorous" ) )

이 예에서는 배열_데이터 데이터 프레임에서 vore 변수를 다시 코딩했습니다. "carni" 값을 "Carnivorous"로 바꾸고 다른 모든 값을 "Omnivorous"로 바꿨습니다. 수정된 데이터 프레임은 recoded_data 객체에 저장됩니다.

다음으로 mutate 함수를 사용하여 데이터를 변경하는 방법을 살펴보겠습니다. 새 변수를 만들거나 기존 변수를 수정할 수 있습니다. 예를 들면 다음과 같습니다.

modified_data <- recoded_data %>% mutate ( new_variable = vore == "Carnivorous" & awake > 10 )
이 경우 new_variable이라는 새 변수를 만들었습니다. 그 값은 vore가 "Carnivorous"이고 awake 변수가 10보다 크다는 조건을 기반으로 합니다. 수정된 데이터 프레임은 modified_data 개체에 저장됩니다.

마지막으로 데이터 프레임 재구성에 대해 논의해 보겠습니다. 재형성에는 데이터 프레임의 구조를 와이드에서 롱으로 또는 그 반대로 변경하는 작업이 포함됩니다. tidyverse 패키지의 pivot_longer 및 pivot_wider 함수는 이 작업에 유용합니다. 예를 들면 다음과 같습니다.

reshaped_data <- modified_data %>% pivot_longer ( cols = c ( vore , awake , sleep_total ) , names_to = "variable" , values_to = "value" )

이 예에서는 데이터 프레임을 와이드 형식에서 긴 형식으로 변환했습니다. 피벗할 변수 vore, awake 및 sleep_total을 선택했습니다. 결과 데이터 프레임에는 변수 이름과 해당 값을 각각 저장하는 변수 및 값이라는 두 개의 새 열이 있습니다.

이것이 이 튜토리얼의 전부입니다! 변수 이름 바꾸기, 변수 재정렬, 변수 유형 변경, 변수 선택, 데이터 필터링 및 정렬, 데이터 다시 코딩, mutate를 사용하여 데이터 변경, 데이터 프레임 재구성을 포함하여 데이터 프레임 조작의 다양한 측면을 다루었습니다. R에 내장된 데이터 프레임을 사용하여 이러한 모든 개념을 연습할 수 있음을 기억하십시오. 즐거운 데이터 랭글링!

Manipulate your data. Data wrangling. R programmning for beginners.
Manipulate your data. Data wrangling. R programmning for beginners.
  • 2022.01.19
  • www.youtube.com
If you are learning to use R programming for data analysis then you're going to love this video. It's an "R programming for beginners" video that deals with ...
 

데이터 설명 및 요약


데이터 설명 및 요약

R101에 다시 오신 것을 환영합니다! 이 세션에서는 데이터를 설명하고 요약하는 방법에 대해 논의합니다. 오늘의 주제는 매우 쉬우므로 저와 함께 하시면 많은 것을 배우게 될 것입니다. 이 세션은 데이터를 탐색, 정리, 조작, 설명 및 요약하는 시리즈의 일부입니다. 다음 비디오는 데이터 시각화 및 분석에 관한 것입니다. 자, 시작하겠습니다.

이 비디오에서는 데이터 설명 및 요약의 다양한 측면을 다룹니다. 첫째, 숫자 변수를 다룰 때 이를 설명하는 데 사용하는 특정 통계 매개변수가 있습니다. 여기에는 범위, 확산, 중심성 및 분산이 포함됩니다. 괜찮아요; 우리는 이러한 개념들을 매우 쉬운 방식으로 살펴볼 것이며 약 30초밖에 걸리지 않을 것입니다.

다음으로 전체 데이터 세트를 요약하는 방법을 알아봅니다. 데이터를 효율적으로 요약하기 위한 몇 가지 팁과 요령을 공유하겠습니다. 다시 말하지만 이것은 약 30초밖에 걸리지 않습니다.

그런 다음 데이터를 요약하는 테이블을 만드는 데 중점을 둘 것입니다. 표는 정보를 효과적으로 제시하고 요약하는 훌륭한 방법입니다. 숫자 변수를 요약하는 표와 범주형 변수를 요약하는 분할표를 만드는 방법을 배웁니다. 몇 가지 예를 보여드리면 매우 쉽게 따라할 수 있습니다.

우리가 목표로 하는 것을 엿볼 수 있도록 화면에 예제 테이블을 표시했습니다. 이 표는 설득력 있는 이야기를 전달하고 데이터에 대한 명확한 그림을 그립니다. 아름다운 테이블을 만들 수 있는 R의 "포맷 가능" 패키지를 사용하여 만들었습니다. 그러나 시각적으로 매력적인 테이블을 만들기 전에 데이터가 적절하게 구조화되어 있는지 확인하는 것이 중요합니다. 핵심은 스토리를 전달하고 그림을 효과적으로 제시할 수 있는 형식으로 데이터를 보유하는 것입니다.

이제 앞으로 나아가 이 비디오의 주요 주제를 다루겠습니다. R 프로그래밍 학습에 관심이 있다면 잘 찾아오셨습니다. 이 YouTube 채널에서는 다양한 주제를 다루는 프로그래밍 동영상을 제작합니다.

무엇보다도 아직 설치하지 않았다면 필요한 패키지를 설치해야 합니다. 우리는 항상 R의 어휘와 기능을 확장하는 "tidyverse" 패키지로 작업합니다. 이 패키지는 이 비디오에서 사용할 파이프 연산자와 같은 유용한 도구를 제공합니다. tidyverse와 그 안의 패키지에 익숙하지 않다면 패키지에 대한 제 비디오를 시청하는 것이 좋습니다.

이 예에서는 컴퓨터에서 액세스할 수 있는 공개적으로 사용 가능한 데이터를 사용합니다. 이 데이터를 사용하여 분석, 코딩 및 데이터 랭글링 기술을 연습할 수 있습니다. R은 "데이터" 기능을 사용하여 액세스할 수 있는 다양한 데이터 세트를 제공합니다. 이 비디오에서는 특히 "msleep" 데이터 세트로 작업할 것입니다. 집에 있는 컴퓨터에서 제가 보여드리는 단계를 복제할 수 있습니다. "view(msleep)" 명령어를 실행하면 데이터셋의 구조를 볼 수 있다. 초식 동물, 육식 동물, 잡식 동물, 수면 시간, 뇌 무게 등과 같은 변수가 포함되어 있습니다. 작업하기에 훌륭한 데이터 세트입니다.

먼저 데이터 세트의 숫자 변수를 요약해 보겠습니다. 최소값, 최대값, 범위, 사분위수 범위, 평균, 중앙값 및 분산과 같은 통계 매개변수에 중점을 둘 것입니다. 이러한 값을 얻으려면 R의 "summary" 함수를 사용할 수 있습니다. "summary(msleep)"를 실행하면 해당 매개변수와 함께 모든 변수의 요약이 표시됩니다. 특정 통계에 집중하려는 경우 단일 변수에 "요약"을 사용할 수도 있습니다.

이제 "sleep_total" 및 "brain_weight" 변수만 선택하고 요약한다고 가정해 보겠습니다. tidyverse 패키지의 "select" 기능을 사용하여 변수를 선택하면 됩니다.

이제 두 번째 범주형 변수인 "에어백"을 소개하겠습니다. 테이블 함수를 다시 사용할 수 있지만 이번에는 함수 내에 두 변수를 모두 포함합니다. 코드는 다음과 같습니다.

table ( cars $origin , cars $airbags )

이 코드를 실행하면 두 범주형 변수 간의 조합 빈도를 보여주는 분할표를 얻습니다. 다음과 같이 표시됩니다.

airbags origin None Driver Driver & Passenger non-us 15 20 10 us 25 30 20

예를 들어, 이 표는 에어백이 없는 비미국산 자동차가 15대, 운전자 전용 에어백이 있는 자동차가 20대, 운전석과 승객 모두를 위한 에어백이 있는 자동차가 10대임을 알려줍니다. 마찬가지로 미국에서 에어백이 없는 차량이 25대, 운전석 전용 에어백이 장착된 차량이 30대, 운전자와 동승자 모두를 위한 에어백이 장착된 차량이 20대 있습니다.

이제 tidyverse 접근 방식을 사용하여 동일한 결과를 얻을 수 있는 방법을 살펴보겠습니다. count 및 pivot_wider 함수를 사용합니다. 코드는 다음과 같습니다.

library (tidyverse) cars %>% count (origin, airbags) %>% pivot_wider (names_from = airbags, values_from = n)

이 코드는 파이프 연산자 %>%를 따라 일련의 작업을 수행합니다. 먼저 count를 사용하여 출발지와 에어백 간의 조합 빈도를 계산합니다. 그런 다음 pivot_wider를 적용하여 데이터를 재구성하여 서로 다른 유형의 에어백을 별도의 열로 만듭니다. 결과 테이블은 기본 R 코드에서 생성된 테이블과 유사하게 보입니다.

이 예제는 기본 R과 tidyverse 접근 방식을 모두 사용하여 데이터를 설명하는 테이블을 요약하고 만드는 방법을 보여줍니다. 선호도와 분석의 특정 요구 사항에 맞는 방법을 선택하는 것이 중요합니다.

Describe and Summarise your data
Describe and Summarise your data
  • 2022.02.01
  • www.youtube.com
If you want to learn about to summarise your data by making tables in R or provide descriptive statistics of your dataset, then this video is for you. R prog...
 

R 프로그래밍을 사용한 카이 제곱 테스트


R 프로그래밍을 사용한 카이 제곱 테스트

오늘은 적합도 검정에 특히 중점을 둔 카이제곱 검정의 주제에 대해 자세히 살펴보겠습니다. 이 테스트는 매우 쉬우므로 저와 함께 함께 탐구해 봅시다.

먼저 tidyverse 패키지가 설치되어 있는지 확인하십시오. tidyverse에 익숙하지 않다면 제 다른 비디오를 확인하여 자세히 알아볼 수 있습니다. tidyverse는 R의 어휘를 확장하고 데이터 분석을 보다 효율적으로 만드는 R 패키지 모음입니다. 또한 범주형 변수 작업을 위한 확장 기능을 제공하는 "forcats" 패키지가 필요합니다. 이 레슨에서는 "forcats" 패키지와 함께 제공되는 "GSS_cat" 데이터 세트를 사용합니다.

패키지를 설치했으면 "GSS_cat" 데이터 세트를 살펴보겠습니다. 여기에는 다양한 변수가 포함되며 그 중 하나는 "결혼 여부"입니다. 우리는 분석을 위해 이 변수에 초점을 맞출 것입니다. 서로 다른 결혼 상태의 비율을 파악하기 위해 화면 오른쪽에 "미혼", "이혼" 및 "기혼" 범주를 표시하는 줄거리를 만들었습니다. 플롯에서 비율이 다른 것처럼 보이는 것을 관찰할 수 있습니다.

이제 카이제곱 검정으로 넘어갑시다. 이 테스트의 목적은 한 번도 결혼하지 않았거나, 이혼했거나, 결혼한 적이 없는 사람들의 비율에 상당한 차이가 있는지 확인하는 것입니다. 우리의 귀무 가설은 차이가 없다고 가정하고 데이터가 이 가설을 뒷받침하는지 여부를 조사하고자 합니다.

테스트를 진행하기 전에 스폰서인 Native Knowledge에 감사드립니다. 체계적인 문헌 검토 및 메타 분석을 용이하게 하는 온라인 플랫폼입니다. 확인하십시오. 그들은 절대적으로 놀랍습니다!

이제 코드로 이동해 보겠습니다. 데이터 정리 및 준비를 위해 화면에 일부 코드를 제공했습니다. "미혼" 및 "이혼" 카테고리만 포함하도록 데이터를 필터링하고 불필요한 요소를 제거하는 작업이 포함됩니다. 이 분석을 직접 복제하려면 코드를 자유롭게 복사하십시오. 코드를 실행하면 단일 변수가 포함된 멋지고 깔끔한 데이터 세트를 갖게 됩니다.

이제 흥미진진한 부분인 카이제곱 테스트를 수행할 차례입니다. 테스트를 적용하려면 데이터 테이블을 만들어야 합니다. "my_table"이라는 새 개체를 만들고 준비된 데이터 세트를 인수로 사용하여 테이블 함수를 할당했습니다. 코드를 실행하고 "my_table"을 보면 데이터가 깔끔하게 표시된 테이블을 볼 수 있습니다.

다음으로 "chisq.test" 함수를 사용하여 카이제곱 테스트를 테이블에 간단히 적용할 수 있습니다. "my_table"에서 이 함수를 실행하면 p-값을 포함한 테스트 결과가 제공됩니다. 이 경우 매우 작은 p-값을 얻었는데, 이는 범주의 비율이 동일한 경우 비율에서 관찰된 차이를 관찰할 가능성이 극히 낮다는 것을 나타냅니다. 따라서 비율이 같다는 귀무가설을 기각하고 결혼 여부에 따라 통계적으로 유의미한 차이가 있다고 결론을 내릴 수 있습니다.

보다 간결한 접근 방식을 선호하는 경우 tidyverse 패키지의 파이프 연산자("%>%")를 사용하여 동일한 결과를 얻을 수 있습니다. 데이터를 테이블에 직접 연결한 다음 카이제곱 테스트에 연결하면 코드를 간소화하고 동일한 답을 얻을 수 있습니다.

카이제곱 검정에 대한 이 개요가 유익한 정보가 되었기를 바랍니다. 주제에 대해 더 깊이 파고들고 싶다면 카이제곱 검정에 대한 더 긴 비디오를 시청하는 것이 좋습니다. 훌륭한 작업을 계속하고 호기심을 유지하며 항상 지속적인 학습을 위해 노력하는 것을 기억하십시오.

Chi squared test using R programming
Chi squared test using R programming
  • 2022.11.07
  • www.youtube.com
If you're learning about statistical analysis using R programming then you'll love this video. In it Dr Martin explains how to use R studio and R programming...
 

R 프로그래밍 1시간 - 초보자를 위한 단기 집중 과정


R 프로그래밍 1시간 - 초보자를 위한 단기 집중 과정

비디오 자습서는 초보자를 위한 R 프로그래밍의 충돌 과정을 제공합니다. R의 기초와 내장 데이터 세트 접근, 데이터 조작 기술, 흘끗 보거나 완전한 사례와 같은 기능을 사용한 데이터 탐색, 부분 집합화 및 이름 바꾸기와 같은 데이터 정리 기술, 그래픽 문법을 사용한 데이터 시각화 기술, T-테스트, ANOVA 및 카이제곱 테스트, 선형 모델 및 데이터 프레임을 재구성하는 방법. 강사는 데이터 세트 탐색의 중요성을 강조하고 tidy verse 및 ggplot2 패키지와 같이 데이터 분석 및 시각화를 보다 직관적으로 만드는 도구에 대해 설명합니다. 비디오는 출력 해석에 중점을 둔 "cars" 데이터 세트를 사용하는 카이 제곱 테스트 및 선형 모델의 시연으로 끝납니다.

  • 00:00:00 발표자는 R 프로그래밍 초보자를 위한 단기 집중 과정인 자습서에서 다룰 내용을 설명합니다. 이 과정에는 R의 기초, 내장 데이터 세트 탐색 및 액세스, 정리, 선택, 필터링 및 재구성을 통한 데이터 조작, 숫자 변수를 사용하여 데이터 설명, 다양한 종류의 플롯을 사용하여 데이터 시각화, 가설을 사용하여 데이터 분석이 포함됩니다. 테스트 및 t-테스트, ANOVA, 카이제곱 및 선형 모델과 같은 다양한 테스트. 또한 연사는 콘솔과 환경에 초점을 맞춘 RStudio의 4사분면과 물음표 명령 및 Stack Overflow와 같은 커뮤니티 리소스를 사용하여 도움말에 액세스하는 방법을 설명합니다. 마지막으로 발표자는 객체에 값을 할당하고 간단한 함수를 적용하여 R을 계산기로 사용하는 방법을 보여줍니다.

  • 00:05:00 강사는 R에서 "data.frame" 함수를 사용하여 변수를 결합하여 생성할 수 있는 데이터 프레임을 소개합니다. 그는 데이터 프레임을 만드는 방법과 "보기" 및 "를 사용하여 그 구조를 보는 방법을 보여줍니다. str" 함수. 또한 강사는 "행, 열" 표기법을 사용하여 데이터 프레임의 특정 부분을 서브셋하는 방법을 설명하고 R에서 기본 제공 데이터 세트를 사용하는 방법을 시연합니다. R 사용자가 사용할 수 있는 어휘 및 데이터 집합을 설명하고 파이프 연산자와 필터 및 변형과 같은 기능을 사용하여 데이터 분석 및 시각화를 보다 직관적으로 만드는 방법을 보여줍니다.

  • 00:10:00 강사가 "m sleep" 데이터 세트를 예로 사용하여 데이터 세트 탐색에 대해 이야기합니다. 데이터의 구조, 차원 및 고유한 값에 대한 개요를 얻기 위해 엿보기, 길이, 이름, 고유 및 완전한 사례와 같은 다양한 기능을 사용하는 방법을 보여줍니다. 그는 또한 누락된 데이터가 있는 모든 행을 포함하는 "missing"이라는 개체를 만드는 방법을 보여줍니다. 강사는 콘텐츠를 더 잘 이해하고 분석을 위해 데이터를 활용하는 방법을 얻기 위해 데이터 세트를 탐색하는 것의 중요성을 강조합니다. 그는 또한 비디오를 후원해 준 연구 프로세스를 지원하는 플랫폼인 Nested Knowledge에 감사를 표합니다.

  • 00:15:00 발표자는 select 함수를 사용한 변수 선택 및 순서 변경, rename 함수를 사용한 변수 이름 변경, as character 및 mutate 함수를 사용한 변수 유형 변경 등 R 프로그래밍을 사용한 데이터 정리 기술을 소개합니다. 화자는 또한 요인 수준을 변경하고 필터 기능을 사용하여 특정 기준에 따라 특정 관찰을 선택하는 방법을 설명합니다.

  • 00:20:00 강사는 기록 기능을 사용하여 질량이 55 미만이고 성별이 남성인 것과 같은 조건으로 데이터를 필터링하는 방법에 대해 설명합니다. 그들은 누락된 데이터를 처리하는 방법과 구별 기능을 사용하여 데이터 프레임에서 중복을 제거하는 방법을 보여줍니다. 강사는 또한 기존 변수를 덮어쓰고 if else 함수를 사용하여 조건문을 기반으로 새 변수를 생성하여 데이터를 변경하는 방법을 다룹니다. 마지막으로 데이터 재구성의 개념을 소개하고 갭마인더 패키지를 사용하여 데이터 세트를 조작하는 방법을 보여줍니다.

  • 00:25:00 강사가 더 넓은 피벗 및 더 긴 피벗 기능을 사용하여 데이터 프레임을 재구성하는 방법을 설명합니다. 먼저 데이터 프레임을 만든 다음 피벗 확장 기능을 사용하여 연도가 열 머리글이 되고 예상 수명이 셀 내에 있도록 재구성합니다. 그런 다음 코드가 반대로 실행되어 긴 데이터 프레임을 만듭니다. 그런 다음 강사는 평균, 중앙값 및 사분위수 범위를 계산하여 포유류의 기상 시간과 같은 수치 변수를 사용하여 데이터를 요약하는 방법을 보여줍니다. 마지막으로 강사는 데이터를 범주별로 그룹화하고 각 그룹에 대한 최소값과 최대값, 이들 간의 차이 및 평균과 같은 통계 값을 계산하기 위한 코드를 제공합니다.

  • 00:30:00 강사가 "그래픽의 문법" 개념부터 시작하여 R로 데이터 시각화에 대해 설명합니다. 여기에는 데이터가 x 및 y축, 색상, 모양 및 크기와 같은 미학에 대해 매핑되는 방법과 선, 막대 차트 및 히스토그램과 같은 기하학이 플롯을 생성하는 데 어떻게 적용될 수 있는지 이해하는 것이 포함됩니다. 보다 정교한 그래프를 생성하기 위한 도구로 ggplot 패키지도 도입되었습니다. 강사는 기본 플롯을 만들기 위한 예제 코드를 제공하고 최종 결과를 생성하기 위해 미학과 기하학이 어떻게 상호 작용하는지 설명합니다.

  • 00:35:00 발표자가 ggplot2를 사용하여 다양한 유형의 플롯을 만드는 방법에 대해 설명합니다. ggplot에서 데이터 및 매핑을 정의한 다음 막대 그래프 및 히스토그램과 같은 기하학을 추가하는 것으로 시작합니다. 또한 플롯을 만들기 전에 데이터를 연결하는 방법과 데이터를 조작하는 방법을 보여줍니다. 그런 다음 한 단계 더 나아가 범주에 따라 다른 음영으로 플롯에 미학과 색상을 추가합니다. 비디오에는 테마 및 레이블에 대한 간략한 토론도 포함되어 있으며 전체적으로 Star Wars 데이터 세트의 예를 사용합니다.

  • 00:40:00 비디오 자습서는 'ggplot2'를 사용하여 산점도를 만들고 'geom_smooth'를 사용하여 레이어를 추가하는 방법을 보여줍니다. 튜토리얼은 'sex' 변수와 함께 'facet_wrap'을 사용하여 다양한 패싯에서 산점도를 보는 방법을 보여줍니다. 또한 이 섹션에서는 기대 수명, 인구, 1인당 GDP 및 기타 요인에 대한 데이터를 포함하는 "갭마인더" 데이터 세트의 예와 함께 T-테스트, ANOVA, 카이제곱 테스트 및 선형 모델을 사용한 가설 테스트를 다룹니다. 다른 국가 및 지역. 이 자습서에서는 귀무 가설과 같은 차이가 없다고 가정하고 T-테스트를 사용하여 아프리카와 유럽 간의 기대 수명 차이를 테스트하는 방법을 설명합니다.

  • 00:45:00 이것은 유의한 차이가 있는지 확인하기 위해 가능한 모든 평균 쌍을 비교하는 Tukey의 정직한 유의차 검정으로 알려져 있습니다. 이 예에서 우리는 세 대륙 사이에 상당한 차이가 있음을 알 수 있습니다. 유럽은 기대 수명이 가장 높고 아프리카는 가장 낮습니다. 조정된 p-값은 다중 비교를 고려하여 잘못된 결론을 내리는 것을 방지하는 데 도움이 됩니다. 전반적으로 t-test와 ANOVA는 R에서 그룹 간의 차이를 분석하기 위한 강력한 도구입니다.

  • 00:50:00 강사가 다양한 홍채 종의 데이터 세트에 대한 통계 분석을 시연합니다. 첫 번째 분석은 작은, 중간 및 큰 범주에 속하는 홍채의 비율이 동일한지 확인하기 위한 카이 제곱 적합도 테스트입니다. 테스트 결과 비율이 같지 않고 귀무 가설이 기각되었습니다. 두 번째 분석은 한 변수의 값이 다른 변수의 값에 종속되는지 확인하는 카이제곱 독립 검정입니다. 이 경우 분석은 홍채의 크기와 종에 대해 실행됩니다. 결과에서 두 변수 사이에 종속성이 있음이 분명하고 귀무 가설이 기각됩니다.

  • 00:55:00 강사가 R의 "cars" 데이터 세트를 사용하여 간단한 선형 모델을 살펴보고 출력을 해석하는 방법을 설명합니다. 가장 잘 맞는 선은 y 절편과 기울기를 사용하여 생성되며 y 절편은 이 경우 의미가 없지만 선을 그리는 데 필요합니다. 3.9의 기울기는 속도가 1단위 증가할 때마다 필요한 추가 거리를 나타내는 중요하며 p-값은 0.00(통계적으로 매우 유의함)으로 속도와 거리 사이에 관계가 없다는 귀무가설을 기각합니다. 0.65의 R-제곱 값은 자동차의 속도로 설명할 수 있는 정지 거리의 변화량을 나타냅니다. 출력에는 잔차와 계수도 포함되며 이 컨텍스트에서 기울기가 가장 중요합니다. 강사는 무료 데이터 시각화 치트 시트에 대한 링크를 제공하고 시청자에게 좋아요, 댓글, 구독을 권장합니다.
R programming in one hour - a crash course for beginners
R programming in one hour - a crash course for beginners
  • 2022.04.27
  • www.youtube.com
R programming is easy. In this video, I'll walk you though how to clean your data; how to manipulate (or wrangle) your data; how to summarize your data; how ...
 

모집단, 표본, 모수, 통계


모집단, 표본, 모수, 통계

여러분, 안녕하세요! 오늘 세션에서는 통계 분야에서 가장 중요한 용어 중 일부를 다룰 것입니다. 모집단과 표본이라는 두 가지 기본 개념부터 시작하겠습니다.

모집단은 관찰, 응답, 측정 등을 포함하여 특정 연구에서 관심 있는 모든 데이터를 나타냅니다. 반면에 샘플은 해당 모집단의 하위 집합입니다. 이를 설명하기 위해 회사에서 실시한 정치적 여론 조사를 생각해 봅시다. 무작위로 1,200명의 유권자에게 연락하여 투표 선호도를 묻습니다. 이 경우 샘플은 1,200명의 개인에게서 얻은 선호도 목록입니다. 엄밀히 말하면 모집단은 등록된 모든 유권자의 선호도 목록이 될 것입니다. 모집단과 표본 모두 개인이 아니라 선호도 자체를 참조한다는 점에 유의하는 것이 중요합니다.

대부분의 경우 전체 모집단에서 데이터를 수집하는 것은 불가능합니다. 대신, 모집단에 대한 결론을 도출하기 위해 표본에 의존합니다. 이것은 모집단에 대한 추론을 만들기 위해 샘플 데이터를 사용하는 추론 통계의 핵심입니다. 이제 키 정의로 이동하겠습니다.

첫째, 매개변수는 모집단을 설명하는 수치입니다. 전체 인구에 대한 정보를 제공합니다. 예를 들어, 설문 조사 예에서 매개 변수는 특정 후보에게 투표하려는 모든 등록 유권자의 비율입니다.

둘째, 통계는 샘플을 설명하는 수치입니다. 샘플 데이터에서 파생된 특성 또는 측정값을 나타냅니다. 설문 조사 시나리오로 돌아가서 1,200명의 표본 유권자 중 38%가 후보 A에게 투표할 의사를 표명하면 38%는 표본의 선호도를 나타내는 통계입니다.

일반적으로 전체 모집단에 대한 매개변수를 얻는 것이 비실용적인 경우가 많기 때문에 통계에만 액세스할 수 있습니다. 그러나 우리의 궁극적인 관심은 전체 모집단에 대한 통찰력을 제공하기 때문에 매개변수에 있습니다. 이해를 돕기 위해 몇 가지 예를 더 살펴보겠습니다.

예 1: 뉴욕 DMV에 등록된 무작위로 선택된 50대의 평균 연령은 8년입니다. 여기서 인구는 뉴욕 DMV에 등록된 모든 차량의 연령입니다. 이 경우 샘플은 무작위로 선택된 50대의 차량의 연령으로 구성됩니다. 매개변수는 등록된 모든 뉴욕 차량의 평균 연령이고 통계는 무작위로 선택된 50대의 평균 연령입니다.

예 2: 2018년 미국의 중간 가계 소득은 $63,937인 반면 시카고에서는 $70,760이었습니다. 이 시나리오에서 모집단은 2018년 미국의 모든 가구 소득을 의미하고 샘플은 같은 해 시카고 가구의 소득을 나타냅니다. 첫 번째 값인 $63,937은 모집단을 설명하는 매개변수이고 두 번째 값인 $70,760은 샘플을 나타내는 통계입니다.

모집단과 표본, 매개변수와 통계 간의 차이를 이해하는 것은 통계 분석에서 매우 중요합니다. 주로 통계에 액세스할 수 있지만 목표는 매개변수를 추론하고 추정하는 것입니다. 매개변수는 전체 모집단에 대한 더 넓은 관점을 제공하기 때문입니다.

Population, Sample, Parameter, Statistic
Population, Sample, Parameter, Statistic
  • 2020.06.14
  • www.youtube.com
Check out my whole Stats 101 playlist: https://youtube.com/playlist?list=PLKBUk9FL4nBalLCSWT6zQyw19EmIVInT6If this vid helps you, please help me a tiny bit b...
 

데이터 유형


데이터 유형

여러분, 안녕하세요! 오늘은 양적 데이터와 범주 데이터라는 두 가지 기본 유형을 포함하는 데이터 분류에 대해 논의할 것입니다.

정량적 데이터는 수치 측정 또는 개수로 구성됩니다. 측정하거나 수치로 표현할 수 있는 데이터를 다룬다. 양적 데이터의 예로는 남미 여성의 키, 영국 병원의 신생아 체중, 세계 각국의 실업자 수 등이 있습니다.

반면에 질적 데이터라고도 하는 범주형 데이터는 레이블 또는 설명자로 구성됩니다. 여기에는 범주 또는 클래스로 그룹화할 수 있는 데이터가 포함됩니다. 범주형 데이터의 예로는 고양이의 눈 색깔, 유권자의 소속 정당, 소비자가 선호하는 청량음료 브랜드 등이 있습니다.

때로는 데이터 유형을 결정하기가 까다로울 수 있습니다. 특히 데이터가 숫자로 나타날 때 그렇습니다. 범주형 데이터와 양적 데이터를 구별하는 빠른 방법은 평균 계산과 같은 수치 연산이 의미가 있는지 고려하는 것입니다. 데이터에 레이블만 지정되어 있고 의미 있는 측정값이나 개수와 일치하지 않는 경우 범주형으로 간주해야 합니다. 예를 들어, 야구 유니폼에 새겨진 숫자는 정량적 의미가 없으며 범주형 데이터로 분류되어야 합니다.

범주형 데이터는 순서형과 명목형의 두 가지 유형으로 더 분류할 수 있습니다. 서수 데이터는 의미 있는 순서가 있는 범주를 사용합니다. 친숙한 예는 강하게 동의하지 않음, 동의하지 않음, 중립, 동의 및 매우 동의함과 같은 선택을 제공하는 리커트 척도입니다. 이러한 범주는 자연스러운 순서로 순위를 매길 수 있습니다. 반대로 명목 데이터는 의미 있는 순서가 없는 범주를 사용합니다. 예를 들면 정치적 소속, 성별, 좋아하는 청량음료 등이 있습니다. 명목 데이터에 명령을 내릴 수는 있지만 임의적이며 개인적인 의견을 기반으로 합니다.

마찬가지로 양적 데이터는 비율과 간격의 두 가지 유형으로 분류할 수 있습니다. 비율 데이터는 의미 있는 비율과 배수를 허용합니다. 소득, 체중, 연령과 같은 변수가 이 범주에 속합니다. 어떤 사람이 다른 사람보다 나이가 두 배나 많다거나 누군가가 다른 사람보다 돈을 반만 번다고 말하는 것은 이치에 맞습니다. 반면 간격 데이터는 비율과 배수를 지원하지 않습니다. 온도 및 달력 연도와 같은 변수는 간격 데이터의 예입니다. 척도에서 0을 선택하는 것은 임의적이며 측정 중인 속성이 없음을 나타내지 않기 때문에 한 온도가 다른 온도보다 두 배 더 뜨겁다고 말하는 것은 부적절합니다.

측정 수준을 결정하기 위한 빠른 접근 방식은 저울의 0이 아무것도 아님 또는 없음에 해당하는지 확인하는 것입니다. 0이 속성이 없음을 나타내는 경우 측정 비율 수준을 나타냅니다. 예를 들어 0kg, $0 또는 0세는 무게, 돈 또는 나이가 없음을 의미합니다. 반대로 0이 실제 의미에서 부재를 나타내지 않으면 측정의 간격 수준을 나타냅니다. 예를 들어 화씨 0도 또는 섭씨 0도는 각각의 눈금에서 임의의 지점입니다.

분류 및 측정 수준을 연습하기 위해 몇 가지 예를 살펴보겠습니다. 변수가 양적인지 범주인지 결정하고 측정 수준을 식별합니다.

  1. 은행에서 대기 시간: 이 데이터는 숫자로 구성되어 있으며 비율과 배수에 대해 이야기하는 것이 좋습니다. 따라서 측정 비율 수준의 정량적 데이터이다.

  2. Best Director Oscar 수상자 성별: 이 데이터는 범주형이며 숫자가 아닌 식별자를 나타냅니다. 의미 있는 방식으로 순위를 매길 수 없으므로 명목 수준의 범주형 데이터입니다.

  3. New York Times 베스트 셀러 목록에 있는 책 이름: 이름이므로 데이터는 범주형입니다. 또한 이름은 서수 데이터를 나타내는 첫 번째, 두 번째, 세 번째 베스트셀러 등으로 자연스럽게 정렬될 수 있습니다.

  4. 엠파이어 스테이트 빌딩의 낙뢰 시간: 이 데이터는 낙뢰 사이의 시간 측정을 포함하므로 정량적입니다. 그러나 낙뢰가 없는 것을 나타내는 영점이 없기 때문에 측정의 구간 수준에 해당한다. 시간 간격을 측정하고 비교할 수 있지만 0이 스트라이크 부족을 의미하지는 않습니다.

요약하면 데이터 분류에는 정량적 데이터와 범주적 데이터를 구분하는 작업이 포함됩니다. 양적 데이터는 숫자 측정 또는 개수로 구성되는 반면 범주 데이터는 레이블 또는 설명자로 구성됩니다. 데이터 유형을 결정하기 위해 수치 연산과 의미 있는 비율이 적용되는지 여부를 고려하는 것이 중요합니다.

범주형 데이터는 범주 간에 의미 있는 순서가 있는지 여부에 따라 서수 또는 명목으로 더 분류할 수 있습니다. 서수 데이터에는 자연 순위가 있지만 명목 데이터에는 없습니다. 마찬가지로 양적 데이터는 의미 있는 비율과 배수가 존재하는지 여부에 따라 비율 또는 간격으로 분류할 수 있습니다. 비율 데이터는 비율과 배수를 허용하지만 간격 데이터는 허용하지 않습니다.

적절한 통계 분석을 선택하고 데이터를 올바르게 해석하려면 측정 수준을 이해하는 것이 중요합니다. 측정 수준은 데이터에 대해 수행할 수 있는 수학적 연산과 척도에서 0의 의미를 결정합니다.

데이터의 측정 수준을 정확하게 분류하고 결정함으로써 통계학자와 연구자는 적절한 통계 기법을 선택하고 분석에서 의미 있는 통찰력을 도출할 수 있습니다.

Types of Data
Types of Data
  • 2020.07.01
  • www.youtube.com
Quantitative vs. categorical data, and the levels of measurement of each. This is some of the fundamental vocabulary of science! If this vid helps you, pleas...
사유: