プログラミングチュートリアル - ページ 10

 

R プログラミングを使用してデータを再コーディングします。 tinyverse および dplyr パッケージを使用して新しい変数を作成する


R プログラミングを使用してデータを再コーディングします。 tinyverse および dplyr パッケージを使用して新しい変数を作成する

今日は、R でのデータの再コーディングという興味深いトピックを詳しく掘り下げていきます。その前に、データの再コーディングとは何を意味するのかを明確にしましょう。このプロセスを説明するために、Star Wars データセットを使用します。すでに Tidyverse パッケージをコンピューターにインストールしている場合は、このデータセットにアクセスして、自宅で作業を進めることができます。

スター ウォーズ データセットは、ルーク スカイウォーカー、レイア姫などのスター ウォーズのキャラクターを表す行と、名前、身長、体重、性別などのさまざまな変数を表す列で構成されます。私たちの目標は、元のデータセットをいくつかの重要な違いを含む新しいデータセットに変換することです。

これから作成する変更されたデータセットには、注意すべき変更がいくつかあります。まず、身長の列は、元のデータセットのようにセンチメートルではなく平方メートルで表されます。次に、性別列では、元の値の代わりに、それぞれ男性と女性を表す「M」と「F」が使用されます。さらに、データセットからすべての欠損値を削除しました。最後に、身長 1 メートル以上、体重 75 キログラム以上という特定の基準に基づいてキャラクターを「大きい」または「小さい」に分類する「サイズ」と呼ばれる新しい変数を作成しました。

まず、データ操作に必要な機能を提供する Tidyverse パッケージがロードされていることを確認しましょう。パッケージをインストールする必要があるのは 1 回だけですが、library() 関数または require() 関数を使用してセッションごとにパッケージをロードすることもできます。 Tidyverse パッケージがロードされると、Star Wars データセットにもアクセスできるようになります。

Star Wars データセットを操作するために SW という新しいオブジェクトを作成しましょう。代入演算子 (<-) を使用して、Star Wars データセットを SW オブジェクトに割り当てます。このようにして、元のデータセットを変更せずに変更を加えて操作を実行できます。次に、操作する変数を選択しましょう。これを実現するには、パイプ演算子 (%>%) を利用して操作を連鎖させます。

まず、select() 関数を使用して、必要な変数 (名前、質量、性別) を選択します。さらに、rename() 関数を使用して、「mass」変数の名前を「weight」に変更します。このコードを実行すると、選択した変数が保持され、SW データセット内の「質量」列の名前が「重み」に変更されます。

次に、欠損値に対処します。ここでは詳しく説明しませんが、データ分析では欠損値を適切に処理することが重要です。ここでは、データセットから欠損値を単純に削除します。欠損値を処理するテクニックについては、別のビデオで説明します。

ここで、「高さ」変数をセンチメートルからメートルに変換することに焦点を当てましょう。 mutate() 関数とパイプ演算子を使用して、各値を 100 で除算して「高さ」列を変更します。この除算により、高さがセンチメートルではなくメートルで表現されるようになります。

「gender」変数に移ると、「MAphrodite」など、「男性」と「女性」以外の値が含まれていることがわかります。これに対処するために、データセットをフィルタリングして、「男性」と「女性」の値を持つ観測値のみを保持したいと考えています。フィルタリングのための 2 つのアプローチを示します。最初のアプローチでは、filter() 関数を使用し、性別が「男性」または「女性」の観測値を保持するための条件を指定します。 2 番目のより洗練されたアプローチでは、%in% 演算子を使用した連結を使用して、「男性」または「女性」の値を持つ観測値を保持します。どちらのアプローチでも同じ結果が得られます。データセットには「男性」と「女性」の観測値のみが残ります。

「gender」変数をフィルタリングしたら、「gender」変数の値の再コード化に進むことができます。現在、「男性」と「女性」の値が含まれていますが、それらをそれぞれ「M」と「F」として表したいと考えています。これを実現するには、mutate() 関数と recode() 関数を使用します。

recode() 関数内で、再コード化する変数 (この場合は「性別」) を指定します。次に、構文 old_value = new_value を使用して新しい値を割り当てます。この例では、「男性」を「M」として再コード化し、「女性」を「F」として再コード化するように設定します。

このコードを実行すると、SW データセットの「性別」変数が更新され、「男性」と「女性」がそれぞれ「M」と「F」に置き換えられます。

最後に、特定の基準に基づいて「size」という新しい変数を作成します。 「サイズ」変数は、身長と体重に応じてキャラクターを「大きい」または「小さい」に分類します。再び mutate() 関数とパイプ演算子を使用します。

mutate() 内で、条件を定義して「size」変数を作成します。論理演算子を使用して、身長が 1 メートルを超えているか、体重が 75 キログラムを超えているかどうかを確認します。条件が満たされる場合、対応する観測値に「big」を割り当てます。それ以外の場合は、「small」を割り当てます。これは、mutate() 内の if_else() 関数を使用して実現されます。

このコードが実行されると、「サイズ」変数が SW データセットに追加され、各キャラクターが身長と体重に基づいて「大きい」か「小さい」のどちらに分類されるかを示します。

結論として、データ分析に情熱を持ち、R プログラミングを学びたいと思っている人にとって、ここは正しい場所です。今後のビデオの最新情報を入手するには、購読ボタンを押し、通知ベルをクリックしてください。

Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
  • 2020.05.15
  • www.youtube.com
This video is about how to recode data and manipulate data using R programming. It is really an R programming for beginners videos. It provides a demonstrati...
 

R プログラミングを使用したデータ フィルタリングの 10 のヒント。 tinyverse を使用してデータをフィルタリングし、サブセット化します。


R プログラミングを使用したデータ フィルタリングの 10 のヒント。 tinyverse を使用してデータをフィルタリングし、サブセット化します。

このビデオでは、フィルター関数を使用して R でデータをフィルター処理する方法を説明します。フィルタリングを使用すると、特定の基準に基づいてデータの特定のサブセットを抽出できます。これを行うには、R でのデータ操作と分析のための強力なツール セットを提供する Tidyverse パッケージを使用します。フィルター関数に入る前に、基本について簡単に説明します。

環境のセットアップ:
まず、ライブラリ関数を使用して Tidyverse パッケージをロードする必要があります。 Tidyverse パッケージには、R のボキャブラリーと機能を拡張する Tidyverse エコシステムが含まれています。 Tidyverse に詳しくない場合は、パッケージに関する私のビデオを見て、より深く理解することをお勧めします。

データの探索:このデモンストレーションでは、tidyverse パッケージに組み込みデータセットとして含まれている「msleep」データセットを使用します。 「msleep」データセットには、名前、合計睡眠時間、体重、脳重量などの変数を含む、さまざまな哺乳類に関する情報が含まれています。このデータセットは、フィルタリングの練習データとして機能します。

データのサブセットの作成:データのサブセットを作成するには、まず「msleep」データセットのコピーを作成し、代入演算子「=」を使用してそれを「my_data」という新しいオブジェクトに割り当てます。

my_data <- msleep

変数の選択:次に、操作する特定の変数を選択します。この場合、「name」列と「sleep_total」列に注目します。 select 関数を使用してこれらの列を選択し、代入演算子を使用して結果を「my_data」オブジェクトに戻します。

my_data <- my_data %>% select(name, sleep_total)

データのフィルタリング:ここからが主要部分であるフィルタ関数です。この関数を使用して、特定の基準に基づいてデータセットから行を抽出します。フィルター関数を使用するにはいくつかの方法があります。ここでは 10 の異なる例を説明します。

単一の基準によるフィルタリング:
まず、睡眠合計が 18 を超える哺乳類のみを含めるようにデータをフィルター処理しましょう。フィルター関数を使用して、条件を「sleep_total > 18」と指定します。

my_data <- my_data %>% filter(sleep_total > 18)

「!」を使用したフィルタリングオペレーター:
「!」も使用できます。指定された条件の逆をフィルタリングする演算子。この場合、合計睡眠時間が 18 未満の哺乳類を除外します。

my_data <- my_data %>% filter(!(sleep_total < 18))

「and」を使用した複数の基準に基づくフィルタリング:
論理「and」演算子 (「,」) を使用してそれらを組み合わせることで、複数の基準に基づいてデータをフィルタリングできます。例えば、順番が「霊長類」で体重が20以上の哺乳類を抽出してみましょう。

my_data <- my_data %>% filter(order == "primate", body_weight > 20)

「or」を使用した複数の基準に基づくフィルタリング:
場合によっては、複数の基準のうち少なくとも 1 つを満たす行を抽出したい場合があります。これは、論理「or」演算子 (「|」) を使用して実現できます。たとえば、牛、犬、ヤギのいずれかの哺乳動物を抽出してみましょう。

my_data <- my_data %>% filter(name == "cow" | name == "dog" | name == "goat")

連結を使用したフィルタリング:
各基準を個別に指定する代わりに、値の連結を作成してフィルター関数内で使用できます。このアプローチは、複数の値をフィルタリングするためのより洗練された方法を提供します。たとえば、次のように名前のベクトルを作成し、それをフィルター関数で使用することでフィルター処理できます。

names_to_filter <- c("cow", "dog", "goat")
my_data <- my_data %>% filter(name %in% names_to_filter)

「between」演算子を使用したフィルタリング:
「between」演算子を使用して、値の範囲に基づいて行をフィルタリングできます。データをフィルターして、合計睡眠時間が 16 ~ 18 の哺乳類のみを含めてみましょう。

my_data <- my_data %>% filter(between(sleep_total, 16, 18))

特定の値に近い値のフィルタリング:
変数内の特定の値に近い観測値をフィルタリングしたい場合は、「near」関数を使用できます。たとえば、許容誤差 0.5 以内で合計睡眠時間が 17 に近い哺乳類を含めるようにデータをフィルター処理してみましょう。

my_data <- my_data %>% filter(near(sleep_total, 17, tolerance = 0.5))

欠損値のフィルタリング:
特定の変数に欠損値がある行をフィルターするには、「is.na」関数を使用できます。データをフィルターして、「保全」変数に欠損値を持つ哺乳類のみを含めてみましょう。

my_data <- my_data %>% filter(is.na(conservation))

非欠損値のフィルタリング:
逆に、特定の変数に欠損値がある行をフィルターで除外したい場合は、「!」を使用できます。演算子と「is.na」関数。データをフィルターして、「保存」変数に欠損値がある哺乳類を除外しましょう。

my_data <- my_data %>% filter(!is.na(conservation))

結論:フィルター関数とさまざまなフィルター技術を利用することで、基準に基づいてデータの特定のサブセットを抽出できます。フィルタリングにより、関連する観察に焦点を当てることができ、さらなる分析が容易になります。特定のデータ フィルタリングのニーズに合わせて、さまざまな基準と組み合わせを忘れずに試してください。

このビデオが役立つと感じ、データ分析と R プログラミングについてさらに詳しく知りたい場合は、必ずこのチャンネルに登録し、今後のビデオに関する最新情報を受け取るための通知を有効にしてください。

 

初心者向けの R.R プログラミングでデータをクリーンアップする


初心者向けの R.R プログラミングでデータをクリーンアップする

おかえり!今日は、データ クリーニングのトピックを取り上げます。データを扱うとき、多くの人はすぐに統計分析に取り組みたがります。ただし、正確で信頼性の高い結果を確保するには、体系的なアプローチをとることが重要です。このビデオでは、分析前の重要なステップであるデータのクリーニングのプロセスを説明します。

まず、データを調査することから始めましょう。このトピックについては以前のビデオで説明しましたので、まだご覧になっていない場合はぜひご覧ください。データ探索は、データセットの構造と内容を理解するのに役立ちます。データをよく理解したら、データのクリーニングに進むことができます。

では、データをクリーンアップするとはどういう意味でしょうか?そうですね、重要なタスクがいくつか含まれています。まず、各変数が正しく分類されていることを確認することが重要です。必要に応じて調整を行ったり、変数のタイプを変更したりする必要がある場合があります。その方法については後ほど説明します。

次に、操作する変数を選択し、不要な行や観測値をフィルターで除外することができます。このステップは、大規模なデータセットを扱う場合に特に重要です。これにより、分析に関連する特定のデータに焦点を当てることができます。

データ クリーニングのもう 1 つの重要な側面は、欠落したデータの処理です。このビデオでは、欠損値を見つけて対処するためのテクニックについて説明します。さらに、重複を特定して処理する方法と、必要に応じて値を再コード化する方法についても説明します。

先に進む前に、R を使用するときは常に Tidyverse パッケージを使用していることを述べておきます。 tinyverse は、R の機能を拡張し、さまざまな便利な機能を提供するパッケージのコレクションです。まだ行っていない場合は、必ず Tidyverse パッケージをインストールしてロードしてください。

次に、使用するデータセットについて説明します。 R には、練習や学習に使用できる組み込みのデータセットが付属しています。このレッスンでは、Tidyverse をインストールすると使用可能になる Star Wars データセットを使用します。 「data()」と入力し、利用可能なオプションを調べることで、これらのデータセットにアクセスできます。たとえば、「view(starwars)」と入力すると、Star Wars データセットを表示できます。

ここで、変数の型に焦点を当てましょう。各変数が正しく識別され、分類されていることを確認することが重要です。 Star Wars データセット内の変数タイプを調べるには、「glimpse(starwars)」関数を使用できます。これにより、変数名や型を含むデータセットの概要が提供されます。

場合によっては、文字変数を因子変数に変換したい場合があります。因子は、事前定義されたレベルまたはカテゴリを持つことができるカテゴリ変数です。これを行うには、「as.factor()」関数を使用できます。たとえば、スター ウォーズ データセットの「性別」変数を因子に変換するには、コード「starwars$gender <- as.factor(starwars$gender)」を使用できます。これにより、変数のタイプが変更され、それに応じてデータセットが更新されます。

因子変数のレベルまたはカテゴリを指定する必要がある場合は、「levels()」関数を使用できます。たとえば、「gender」変数のレベルの順序を変更したい場合は、コード「levels(starwars$gender) <- c('masculine', 'feminine')」を使用できます。これにより、特定のニーズに基づいてカテゴリの順序をカスタマイズできます。

次に、変数の選択と行のフィルタリングについて説明します。 R では、「select()」関数を使用して、操作する変数を選択できます。たとえば、コード「select(starwars, name, height, opens_with('color'))」を使用して、Star Wars データセットから「name」や「height」などの変数を選択できます。

条件を満たす行をフィルタリングします。しかし、この場合私たちが望んでいることはそうではありません。ブロンドまたはブラウンの髪の色を持つ観察を含めたいと考えています。したがって、論理演算子「or」(| で表される) を使用して、観測値がいずれかの条件を満たす必要があることを指定します。

それでは、データ クリーニングの次の部分、欠落データの処理に進みましょう。データの欠落はさまざまな理由でデータセット内で発生する可能性があり、それらを適切に処理することが重要です。 Star Wars データセットの場合、is.na() 関数を使用して欠損値をチェックできます。

欠落したデータを見つけて対処するには、コードに別のステップを追加します。

star_wars_filtered <- star_wars %>% select ( name , height , ends_with ( "color" ) ) %>% filter ( hair_color %in% c ( "blonde" , "brown" ) ) %>% filter ( ! is.na ( height ) )

このコードでは、まず目的の変数 (名前、高さ、および「color」で終わる変数) を選択します。次に、「ブロンド」または「茶色」のいずれかの髪の色の値をフィルターします。最後に、!is.na(height) 条件を使用して、高さの値が欠落している観測値を除外します。

次に、データセット内の重複の問題に対処しましょう。データセット内に同一の観測値が複数ある場合、重複が発生する可能性があります。重複を見つけて処理するには、コードに別のステップを追加します。

star_wars_filtered <- star_wars_filtered %>% distinct ( )

このコードでは、distinct() 関数を使用して star_wars_filtered データセットから重複した観測を削除し、各観測が一意であることを保証します。

最後に、データセット内の値を再コード化する方法について説明します。場合によっては、分析により適合するように特定の変数の値を変更する必要がある場合があります。この場合、「金髪」を 1、「茶色」を 2 に設定するように髪の色変数を再コード化したいとします。これは、コードに別のステップを追加することで実現できます。

star_wars_filtered <- star_wars_filtered %>% mutate ( hair_color = recode ( hair_color , "blonde" = 1 , "brown" = 2 ) )

ここでは、mutate() 関数と recode() 関数を使用して、hair_color 変数の値を変更します。 「金髪」を 1 として再コード化し、「茶色」を 2 として再コード化するように指定します。

これで、データのクリーニングプロセスが完了しました。必要な変数を選択し、不要な観測値を除外し、欠損データを処理し、重複を削除し、必要に応じて値を再コード化しました。

これらはデータ クリーニング プロセスの基本的な手順の一部にすぎず、具体的な手順はデータセットと分析の要件によって異なる場合があることに注意してください。ただし、このような体系的なアプローチに従うことで、データをクリーンでさらなる分析に適した形式にすることができます。

この説明がデータのクリーニングのプロセスを理解するのに役立つことを願っています。

Clean your data with R. R programming for beginners.
Clean your data with R. R programming for beginners.
  • 2021.12.15
  • www.youtube.com
If you are a R programming beginner, this video is for you. In it Dr Greg Martin shows you in a step by step manner how to clean you dataset before doing any...
 

R プログラミングを使用してデータを探索する


R プログラミングを使用してデータを探索する

プログラミング愛好家の皆さん、こんにちは!私の名前はグレッグ マーティンです。プログラミング 101 セッションへようこそ。今日は、データ分析に入る前に、データ探索という重要なトピックについて説明します。作業しているデータを理解することが不可欠です。データセットまたはデータ フレームのディメンション、パラメーター、サイズを把握する必要があります。さらに、変数の数とその特性にも注意する必要があります。このステップは非常に重要ですが、驚くほど簡単ですので、一緒にやってみましょう。

プログラミングについて学びにここに来たなら、ここは正しい場所です。この YouTube チャンネルでは、幅広いトピックをカバーするプログラミング動画を作成しています。

さて、私が Tidyverse 内で関数とパッケージを使用していることから始めましょう。 Tidyverse についてよく知らない場合は、その重要性を説明している私の他のビデオを見ることをお勧めします。 Tidyverse をコンピュータにインストールすると、Tidyverse のパッケージに付属するすべての機能、機能、拡張語彙が利用可能になります。作業が進むにつれて、これらのパッケージのいくつかについて説明します。

重要なのは、Tidyverse には、データ分析の練習に使用できるさまざまな組み込みデータセットも含まれていることです。これは特に便利で、後で「star wars」と呼ばれる追加のデータセットの 1 つを使用することになります。スター ウォーズ データセットは少し乱雑で、欠落データやその他の問題が含まれているため、データの探索とクリーニングに最適な例です。

まず、いつでも疑問符の後に関数またはデータセット名を使用してドキュメントにアクセスし、その特定のデータセットに関する情報を取得できます。たとえば、「?star wars」と入力して Enter キーを押すと、star wars データセットに存在する変数に関する情報にアクセスできます。

それでは、具体的な機能の説明に移りましょう。最初に学習する関数は、ディメンションを表す「dim」です。コマンド「dim(star wars)」を使用して Enter キーを押すと、データセットに 87 行または観測値と 13 個の変数があることがわかります。

データ フレームの構造を理解するために使用されるもう 1 つの一般的な関数は、「str」 (structural) です。ただし、「str(star wars)」を直接適用すると、データセット内にリストが存在するため、乱雑な出力が発生します。リストは変数を表します。各観測値は、さまざまなデータ ポイント、またはデータフレーム全体を含む個別のリストにすることができます。出力を読みやすくするために、Tidyverse の「glimpse」機能を使用できます。したがって、「glimpse(star wars)」と入力して Enter キーを押すと、観測値、変数、それらの型の数を含むデータセットの構造がよりわかりやすく表示されます。

データセット自体を表示するには、「view(star wars)」と入力して Enter キーを押すと、「表示」機能を使用できます。これにより、データセットがきちんと整理された形式で表示されるウィンドウが開き、列は変数を表し、行は観測値を表します。

さらに、「head」関数と「tail」関数を使用すると、それぞれデータセットの最初と最後の数行をすばやく表示できます。たとえば、「head(star wars)」と入力すると最初の 6 行が表示され、「tail(star wars)」と入力すると最後の 6 行が表示されます。

データセット内の特定の変数にアクセスするには、「$」演算子を使用できます。たとえば、「star wars$name」と入力して Enter キーを押すと、「name」変数に直接アクセスできます。

もう 1 つの便利な関数は「names」です。これを使用すると、データセット内の変数名を取得できます。 「names(star wars)」と入力して Enter キーを押すと、存在するすべての変数のリストが表示されます。これは、タイプミスを回避し、正確性を確保するのに役立つため、コード内で変数を参照するときに役立ちます。

さらに、「長さ」関数を使用して数値を決定することもできます。

「長さ」関数を使用して、データセット内の変数の数を決定できます。たとえば、「length(names(star wars))」と入力して Enter キーを押すと、star wars データセットに存在する変数の総数を調べることができます。

データ探索のもう 1 つの重要な側面は、変数のデータ型を理解することです。関数「class」を使用すると、変数のクラスまたはデータ型を決定できます。たとえば、star wars データセット内の「name」変数のデータ型を知りたい場合は、「class(star wars$name)」と入力して Enter キーを押します。

「summary」関数を使用して、データセット内の数値変数の概要統計を取得することもできます。たとえば、「高さ」変数の概要を取得したい場合は、「summary(star wars$height)」と入力して Enter キーを押します。

特定の条件に基づいてデータセットをフィルタリングしてサブセット化するには、「フィルター」関数を使用できます。この関数を使用すると、論理条件を指定して、特定の基準を満たす行を選択できます。たとえば、高さが 150 を超える文字のみを含むようにスター ウォーズ データセットをフィルタリングする場合は、「filter(star wars, height > 150)」と入力して Enter キーを押します。

さらに、「選択」関数を使用して、データセットから特定の変数または列を選択できます。これは、分析のために変数のサブセットに焦点を当てたい場合に役立ちます。たとえば、star wars データセットから「name」変数と「height」変数のみを選択する場合は、「select(star wars, name, height)」と入力して Enter キーを押します。

データの探索には、変数の分布の調査も含まれます。 Tidyverse は、強力なデータ視覚化機能を提供する「ggplot2」パッケージを提供します。 「ggplot」や「geom_histogram」などの関数を使用してヒストグラムを作成し、数値変数の分布を視覚化できます。たとえば、スター ウォーズ データセット内の「高さ」変数のヒストグラムを作成するには、次のコードを使用できます。

library(ggplot2)
ggplot(star wars, aes(x = height)) +
  geom_histogram()

このコードは、スター ウォーズ データセット内のキャラクターの高さの分布を示すヒストグラムを生成します。

必要なパッケージをまだインストールしていない場合は、忘れずにインストールしてください。 「install.packages」関数を使用してパッケージをインストールできます。たとえば、ggplot2 パッケージをインストールするには、「install.packages('ggplot2')」と入力して Enter キーを押します。

これらは、R でのデータ探索に使用できる重要な関数とテクニックの一部です。データセットの構造、ディメンション、変数、データ型を理解することで、データ分析プロセスの指針となる貴重な洞察を得ることができます。

Explore your data using R programming
Explore your data using R programming
  • 2021.12.03
  • www.youtube.com
When doing data analysis, you need to start with a good understanding of you data. To explore your data, R has some fantastic and easy to use functions. In t...
 

データを操作します。データのラングリング。初心者向けのRプログラミング。


データを操作します。データのラングリング。初心者向けのRプログラミング。

プログラミング シリーズに関する別のエキサイティングなビデオへようこそ。今日は、データ フレーム、データ セット、またはデータの操作について詳しく説明します。 「データ ドクタリング」とも呼ばれるデータ ラングリングは、非常に楽しいものです。これはシリーズのパート 3 であり、データの探索、クリーニング、操作、説明、要約、視覚化、分析のさまざまな側面を検討します。これらは、新しいデータ セットに遭遇したときのデータ パイプラインの重要な手順であり、所有するデータを理解するのに役立ちます。

このビデオでは、さまざまなテクニックについて説明します。それらの中には、すでによく知っているものもあれば、初めて知るものもあります。速いペースで進めていきますので、必要に応じてビデオを一時停止、巻き戻し、確認してください。ここで紹介する例とデモのほとんどは、自分のコンピュータで簡単に複製できます。追加のデータをダウンロードしたり、オンラインで検索したりする必要はありません。 R の組み込みデータ フレームは、ビデオ全体で練習データ セットとして機能します。

ただし、先に進む前に、tidyverse ライブラリがインストールされていることを確認してください。ここではインストールプロセスについては説明しませんが、慣れていない場合は、パッケージに関する私のビデオを見ることをお勧めします。 Tidyverse ライブラリは、データ操作と分析のためのさまざまな機能を提供する複数のパッケージで構成されています。インストールしたら、コマンド ライブラリ (tidyverse) を使用してライブラリをロードできます。これにより、R 内のすべてのパッケージとその拡張語彙にアクセスできるようになります。さらに、tidyverse には、練習に利用できるプリロードされたデータ セットも含まれています。利用可能なデータ セットを表示するには、コマンド data() を使用します。これにより、コンピュータ上でアクセス可能なデータ セットのリストが表示されます。

さて、内容に入っていきましょう。デモでは「m_sleep」データセットを使用します。データ セットの詳細に興味がある場合は、コマンド ?m_sleep を使用して、データ セット内の各変数に関する概要と情報を取得できます。あるいは、tidyverse の Glance 関数を使用して、変数名、型、いくつかの観察例など、データセットの簡潔な概要を取得することもできます。

それでは、最初のレッスンである変数の名前を変更することから始めましょう。 Tidyverse の rename 関数を使用すると、変数の名前を変更するのが簡単です。通常はパイプライン アプローチに従い、データ セットから始めて、パイプ演算子 %>% を使用して変換を適用します。変数の名前を変更するには、rename 関数内で等号の前に新しい名前を指定し、その後に既存の名前を指定します。たとえば、rename(conserve =conservation) を使用して、変数「conservation」の名前を「conserve」に変更できます。コードを実行すると、データ セット内の更新された変数名を確認できます。

次に、変数を並べ替える方法を見てみましょう。前述したように、特定の変数を選択できる select 関数について説明しました。ただし、select 関数内の変数の順序によって、結果のデータ セット内の変数の順序が決定されることに注意してください。変数名をカンマで区切って希望の順序で指定すると、それに応じて変数を並べ替えることができます。たとえば、select(var1, var2, ..., everything()) は、最初に「var1」と「var2」を選択し、続いて残りの変数を元の順序で選択します。

次に、変数の型の変更について説明します。このトピックについては以前にも触れましたが、プロセスを簡単に振り返ってみましょう。基本 R 関数クラスを使用すると、変数の現在の型を判断できます。たとえば、class(m_sleep$var) は変数の型を「character」として表示します。読みやすくするために変数の型を新しい行に変更しますが、必要に応じてすべてを 1 行で記述することもできます。次に、データ フレームにフィルターを適用しましょう。

filtered_data <- m_sleep %>% filter ( order == "Carnivora" | order == "Primates" )

この例では、データ フレーム m_sleep をフィルター処理して、順序変数が「食肉目」または「霊長類」のいずれかである観測値のみを含めました。結果として得られるデータのサブセットは、filtered_data オブジェクトに保存されます。

データの配置に移り、arrange 関数を使用します。この関数を使用すると、1 つ以上の変数に基づいてデータ フレームの行を並べ替えることができます。 filtered_data を vore 変数で降順に並べ替えてみましょう。

arranged_data <- filtered_data %>% arrange ( desc ( vore ) )

ここでは、arrange 関数を引数 desc(vore) とともに使用し、vore 変数に基づいてデータ フレームを降順に並べ替えます。結果として配置されたデータは、arranged_data オブジェクトに格納されます。

次に、データの記録について説明します。再コーディングには、特定の条件に基づいて変数の値を変更することが含まれます。これを実現するには、mutate 関数を if_else 関数とともに使用します。

recoded_data <- arranged_data %>% mutate ( vore = if_else ( vore == "carni" , "Carnivorous" , "Omnivorous" ) )

この例では、arranged_data データ フレーム内の vore 変数を再コード化しました。値「carni」を「Carnivorous」に置き換え、他のすべての値を「Omnivorous」に置き換えました。変更されたデータ フレームは、recoded_data オブジェクトに保存されます。

次に、mutate 関数を使用してデータの変更を調べてみましょう。新しい変数を作成したり、既存の変数を変更したりできます。以下に例を示します。

modified_data <- recoded_data %>% mutate ( new_variable = vore == "Carnivorous" & awake > 10 )
この場合、new_variable という新しい変数を作成しました。その値は、vore が「Carnivorous」に等しく、awake 変数が 10 より大きいという条件に基づいています。変更されたデータ フレームは、modified_data オブジェクトに格納されます。

最後に、データ フレームの再形成について説明します。再形成には、データ フレームの構造をワイドからロングへ、またはその逆に変更することが含まれます。このタスクには、tidyverse パッケージの pivot_longer 関数と pivot_wider 関数が役立ちます。以下に例を示します。

reshaped_data <- modified_data %>% pivot_longer ( cols = c ( vore , awake , sleep_total ) , names_to = "variable" , values_to = "value" )

この例では、データ フレームをワイド形式からロング形式に変換しました。ピボットする変数 vore、awake、sleep_total を選択しました。結果のデータ フレームには、変数と値という 2 つの新しい列があり、それぞれ変数名と対応する値が格納されます。

このチュートリアルはこれで終わりです。変数名の変更、変数の並べ替え、変数タイプの変更、変数の選択、データのフィルタリングと配置、データの再コーディング、mutate を使用したデータの変更、データ フレームの再形成など、データ フレームの操作のさまざまな側面について説明しました。 R の組み込みデータ フレームを使用して、これらすべての概念を練習できることを覚えておいてください。データ ラングリングを楽しんでください。

Manipulate your data. Data wrangling. R programmning for beginners.
Manipulate your data. Data wrangling. R programmning for beginners.
  • 2022.01.19
  • www.youtube.com
If you are learning to use R programming for data analysis then you're going to love this video. It's an "R programming for beginners" video that deals with ...
 

データの説明と要約


データの説明と要約

R101へようこそ!このセッションでは、データを説明および要約する方法について説明します。今日のトピックは非常に簡単なので、このまま続けてください。多くのことを学ぶことができます。このセッションは、データの探索、クリーニング、操作、説明、要約を行うシリーズの一部です。次のビデオは、データの視覚化と分析について説明します。それでは、始めましょう。

このビデオでは、データの説明と要約のさまざまな側面について説明します。まず、数値変数を扱う場合、数値変数を記述するために使用する特定の統計パラメーターがあります。これらには、範囲、広がり、中心性、分散が含まれます。心配しないで;これらの概念を非常に簡単に説明します。所要時間はわずか 30 秒です。

次に、データセット全体を要約する方法を学びます。データを効率的に要約するためのヒントとコツをいくつか紹介します。繰り返しますが、これには約 30 秒しかかかりません。

次に、データを要約するためのテーブルの作成に焦点を当てます。表は、情報を効果的に提示および要約するための優れた方法です。数値変数を要約する表とカテゴリ変数を要約する分割表の作成方法を学びます。いくつかの例を示しますので、従うのは非常に簡単であることがわかります。

私たちが何を目指しているかを一目でわかるように、画面にテーブルの例を表示しました。この表は説得力のあるストーリーを伝えており、データを明確に描写しています。これは、美しい表を作成できる R の「formattable」パッケージを使用して作成されました。ただし、視覚的に魅力的なテーブルの作成に入る前に、データが適切に構造化されていることを確認することが重要です。重要なのは、ストーリーを伝え、画像を効果的に表現できる形式でデータを用意することです。

それでは、先に進んで、このビデオの主要なトピックについて説明しましょう。 R プログラミングの学習に興味があるなら、ここが正しい場所です。この YouTube チャンネルでは、幅広いトピックをカバーするプログラミング動画を作成しています。

何よりもまず、必要なパッケージをまだインストールしていない場合は、必ずインストールしてください。私たちは常に、R の語彙と機能を拡張する「tidyverse」パッケージを使用しています。このパッケージは、このビデオで使用するパイプ演算子のような便利なツールを提供します。 Tidyverse とそのパッケージに詳しくない場合は、パッケージに関する私のビデオを見ることをお勧めします。

この例では、コンピューター上でアクセスできる公開データを使用します。このデータを使用すると、分析、コーディング、データ ラングリングのスキルを練習できます。 R は、「data」関数を使用してアクセスできるさまざまなデータセットを提供します。このビデオでは、特に「msleep」データセットを使用して作業します。ここで紹介する手順を自宅のコンピューターで再現できます。コマンド「view(msleep)」を実行すると、データセットの構造を確認できます。これには、草食動物、肉食動物、雑食動物、睡眠時間、脳の重量などの変数が含まれます。これは作業に最適なデータセットです。

まず、データセット内の数値変数を要約しましょう。最小値、最大値、範囲、四分位範囲、平均値、中央値、分散などの統計パラメータに焦点を当てます。これらの値を取得するには、R の「summary」関数を使用できます。「summary(msleep)」を実行すると、対応するパラメーターを持つすべての変数の概要が表示されます。特定の統計に焦点を当てたい場合は、単一の変数に対して「要約」を使用することもできます。

ここで、変数「sleep_total」と「brain_weight」だけを選択して集計したいとします。これを実現するには、tidyverse パッケージの「select」関数を使用して変数を選択します。

次に、2 番目のカテゴリ変数である「エアバッグ」を紹介しましょう。テーブル関数を再度使用できますが、今回は関数内に両方の変数を含めます。コードは次のとおりです。

table ( cars $origin , cars $airbags )

このコードを実行すると、2 つのカテゴリ変数間の組み合わせの頻度を示す分割表が取得されます。次のようなものが表示されます。

airbags origin None Driver Driver & Passenger non-us 15 20 10 us 25 30 20

この表は、たとえば、米国以外で製造されたエアバッグのない車が 15 台、運転席のみにエアバッグが付いている車が 20 台、運転席と助手席の両方にエアバッグが付いている車が 10 台あることを示しています。同様に、米国からはエアバッグのない車が 25 台、運転席のみのエアバッグが付いている車が 30 台、運転席と助手席の両方にエアバッグが付いている車が 20 台あります。

次に、tidyverse アプローチを使用して同じ結果を達成する方法を見てみましょう。 count 関数と pivot_wider 関数を使用します。コードは次のとおりです。

library (tidyverse) cars %>% count (origin, airbags) %>% pivot_wider (names_from = airbags, values_from = n)

このコードはパイプ演算子 %>% の後に続き、一連の操作を実行します。まず、count を使用して、原点とエアバッグの組み合わせの頻度を計算します。次に、pivot_wider を適用してデータを再整形し、さまざまなタイプのエアバッグを個別の列に作成します。結果のテーブルは、基本の R コードによって生成されるものと似たものになります。

これらの例は、基本 R と Tidyverse アプローチの両方を使用して、データを説明するためのテーブルを要約および作成する方法を示しています。好みや分析の特定の要件に合った方法を選択することが重要です。

Describe and Summarise your data
Describe and Summarise your data
  • 2022.02.01
  • www.youtube.com
If you want to learn about to summarise your data by making tables in R or provide descriptive statistics of your dataset, then this video is for you. R prog...
 

R プログラミングを使用したカイ二乗検定


R プログラミングを使用したカイ二乗検定

今日は、特に適合度検定に焦点を当てて、カイ二乗検定のトピックについて詳しく説明します。このテストは非常に簡単なので、最後まで続けて一緒に調べてみましょう。

まず最初に、tidyverse パッケージがインストールされていることを確認してください。 Tidyverse に詳しくない場合は、私の他のビデオをチェックして詳細を学ぶことができます。 tinyverse は、R の語彙を拡張し、データ分析をより効率的にする R パッケージのコレクションです。さらに、カテゴリ変数を操作するための拡張機能を提供する「forcats」パッケージが必要になります。このレッスンでは、「forcats」パッケージに付属する「GSS_cat」データセットを使用します。

パッケージをインストールしたら、「GSS_cat」データセットを見てみましょう。それにはさまざまな変数が含まれていますが、そのうちの 1 つは「婚姻状況」です。分析ではこの変数に焦点を当てます。さまざまな婚姻状況の割合を把握するために、画面の右側に「未婚」、「離婚」、「既婚」のカテゴリを示すプロットを作成しました。プロットから、比率が異なるように見えることがわかります。

さて、カイ二乗検定に移りましょう。このテストの目的は、未婚、離婚、または既婚の人の割合に有意な差があるかどうかを判断することです。私たちの帰無仮説は差がないことを前提としているので、データがこの仮説を裏付けるかどうかを調べたいと考えています。

テストを実施する前に、スポンサーである Native Knowledge に感謝いたします。これらは、体系的な文献レビューとメタ分析を促進するオンライン プラットフォームです。ぜひチェックしてみてください。彼らは本当に素晴らしいです!

それでは、コードに移りましょう。データのクリーニングと準備のために、画面上にいくつかのコードを提供しました。これには、「未婚」と「離婚」のカテゴリのみを含むようにデータをフィルタリングし、不要な要素を削除することが含まれます。この分析を自分で再現したい場合は、自由にコードをコピーしてください。コードを実行すると、単一の変数を含む、整然としたデータセットが得られます。

ここからがエキサイティングな部分、つまりカイ二乗検定の実行です。テストを適用するには、データのテーブルを作成する必要があります。 「my_table」という新しいオブジェクトを作成し、準備したデータセットを引数として使用して、テーブル関数をそれに割り当てました。コードを実行して「my_table」を表示すると、データがきちんと表示されたテーブルが表示されます。

次に、「chisq.test」関数を使用して、テーブルにカイ二乗検定を適用するだけです。 「my_table」でこの関数を実行すると、p 値を含むテスト結果が得られます。この場合、非常に小さな p 値が得られました。これは、カテゴリの比率が等しい場合に、観測された比率の差が観測される可能性が極めて低いことを示しています。したがって、比率が等しいという帰無仮説を棄却し、婚姻状況間に統計的に有意な差があると結論付けることができます。

より簡潔なアプローチを希望する場合は、tidyverse パッケージのパイプ演算子 ("%>%") を使用して同じ結果を得ることができます。データをテーブルに直接パイプしてからカイ二乗検定にパイプすることで、コードを合理化し、同じ答えを得ることができます。

カイ二乗検定のこの概要が有益であると感じていただければ幸いです。このトピックについてさらに詳しく知りたい場合は、カイ二乗検定に関する長いビデオを視聴することをお勧めします。これにより、カイ二乗検定の仕組みをより包括的に理解できるようになります。素晴らしい仕事を続け、好奇心を持ち、常に継続的な学習に努めることを忘れないでください。

Chi squared test using R programming
Chi squared test using R programming
  • 2022.11.07
  • www.youtube.com
If you're learning about statistical analysis using R programming then you'll love this video. In it Dr Martin explains how to use R studio and R programming...
 

1 時間でわかる R プログラミング - 初心者向けの短期集中コース


1 時間でわかる R プログラミング - 初心者向けの短期集中コース

ビデオ チュートリアルでは、初心者向けの R プログラミングの集中コースを提供します。 R の基本と組み込みデータ セットへのアクセス、データ操作テクニック、グランスやコンプリート ケースなどの関数を使用したデータ探索、サブセット化や名前変更などのデータ クリーニング テクニック、グラフィックスの文法を使用したデータ視覚化テクニック、T テスト、 ANOVA とカイ 2 乗検定、線形モデル、データ フレームを再形成する方法。インストラクターは、データセットを探索することの重要性を強調し、tidy verse や ggplot2 パッケージなど、データ分析と視覚化をより直感的に行うためのツールについて説明します。このビデオは、出力の解釈に焦点を当てた、「cars」データセットを使用したカイ二乗検定と線形モデルのデモンストレーションで終わります。

  • 00:00:00 講演者は、R プログラミング初心者向けの短期集中コースであるチュートリアルで説明する内容の概要を説明します。このコースには、R の基礎、組み込みデータセットの探索とアクセス、データのクリーニング、選択、フィルタリング、再形成によるデータの操作、数値変数を使用したデータの記述、さまざまな種類のプロットを使用したデータの視覚化、仮説を使用したデータの分析が含まれます。テストや、t テスト、ANOVA、カイ二乗モデル、線形モデルなどのさまざまなテスト。さらに、講演者は、コンソールと環境に焦点を当てて RStudio の 4 つの象限について説明し、疑問符コマンドを使用してヘルプにアクセスする方法や、Stack Overflow などのコミュニティ リソースについても説明します。最後に、講演者は、オブジェクトに値を割り当て、単純な関数をオブジェクトに適用することにより、R を計算機として使用する方法をデモンストレーションします。

  • 00:05:00 Rの「data.frame」関数を使って変数を組み合わせて作成できるデータフレームを講師が紹介します。データフレームの作成方法と、「ビュー」と「」を使ってデータフレームの構造を確認する方法を説明します。 str」機能。インストラクターはまた、「行、列」という表記を使用してデータ フレームの特定の部分をサブセットする方法を説明し、R の組み込みデータ セットの使用方法を実演します。さらに、彼は展開するパッケージのコレクションである Tidy verse を紹介します。 R ユーザーが利用できる語彙とデータ セットを示し、パイプ演算子とフィルターや変異などの関数を使用してデータ分析と視覚化をより直観的に行う方法を示します。

  • 00:10:00 インストラクターは、例として「m sleep」データセットを使用したデータセットの探索について話します。彼は、垣間見る、長さ、名前、一意の完全なケースなどのさまざまな関数を使用して、データの構造、次元、一意の値の概要を取得する方法を示しています。また、欠落データを持つすべての行を含む「missing」と呼ばれるオブジェクトを作成する方法も示しています。インストラクターは、データセットを探索して、その内容とそれを分析に活用する方法をより深く理解することの重要性を強調します。彼はまた、研究プロセスをサポートするプラットフォームである Nested Knowledge がビデオをスポンサーしてくれたことに感謝しています。

  • 00:15:00 講演者は、select 関数を使用した変数の選択とその順序の変更、rename 関数を使用した変数の名前変更、as Character および mutate 関数を使用した変数の型の変更など、R プログラミングを使用したデータ クリーニング テクニックを紹介します。また、因子水準を変更する方法と、フィルター関数を使用して特定の基準に基づいて特定の観測値を選択する方法についても説明します。

  • 00:20:00 講師は、recode 機能を使用して、質量が 55 未満、性別が男性などの条件でデータをフィルタリングする方法について説明します。さらに、distinct 関数を使用して欠落データを処理し、データ フレームから重複を削除する方法を示します。インストラクターは、既存の変数を上書きする方法と、if else 関数を使用した条件文に基づいて新しい変数を作成する方法の両方で、データを変更する方法についても説明します。最後に、データの再構成の概念を紹介し、ギャップ マインダー パッケージを使用してデータ セットを操作する方法を示します。

  • 00:25:00 インストラクターは、pivot Wide 関数と Pivot Long 関数を使用してデータ フレームを再形成する方法を説明します。まず、データ フレームが作成され、次にピボット ワイド関数を使用してデータ フレームが再形成され、年が列見出しになり、平均余命がセル内に収まるようになります。次に、コードが逆に実行されて、長いデータ フレームが作成されます。次に、インストラクターは、哺乳類の覚醒時間などの数値変数を使用して、平均、中央値、四分位範囲を計算することでデータを要約する方法を実演します。最後に、インストラクターは、データをカテゴリ別にグループ化し、最小値と最大値、それらの差、平均などの各グループの統計値を計算するためのコードを提供します。

  • 00:30:00 インストラクターは、「グラフィックスの文法」の概念から始めて、R でのデータ視覚化について説明します。これには、X 軸と Y 軸、色、形状、サイズなどの外観に基づいてデータがどのようにマッピングされるか、また、折れ線グラフ、棒グラフ、ヒストグラムなどのジオメトリを適用してプロットを作成する方法を理解することが含まれます。より洗練されたグラフを作成するためのツールとして ggplot パッケージも紹介されています。インストラクターは、基本的なプロットを作成するためのコード例を提供し、美学とジオメトリがどのように相互作用して最終結果を生み出すかについて説明します。

  • 00:35:00 講演者は、ggplot2 を使用してさまざまな種類のプロットを作成する方法について説明します。まず、ggplot でデータとマッピングを定義し、次に棒グラフやヒストグラムなどのジオメトリを追加します。また、データをパイプ入力する方法と、プロットを作成する前にデータを操作する方法も示します。次に、美学とカラーリングを追加して、カテゴリーに基づいてさまざまな色合いでプロットすることで、さらに一歩進んでいます。このビデオには、テーマとラベルに関する簡単なディスカッションも含まれており、全体を通してスター ウォーズ データセットの例が使用されています。

  • 00:40:00 ビデオ チュートリアルでは、「ggplot2」を使用して散布図を作成し、「geom_smooth」を使用して追加のレイヤーを追加する方法を示します。このチュートリアルでは、「facet_wrap」を「sex」変数とともに使用することで、さまざまなファセットで散布図を確認する方法を示します。このセクションでは、T 検定、ANOVA、カイ 2 乗検定、線形モデルを使用した仮説検定についても説明します。このデータセットには、平均余命、人口、1 人当たり GDP、およびその他の要因に関するデータが含まれる「ギャップマインダー」データセットの例が含まれています。さまざまな国や地域。このチュートリアルでは、差異がないことを帰無仮説として仮定し、T 検定を使用してアフリカとヨーロッパの平均余命の差異を検定する方法を説明します。

  • 00:45:00 これは Tukey の正直有意差検定として知られており、考えられるすべての平均値のペアを比較して有意差があるかどうかを確認します。この例では、3 つの大陸すべてに大きな違いがあり、ヨーロッパの平均余命が最も長く、アフリカが最も短いことがわかります。調整された p 値は、複数の比較を考慮することで、誤った結論を下すことを避けるのに役立ちます。全体として、t 検定と ANOVA は、R のグループ間の差異を分析するための強力なツールです。

  • 00:50:00 インストラクターは、さまざまな種類のアヤメのデータセットの統計分析をデモンストレーションします。最初の分析はカイ二乗適合度検定で、小、中、大のカテゴリに分類される虹彩の割合が等しいかどうかを判断します。検定の結果、比率が等しくないことが示され、帰無仮説は棄却されました。 2 番目の分析は独立性のカイ二乗検定で、1 つの変数の値が他の変数の値に依存しているかどうかを判断します。この場合、分析は虹彩のサイズと種類に基づいて実行されます。この結果から、2 つの変数間に依存関係があることが明らかであり、帰無仮説は棄却されます。

  • 00:55:00 インストラクターは、R の「cars」データセットを使用した単純な線形モデルを確認し、出力を解釈する方法を説明します。最適な線は、y 切片と傾きを使用して作成されます。この場合、y 切片は意味がありませんが、線を描くには必要です。 3.9 の傾きは重要で、速度が 1 単位増加するたびに必要な追加距離を表し、p 値は 0.00 (統計的に非常に有意) であり、速度と距離の間に関係がないという帰無仮説を棄却します。 R 二乗値 0.65 は、停止までの距離の変化がどの程度車の速度で説明できるかを表します。出力には残差と係数も含まれており、この文脈では傾きが最も重要です。インストラクターは、無料のデータ視覚化チートシートへのリンクを提供し、視聴者に「いいね!」、コメント、購読するよう促します。
R programming in one hour - a crash course for beginners
R programming in one hour - a crash course for beginners
  • 2022.04.27
  • www.youtube.com
R programming is easy. In this video, I'll walk you though how to clean your data; how to manipulate (or wrangle) your data; how to summarize your data; how ...
 

母集団、サンプル、パラメータ、統計


母集団、サンプル、パラメータ、統計

こんにちは、みんな!今日のセッションでは、統計の分野で最も重要な語彙のいくつかを取り上げます。早速本題に入り、母集団とサンプルという 2 つの基本的な概念から始めましょう。

母集団とは、観察、応答、測定など、特定の研究で対象となるすべてのデータを指します。一方、サンプルはその母集団のサブセットです。これを説明するために、企業が実施した政治世論調査を考えてみましょう。彼らは 1,200 人の有権者にランダムに連絡し、投票の好みについて尋ねます。この場合、サンプルは 1,200 人の個人から取得した好みのリストになります。技術的に言えば、母集団はすべての登録有権者の好みのリストになります。母集団とサンプルの両方が、個人ではなく好みそのものを指すことに注意することが重要です。

ほとんどの場合、母集団全体からデータを収集することは不可能です。代わりに、サンプルに基づいて母集団に関する結論を導き出します。これが推論統計の本質であり、標本データを使用して母集団に関する推論を行うことです。それでは、主要な定義に移りましょう。

まず、パラメータとは母集団を表す数値です。人口全体に関する情報を提供します。たとえば、世論調査の例では、パラメータは、特定の候補者に投票するつもりであるすべての登録有権者の割合になります。

次に、統計量はサンプルを説明する数値です。サンプルデータから得られた特性または測定値を表します。世論調査シナリオに戻ると、サンプリングされた 1,200 人の有権者のうち 38% が候補者 A に投票する意向を表明した場合、38% は統計、つまりサンプルの好みを表すものになります。

母集団全体のパラメータを取得するのは現実的ではないことが多いため、通常は統計にのみアクセスできます。ただし、パラメータは母集団全体についての洞察を提供するため、私たちの最終的な関心はパラメータにあります。理解を深めるために、さらにいくつかの例を考えてみましょう。

例 1: ニューヨーク DMV に登録されている無作為に選択された 50 台の車両の平均年式は 8 年です。ここでの母集団は、ニューヨーク DMV に登録されているすべての車両の年齢になります。この場合のサンプルは、ランダムに選択された 50 台の車両の年式で構成されます。パラメータはニューヨークで登録されているすべての車両の平均年式となり、統計はランダムに選択された 50 台の車両の平均年式となります。

例 2: 2018 年の米国の世帯収入の中央値は 63,937 ドルでしたが、シカゴでは 70,760 ドルでした。このシナリオでは、母集団は 2018 年の米国の全世帯の収入を指し、サンプルは同年のシカゴの世帯の収入を表します。最初の値 $63,937 は母集団を表すパラメーターであり、2 番目の値 $70,760 はサンプルを表す統計です。

統計分析では、母集団とサンプル、およびパラメーターと統計の違いを理解することが重要です。私たちは主に統計にアクセスできますが、母集団全体に関するより広い視野を提供するため、私たちの目標はパラメーターを推測および推定することです。

Population, Sample, Parameter, Statistic
Population, Sample, Parameter, Statistic
  • 2020.06.14
  • www.youtube.com
Check out my whole Stats 101 playlist: https://youtube.com/playlist?list=PLKBUk9FL4nBalLCSWT6zQyw19EmIVInT6If this vid helps you, please help me a tiny bit b...
 

データの種類


データの種類

こんにちは、みんな!今日は、定量的データとカテゴリカル データという 2 つの基本的なタイプを含むデータ分類について説明します。

定量的データは、数値測定値またはカウントで構成されます。測定または数値化できるデータを扱います。量的データの例には、南米の女性の身長、英国の病院での新生児の体重、世界各国の失業者数などがあります。

一方、質的データとも呼ばれるカテゴリデータは、ラベルまたは記述子で構成されます。これには、カテゴリまたはクラスにグループ化できるデータが含まれます。カテゴリデータの例には、猫の目の色、有権者の所属政党、消費者が好むソフトドリンクのブランドなどが含まれます。

場合によっては、特に数値として表示されるデータの種類を判断するのが難しい場合があります。カテゴリ データと定量データを区別する簡単な方法は、平均の計算などの数値演算が意味があるかどうかを検討することです。データにラベルが付けられているだけで、意味のある測定値やカウントに対応していない場合は、カテゴリ的であると見なす必要があります。たとえば、野球のユニフォームに付けられている番号は定量的な意味を持たないため、カテゴリデータとして分類される必要があります。

カテゴリデータは、順序データと名義データの 2 つのタイプにさらに分類できます。順序データでは、意味のある順序を持つカテゴリが使用されます。よく知られた例は、リッカート尺度です。これには、「強く反対」、「反対」、「中立」、「同意」、「強く同意」などの選択肢があります。これらのカテゴリは自然な順序でランク付けできます。対照的に、名目データでは、意味のある順序を持たないカテゴリが使用されます。例には、所属政党、性別、好きなソフトドリンクなどが含まれます。名目データに命令を課すことはできますが、それは恣意的で個人的な意見に基づくものになります。

同様に、定量的データは、比率と間隔の 2 つのタイプに分類できます。比率データにより、意味のある比率と倍数が可能になります。収入、体重、年齢などの変数がこのカテゴリに分類されます。ある人が別の人の2倍の年齢であるとか、ある人の収入が別の人の半分であると言うのは理にかなっています。一方、間隔データは比率と倍数をサポートしていません。気温や暦年などの変数は、間隔データの例です。スケール上のゼロの選択は任意であり、測定対象の属性が存在しないことを示すものではないため、ある温度が別の温度の 2 倍高いと言うのは不適切です。

測定レベルを決定する簡単な方法は、スケール上のゼロが何も対応していないか、または何も対応していないかを確認することです。ゼロが属性の不在を意味する場合、それは測定の比率レベルを示します。たとえば、0 キログラム、0 ドル、または 0 歳は、体重、お金、または年齢がないことを意味します。対照的に、ゼロが本当の意味での不在を示さない場合、それは測定の間隔レベルを示します。たとえば、華氏 0 度や摂氏 0 度は、それぞれのスケール上の任意の点にすぎません。

分類と測定レベルを実践するために、いくつかの例を見てみましょう。変数が定量的であるかカテゴリ的であるかを判断し、その測定レベルを特定します。

  1. 銀行での待ち時間: このデータは数値で構成されており、比率や倍数について話すのは理にかなっています。したがって、測定の比率レベルでの定量的なデータです。

  2. オスカー監督賞受賞者の性別: このデータはカテゴリカルであり、数値ではなく識別子を表します。意味のある方法でランク付けすることはできないため、名目レベルのカテゴリデータとなります。

  3. ニューヨーク タイムズのベストセラー リストに載っている書籍の名前: これらは名前であるため、データはカテゴリ的なものです。さらに、名前は、順序データを示すベストセラー 1 位、2 位、3 位などのように自然に並べることができます。

  4. エンパイア ステート ビルディングへの落雷の時刻: このデータは、落雷間の時間を測定することを含むため、定量的です。ただし、落雷がないことを示すゼロ点がないため、測定間隔レベルに該当します。時間間隔を測定して比較することはできますが、ゼロはストライキの欠如を意味するものではありません。

要約すると、データの分類には、量的データとカテゴリデータを区別することが含まれます。定量的データは数値測定値またはカウントで構成され、カテゴリデータはラベルまたは記述子で構成されます。データの種類を決定するために数値演算と意味のある比率が適用されるかどうかを検討することが重要です。

カテゴリデータは、カテゴリ間に意味のある順序があるかどうかに応じて、序数または名義としてさらに分類できます。順序データには自然な順位がありますが、名義データにはありません。同様に、定量的データは、意味のある比率や倍数が存在するかどうかに基づいて、比率または間隔として分類できます。比率データでは比率と倍数を使用できますが、間隔データでは使用できません。

適切な統計分析を選択し、データを正しく解釈するには、測定レベルを理解することが重要です。測定レベルによって、データに対して実行できる数学的演算とスケール上のゼロの意味が決まります。

データの測定レベルを正確に分類して決定することで、統計学者や研究者は適切な統計手法を選択し、分析から有意義な洞察を得ることができます。

Types of Data
Types of Data
  • 2020.07.01
  • www.youtube.com
Quantitative vs. categorical data, and the levels of measurement of each. This is some of the fundamental vocabulary of science! If this vid helps you, pleas...
理由: