Quantitative vs. categorical data, and the levels of measurement of each. This is some of the fundamental vocabulary of science! If this vid helps you, pleas...
Tidy data is just the best. Let's learn all about it!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, cr...
Some essential ideas in statistical research. We discuss randomization, control, blinding, placebos, and more. If this vid helps you, please help me a tiny b...
Let's talk about sampling techniques! What is a random sample, and why are they desirable? What is sampling bias, and what are some of the ways it can creep ...
Often, a statistic doesn't exactly match up with the parameter it's supposed to be estimating. How can we tell whether it's a good statistic or not? If this ...
Let's learn to construct frequency distributions! We compute class widths, count frequencies, then determine relative and cumulative frequencies. All the goo...
Let's plot some data! Histograms, frequency polygons, and ogives are three of the most fundamental sorts of single-variable plots available to us. If this vi...
Let's get started with R and RStudio! This vid shows some of the most basic functions that you'll need in order to start working with data in this environmen...
Let's learn about qplot(), the easiest way to produce beautiful graphics in R. This video is suitable for introductory statistics students - those with codin...
Stem plots are an easy way to visualize small-ish data sets.If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
数据类型
数据类型
大家好!今天,我们将讨论数据分类,它涉及两种基本类型:定量数据和分类数据。
定量数据由数值测量或计数组成。它处理可以用数字术语测量或表达的数据。定量数据的例子包括南美洲女性的身高、英国医院新生儿的体重以及世界各国的失业人数。
另一方面,分类数据,也称为定性数据,由标签或描述符组成。它涉及可以分为类别或类的数据。分类数据的示例包括猫的眼睛颜色、选民的政党关系以及消费者首选的软饮料品牌。
有时,确定数据的类型可能很棘手,尤其是当数据显示为数字时。区分分类数据和定量数据的一个快速方法是考虑数值运算(例如计算平均值)是否有意义。如果数据仅被标记并且与有意义的测量或计数不对应,则应将其视为分类数据。例如,棒球球衣上的数字不具有任何定量意义,应归类为分类数据。
分类数据可以进一步分为两种类型:序数数据和名义数据。序数数据使用具有有意义顺序的类别。一个熟悉的例子是李克特量表,它提供了“强烈不同意”、“不同意”、“中立”、“同意”和“强烈同意”等选项。这些类别可以按自然顺序排列。相反,名义数据使用没有有意义顺序的类别。例如政治立场、性别和最喜欢的软饮料。尽管我们可以对名义数据施加命令,但这将是任意的并且基于个人意见。
同样,定量数据可以分为两类:比率和区间。比率数据允许有意义的比率和倍数。收入、体重和年龄等变量都属于这一类。说一个人的年龄是另一个人的两倍或者一个人的收入是另一个人的一半是有道理的。另一方面,区间数据不支持比率和倍数。温度和日历年等变量是间隔数据的示例。说一个温度是另一个温度的两倍是不恰当的,因为尺度上零的选择是任意的,并不表明不存在被测量的属性。
要确定测量级别,一个快速方法是检查刻度上的零是否对应于任何内容或不对应。如果零表示不存在该属性,则表示测量的比率级别。例如,零公斤、0 美元或 0 岁意味着没有体重、没有金钱或没有年龄。相反,如果零并不表示任何真正意义上的不存在,则它表示测量的间隔水平。例如,零华氏度或零摄氏度只是它们各自尺度上的任意点。
让我们探讨一些示例来练习分类和测量级别。我们将确定变量是定量的还是分类的,并确定它们的测量水平:
银行的等待时间:这些数据由数字组成,对于比率和倍数的讨论很有意义。因此,它是计量比率层面的定量数据。
奥斯卡最佳导演奖获得者的性别:这些数据是分类的,代表标识符而不是数字。它无法以有意义的方式进行排名,因此它是名义级别的分类数据。
纽约时报畅销书排行榜上的书名:由于这些是名称,因此数据是分类的。此外,名称可以自然地排序为第一、第二、第三畅销书等,表示序数数据。
帝国大厦一天中雷击次数:该数据是定量的,因为它涉及测量雷击之间的时间。然而,由于不存在代表没有雷击的零点,因此它属于间隔测量水平。时间间隔可以测量和比较,但零并不意味着没有罢工。
总之,数据分类涉及区分定量数据和分类数据。定量数据由数值测量或计数组成,而分类数据由标签或描述符组成。重要的是要考虑数值运算和有意义的比率是否适用于确定数据类型。
分类数据可以进一步分为有序数据或名义数据,具体取决于类别之间是否存在有意义的顺序。序数数据具有自然排名,而名义数据则没有。同样,根据是否存在有意义的比率和倍数,定量数据可以分为比率或区间。比率数据允许比率和倍数,而区间数据则不允许。
了解测量水平对于选择适当的统计分析和正确解释数据至关重要。测量级别决定了可以对数据执行的数学运算以及刻度上零的含义。
通过准确地分类和确定数据的测量水平,统计学家和研究人员可以选择合适的统计技术并从分析中获得有意义的见解。
整齐的数据
整齐的数据
大家好,今天我们将讨论整洁数据,这是数据科学应用中特别方便且常见的格式。虽然在电子表格中记录信息的方法有多种,但整洁的数据遵循三个简单的原则来确保其组织和有用性。
首先,整齐数据中的每一行代表一个且仅一个观察。这意味着每一行捕获单个实验单元的所有测量值和详细信息。
其次,每一列代表一个且仅一个变量。变量是所有实验单元的测量属性,每列都侧重于一个特定的特征或方面。
最后,整个电子表格应该只包含一种类型的观察。这可确保电子表格中的所有数据都与同一类型的实验或研究相关。
整洁数据的一个显着优势是易于扩展。如果您获得新的观察结果或数据点,例如医学试验中的新受试者,您只需在电子表格底部添加一个新行即可。同样,如果要包含其他变量,可以在现有列的右侧添加新列。
让我们看几个例子。 R 中提供的“mtcars”数据集是一个整洁的数据集。每行代表一辆汽车,每列代表汽车的特定特征。理想情况下,整洁的数据集应该附带一个数据字典,解释每个变量的含义并提供有关测量单位的信息。数据字典还可以包括关于数据集的元数据,例如记录细节。
另一方面,“ggplot2”包中的“diamonds”数据集是整洁数据的另一个示例。每行对应一颗圆形切割钻石,每列代表钻石的一个特征。
然而,并非所有数据集都是整齐的。例如,“tidyverse”包中的“construction”数据集并不整齐,因为两个变量(单位数量和区域)分布在多个列中。
值得注意的是,不整齐的数据并不一定是坏事,因为现实世界的电子表格通常有其自己的用于特定目的的约定。然而,当涉及到数据科学并探索大量观察中变量之间的关系时,整洁的数据通常更便于可视化和建模。
最后,我想提一下列联表,它是非整齐数据的常见格式。列联表显示类别变量的不同组合的计数。虽然它们很有用,但将它们转换为整洁的数据,每个变量及其各自的计数具有单独的列,可以使数据更易于管理和分析。
总之,整洁的数据遵循每行一个观察、每列一个变量以及整个电子表格中一种观察类型的原则。通过遵循这些原则,整洁的数据提供了一种结构化和有组织的格式,有助于数据科学应用程序中的数据探索、可视化和建模。
实验和观察研究
实验和观察研究
大家好,今天我们将讨论实验和观察研究,这是统计学研究的两种基本类型。理解它们之间的区别至关重要。让我们探讨每种类型及其主要特征。
实验:在实验中,对样品的不同部分进行不同的处理,并观察由此产生的变化。主要目标是确定因果关系。如果治疗组之间存在不同的结果,我们的目标是将这些差异归因于特定的治疗。实验研究涉及积极影响和操纵变量。
观察性研究:另一方面,观察性研究涉及研究人员测量感兴趣人群的特征,而不试图以任何方式影响反应。最常见的观察性研究类型是抽样调查,研究人员通过观察和记录信息来收集数据。重点是理解观察到的数据中的关系和模式。
让我们探讨一些例子来区分实验和观察研究:
一组医生通过给高血压患者服用一种新型降胆固醇药物来研究其效果。这是一项实验,因为医生正在实施治疗并分析结果。
一位灵长类动物学家观察了 10 只黑猩猩的自然栖息地,详细记录了它们的社会行为。这是一项观察性研究,因为灵长类动物学家只是观察和记录行为而不影响它。
一名室内装潢师联系了 500 名男性和 500 名女性,询问每个人在即将到来的选举中他们最喜欢的候选人。这是观察性研究的另一个例子。民意调查人员在不操纵参与者或他们的反应的情况下收集数据。
观察性研究可以是比较性的,就像前面的例子一样,为了分析目的,分别联系男性和女性。然而,由于没有进行任何治疗,因此它仍然是一项观察性研究。
某些特征定义了一个好的实验。它应该是随机的、受控的和可复制的:
在实验中,通常在两个或多个治疗组之间进行比较,其中一组作为对照组。对照组提供了与接受特定干预措施的组进行比较的基线。
为了解决安慰剂效应,即受试者对治疗有反应,即使没有可测量的效果,实验者在对照组中加入了安慰剂。安慰剂是已知没有实际效果的治疗方法,例如糖丸或不相关的教育研究课程。
除了随机化和对照之外,尽可能将受试者分配到治疗组是双盲的。这意味着受试者和数据收集者都不知道谁属于哪个治疗组。双盲有助于消除偏见并确保无偏见的观察和测量。
需要考虑三个重要的实验设计:
了解这些设计类型有助于研究人员有效地计划实验并从数据中得出有意义的结论。通过实施适当的实验设计,研究人员可以提高其研究结果的有效性和可靠性。
总之,实验和观察研究是统计学研究的两种基本类型。实验涉及应用不同的治疗方法并观察其效果以确定因果关系。另一方面,观察性研究侧重于观察和测量特征,而不主动影响反应。
一个好的实验应该包含随机性、控制性和可重复性。随机化确保将受试者公正地分配到治疗组,控制最大限度地减少混杂变量,并且重复可以验证结果。此外,纳入对照组和考虑安慰剂效应是实验设计的重要方面。
不同的实验设计,例如完全随机设计、随机区组设计和配对设计,为解决特定研究问题和适应不同的研究场景提供了灵活性。
通过了解实验和观察性研究之间的区别并采用适当的实验设计,研究人员可以进行严格的研究,得出有意义的结论,并为推进各自领域的知识做出贡献。
请记住,在计划研究性学习时,请仔细考虑研究问题、变量的性质以及可用资源,以确定最合适的方法 - 无论是实验还是观察性研究。
统计抽样简介
统计抽样简介
今天是个好日子!今天,我们正在深入研究统计抽样的迷人世界。在理想情况下,进行研究需要从整个感兴趣的人群中收集数据,类似于人口普查。然而,在实践中,这通常是不切实际或不可能的。考虑以下研究问题:纽约鸽子的平均寿命是多少?新药能否有效降低 45 岁以上患者的 LDL 胆固醇?有多少比例的选民认可总统的表现?在每种情况下,从整个人群收集数据都是不可行的。因此,我们转向一种更易于管理的方法:抽样。
抽样涉及从总体中选择一个子集或样本来代表整个总体并得出结论。然而,并非所有采样方法都同样可靠。让我们讨论一些不正确的抽样方法。首先,轶事证据由研究人员认识的个人的个人证词组成,应该受到怀疑。例如,仅仅依靠“这种药对我全家有效”或“我今天与三个支持总统的人交谈”之类的陈述可能会导致有偏见的结果。同样,方便抽样(即从容易获得的来源收集数据,例如在附近公园进行的政治民意调查或使用教授的学生进行的心理学研究)可能会由于参与者的非随机选择而引入偏差。
为了确保我们研究结果的有效性,采用随机样本至关重要。在随机样本中,随机过程确定包含人口中的哪些个体,每个成员都有平等的被选中的机会。随机样本的目标是避免抽样偏差,当从样本中得出的统计量系统地高估或低估总体参数时,就会发生抽样偏差。值得注意的是,从随机样本中得出的统计数据仍然表现出变异性,因为由于随机选择过程,个别样本可能与总体不同。然而,平均而言,统计量将等于总体参数。
让我们探讨一些类型的随机抽样。最简单、最直观的方法是简单随机样本(SRS),其中相同大小的每个样本都有相等的被选择的机会。这通常是通过获取总体成员列表、为其分配编号并使用随机数生成器选择所需数量的个体来实现的。在分层样本中,根据年龄、性别或种族等重要特征将人口分为不同的群体或阶层。然后,从每个组中抽取一个简单的随机样本,以便对总体中的不同亚组进行单独分析。在聚类样本中,总体被分为自然发生的或相似的组或聚类。选择簇的随机样本,并且所选簇的每个成员都包含在样本中。多阶段抽样通过选择聚类来组合这些技术,然后在每个聚类中随机采样,如有必要,重复该过程。
现在,让我们将这些概念应用到一些示例中并确定所采用的采样方法。在第一个示例中,民意调查人员随机联系 400 名男性和 400 名女性,询问他们在即将到来的选举中最喜欢的候选人。这是分层抽样的一个例子,因为它收集男性和女性的信息,同时在每个组中抽取简单的随机样本。在第二个示例中,研究人员随机选择 50 所高中,并对这些学校的所有学生进行数学水平考试。这代表了一个整群样本,其中随机化发生在学校层面,并在选定的学校内进行人口普查。
在第三个示例中,汽车经销商使用客户列表随机选择 200 名以前的汽车购买者,并联系每一位进行满意度调查。这是简单随机样本的典型示例,因为每组 200 名客户都有相同的被选择机会。最后,一个医疗小组随机选择了 35 家美国医院,然后从每家医院随机抽取 50 名患者来检查他们的护理费用。此场景演示了多阶段示例。最初,随机选择集群(医院),然后在每个选定的医院内进行简单的随机抽样。
在得出结论之前,值得一提的是另一种抽样方法,称为系统抽样。虽然不是随机抽样的一种形式,但在特定情况下可以作为替代。在系统样本中,使用预定模式选择总体成员。例如,一家杂货店可以对每 20 个离开商店的人进行调查,以衡量客户满意度。当总体是同质的(这意味着其中不存在相关模式)时,系统样本可以与随机样本一样有效。然而,必须谨慎行事,以确保抽样模式与总体中任何现有模式不相符,因为这可能会引入偏差。
总而言之,当从整个人群收集数据不切实际或不可能时,统计抽样是一个重要的工具。随机抽样方法,例如简单随机样本、分层样本、整群样本和多阶段样本,有助于减轻抽样偏差并增加获得代表性和无偏见结果的可能性。虽然随机样本引入了变异性,但从中得出的统计数据平均与总体参数一致。了解不同抽样方法的优点和局限性对于进行可靠和准确的研究至关重要。
统计中的偏差和变异
统计中的偏差和变异
大家好!今天,我们将深入探讨统计学中偏差和变异性的概念。统计推断的首要目标是根据样本数据得出有关总体的结论。为了实现这一目标,我们经常使用统计数据(样本的数值描述)来估计相应的参数(总体的数值描述)。
为了说明这一点,让我们考虑一个例子。假设对 1,200 名选民进行的调查显示,候选人 A 领先候选人 B 8 个百分点。我们可以将这个 8 分的差异视为一个统计数据,即对候选人 A 预计获胜多少的估计。另一方面,选举的实际结果,即候选人之间支持率的真实差异,代表了参数。
在某些情况下,统计数据和参数将完美对齐。然而,它们往往会在某种程度上有所不同。例如,选举的实际结果可能显示候选人 A 以 7.8 个百分点获胜。虽然这种偏差可能是由于随机机会而发生的,但它们在评估统计数据的质量时可能会带来问题。
这引出了偏见的概念。如果平均而言,表示为 P-hat 的统计量等于相应的参数(表示为 P),则该统计量被认为是无偏的。换句话说,良好的统计量不应系统地高估或低估参数。值得注意的是,我们在这里使用的术语“偏见”是技术意义上的,与偏见或歧视无关。
几种常见的偏见来源可能会影响调查。当并非所有总体成员都有平等的机会被随机抽样时,就会出现抽样偏差。例如,如果电话民意调查排除了手机,则结果可能会偏向老年人,这可能与总体人口的观点不同。当拒绝参与调查的人与参与调查的人不同时,就会出现不答复偏差,从而导致收集的数据存在潜在偏差。
不对称的问题或有偏见的措辞可能会影响受访者以某种方式回答,从而给结果带来偏见。当受访者倾向于提供社会可接受或积极看待的答案时,就会出现社会期望偏差。例如,如果个人被问及他们的牙齿卫生习惯,由于社会期望偏见,他们可能会高估自己刷牙的次数。
在实验研究中,偏差可能源于缺乏控制或盲法等因素。如果实验组的差异超出了所采用的治疗方法,则可能会给结果带来偏差。随机化对于确保一致性和减少偏差至关重要。
虽然无偏统计的目的是准确估计参数,但可变性解释了统计数据在不同随机样本之间变化的趋势。即使采用无偏抽样方法,每个随机样本也可能由于偶然性而产生不同的统计数据。值得注意的是,变异性并不是一种偏见。仅仅因为民意调查没有准确预测选举结果并不一定意味着它有缺陷。
为了帮助可视化偏差和变异之间的差异,想象一下向靶心扔飞镖。低变异性和低偏差意味着您的飞镖始终击中目标,紧密聚集在靶心周围。高变异性但低偏差会导致飞镖分散,但仍以靶心为中心。相反,高变异性和高偏差会导致飞镖广泛分散,始终错过靶心。然而,即使在最坏的情况下,一项研究也有可能击中靶心一次,这表明尽管存在较高的偏差和变异性,偶尔也会出现正确的结果。
了解偏差和变异性对于评估统计数据的质量和准确解释研究结果至关重要。
构建频率分布
构建频率分布
大家好!今天,我们将深入研究构建频率分布来总结和分析定量数据。当我们有一组数值观测值时,了解数据的形状、中心和分布至关重要。要实现这一目标,仅仅盯着数据是不够的。我们需要以一种有意义的方式总结它,这就是频率分布发挥作用的地方。
频率分布涉及将数据分为几个类别或区间,然后确定有多少观测值属于每个类别。让我们考虑一个示例,其中值范围为 11 到 25。为了创建频率分布,我们可以将此范围分为五个类,并计算每个类中的观测值数量。
在用于区间表示的符号中,左边的硬括号 [ 表示每个区间包含左端点,而右边的软括号 ) 表示不包含右端点。这意味着边界值(例如 14、17、20 和 23)始终进入下一个更高的类别。此外,类宽度都是相等的,在本例中,每个类宽度都是三个单位。
通过检查频率分布,我们已经可以对数据有一些了解。数据的中心似乎在 18 左右,属于频率较高的 17 至 20 级。其余数据显示围绕该中心尖峰的相对对称性。
现在,让我们逐步完成构建频率分布的过程。首先,我们需要决定要使用的类的数量。虽然没有严格的规则,但一个好的起点通常是 5 到 20 个类。如果我们使用的类太少,我们将无法捕获分布中足够的细节,从而阻碍我们理解数据的能力。另一方面,使用太多类会导致每个类的计数较低,从而很难辨别数据的形状。
一旦我们确定了类的数量,我们就开始计算类的宽度。为此,我们通过从最大值减去最小值来计算数据的范围。然后,我们将范围除以类别数。对类宽度进行四舍五入以确保所有观察结果都落入其中一个类至关重要。向下舍入可能会导致某些数据点被排除在分布之外。
接下来,我们找到每个类别的下限。我们从最小值开始作为第一类的下限。然后,我们添加类宽度以获得第二类的下边界,依此类推。每个类别的上边界正好低于下一类别的下边界。
最后,我们通过检查数据集来计算有多少个观察结果属于每个类别。例如,让我们考虑这样一个场景:我们使用给定数据集的八个类构建频率分布。我们计算出数据的范围,即 115.5 - 52.0 = 63.5。将此范围除以 8,我们得到的类宽度为 7.9,我们将其四舍五入为 8.0。从最小值 52 开始,我们添加 8.0 以获得每个类别的下限:52、60、68 等。
通过遍历数据集并计算属于每个类别的观察结果,我们获得了频率。需要注意的是,类不应重叠,并且它们的宽度应保持相同。这确保了每个观察都被分配到一个类。
为了增强我们对频率分布的理解,我们可以通过添加类别中点、相对频率和累积频率的列来扩展表格。类别中点代表每个区间内的平均值。我们通过取每个类别的下限和上限的平均值来计算它们。例如,52到60级的中点为(52 + 60) / 2 = 56,60到68级的中点为(60 + 68) / 2 = 64,依此类推。
相对频率可以深入了解每个类别中的观察值相对于数据集总大小的比例。为了计算相对频率,我们将每个类别的频率除以数据集的总大小。例如,将频率 11 除以数据集大小 50 得出相对频率 0.22。同样,8 除以 50 得到的相对频率为 0.16。
累积频率是通过将每个间隔及其之前的所有间隔的频率相加而获得的。第一个间隔(从 52 到 60)的累积频率与其频率保持相同,即 11。为了找到下一个间隔的累积频率,我们将其频率 (8) 添加到前一个间隔的累积频率。例如,第二个间隔(从 60 到 68)的累积频率为 11 + 8 = 19。我们对每个间隔继续此过程,将频率与先前的累积频率相加,以获得后续间隔的累积频率。
需要注意的是,所有频率的总和应等于数据集的总大小(在本例中为 50)。相对频率之和应始终为 1,表示整个数据集。最后,累积频率列中的最后一个值应与数据集的大小相匹配。
使用类中点、相对频率和累积频率的列扩展频率分布表有助于更全面地了解数据分布。它使我们能够以更有组织性和洞察力的方式观察数据的中心趋势、比例和累积比例。
总之,构建频率分布涉及将数据划分为类、确定类宽度、计算下限、计算每个类中的观测值以及分析结果频率。使用类中点、相对频率和累积频率等附加信息扩展表格,可以进一步增强我们对数据集特征的理解。
直方图、频数多边形和尖形图
直方图、频数多边形和尖形图
大家好,今天我们将深入了解图形数据的世界。我们将探索直方图、频率多边形和尖顶图,它们都是单变量分布的视觉表示。当我们探索这些不同类型的显示时,我们将使用我们在上一个视频中创建的扩展频率分布作为示例。为了加深您的记忆,我们从一个包含 50 个值(范围约为 52 到 116)的数据集开始。我们将数据集分为等宽的八个类,并确定每个类中值的数量以构建频率分布。
让我们从单变量数据集最重要和最常用的视觉表示开始:频率直方图。在直方图中,我们在水平轴上绘制数据值,在垂直轴上绘制频率。具体来说,我们在水平轴上标记类中点,例如 56、64、72 等。在每个中点上方,我们绘制一个条形,其高度对应于该类别的频率。例如,如果前几个类别的频率为 11、8、9 等,则条形图将具有相应的高度。
值得注意的是,直方图代表频率使用区域。面积越大表示数据量越大。当我们查看绘图时,我们的眼睛自然会被数据较多的区域所吸引,从而使我们能够直观地了解数据集的形状、中心和分布。例如,在此直方图中,我们可以看到数据更有可能聚集在 56 个而不是 112 个周围。此外,值得一提的是,在绘制直方图时,我们不会在相邻类别之间留下间隙,这与条形图不同其中代表分类变量的条形之间通常存在间隙。
有时,绘制直方图时,水平轴标记为类的端点而不是中点,这是完全可以接受的。无论使用哪种标记方法,该图都传达相同的信息。另一种选择是在直方图上绘制相对频率而不是频率,这应该会产生类似的形状。唯一的区别是水平轴的缩放比例发生变化以适应相对频率值。
另一种与直方图类似的直观显示方法是频数多边形。在这里,我们仍然在横轴上绘制数据值,在纵轴上表示频率。然而,我们不是绘制条形图,而是为每个类别绘制一个点。这些点对应于水平轴上的中点以及垂直轴上它们各自的频率。然后我们用线连接这些点。为了确保多边形看起来完整,我们在第一个中点下方添加一个额外的点,在最后一个中点上方添加另一个点,每个点延伸一个类宽度。
最后,我们可以使用显示累积频率的尖形图来表示数据。在构建尖顶时,我们在水平轴上绘制上层阶级边界,在垂直轴上绘制累积频率。我们从水平轴上对应于第一个较低类别边界的点开始。尖顶的目的是显示,对于任何给定的 x 值,我们的分布中有多少数据点低于该值。
我希望这能够澄清使用直方图、频率多边形和尖形图绘制数据的概念。这些视觉显示为单变量数据集的分布提供了有价值的见解。
您的第一次 RStudio 会话
您的第一次 RStudio 会话
大家好,在今天的会议中,我们很高兴第一次开放我们的工作室。我们的主要重点将是探索基本功能并在该环境中舒适地工作。当您第一次打开我们的工作室时,您会注意到三个不同的窗格,但在本视频中,我们将主要关注最左侧窗格中的控制台选项卡。不过,随着我们的进展,我们将简要提及其他窗格,为以后的视频保留更详细的讨论。
首先,让我们探索控制台选项卡,它充当 R 中的科学计算器。您可以执行基本算术运算,例如加法、减法、乘法和除法。例如,如果我们计算 8 加 12,则答案为 20。需要注意的是,显示的答案没有方括号,我们将在本视频后面对此进行解释。此外,您可以添加空格以提高可读性,因为在命令行中输入时 R 会忽略空格。
R 提供了广泛的内置函数,例如平方根函数。例如,9的平方根是3。同样,您可以进行三角运算、绝对值计算等。函数名称通常很直观,但如果您不确定,快速 Google 搜索将帮助您找到正确的语法。
RStudio 中的一项有用功能是能够使用向上箭头键调用以前的命令。这允许您检索以前的命令并根据需要进行编辑。例如,如果您想计算 10 而不是 9 的平方根,您可以按向上键,删除 9,然后输入 10,大约得到 3.162278。
默认情况下,R 在小数点右侧显示六位数的精度。但是,您可以根据需要在首选项菜单下调整此设置。
现在,让我们继续定义变量。在 R 中,您可以使用赋值运算符为变量赋值,该运算符是左箭头 ( <- ) 或等号 ( = )。建议使用向左箭头进行分配。例如,我们定义一个名为“x”的变量,并将其设置为等于3。赋值后,右上方窗格中的环境选项卡将显示“x = 3”以提醒我们已赋值。如果我们简单地在控制台中输入变量名“x”并按 Enter 键,R 将打印它的值,在本例中为 3。
您可以使用变量执行算术运算,就像使用数值一样。例如,如果我们计算 3 加 x,结果为 6。R 尊重运算顺序,因此像 1 加 2 乘以 x 这样的表达式将计算为 7 而不是 9。
当我们将变量分配为向量时,R 变得更加强大。为了创建向量,我们使用连接函数 (c),后跟括号和我们想要包含的值。例如,让我们将向量“y”分配给值 1、5、6 和 9。定义向量后,键入“y”并按 Enter 键将显示其值:1、5、6 和 9。现在我们可以对向量执行算术运算,例如向每个元素加 2 (y + 2) 或应用平方根 (sqrt(y)) 等数学函数。
除了算术运算之外,我们还可以总结向量。例如,我们可以计算向量的中值(median(y))或总和(sum(y))。 R 提供了许多函数来操作向量,如果您不确定某个特定函数,快速 Google 搜索将提供必要的信息。在我们继续之前,我想提一下 RStudio 中的两个附加功能。第一个是
历史记录选项卡位于控制台顶部。通过单击它,您可以访问最近命令的列表。您可以滚动浏览历史记录以查看和重复使用以前的命令,这是一项节省时间的功能。即使您退出 RStudio 并稍后再回来,命令历史记录仍然可用。
要重用历史记录中的命令,只需双击它,它就会出现在控制台中。然后,您可以进行任何必要的编辑并重新评估该命令。此功能使您可以轻松地重新访问和修改以前的命令。
我要强调的第二个功能是能够为包含多个字母的变量命名。例如,假设我们要创建一个名为“numbers”的变量,并为其分配值 1、2、3、4、5 和 6。我们可以通过输入“numbers <- c(1, 2, 3 、4、5、6)”在控制台中。一旦完成赋值,我们就可以对变量执行各种操作,例如计算“数字”的平方根(sqrt(numbers))。
现在,让我们继续加载数据集并探索我们可以对加载的数据执行的一些操作。在 RStudio 的右下窗格中,您将找到一个文件浏览器。导航到数据集的位置并选择它。例如,我们选择“body”数据集。单击“导入数据集”按钮将数据集导入到 RStudio 中。
在导入过程中,您将看到数据集电子表格格式的预览。在右上窗格中,环境选项卡将显示一个名为“body_data”的新对象。该对象代表一个包含 300 个观测值和 15 个变量的数据框。本质上,它是一个 300 行 15 列的表。您可以通过对列进行排序、水平滚动以查看更多列以及将其与 Excel 文件类似地处理来与数据集进行交互。
要使用数据框中的特定变量,我们需要使用美元符号 ($) 表示法来指定它们。例如,如果我们对“age”变量感兴趣,我们可以在控制台中输入“body_data$age”。当您开始输入时,RStudio 将提供可用变量的列表。按 Enter 键,您将看到数据集中所有年龄的列表(按出现顺序排列)。
一旦我们隔离了一个特定的变量,例如“body_data$age”,我们就可以像任何其他变量一样对其执行操作。例如,我们可以通过在控制台中输入“mean(body_data$age)”来计算数据集中所有个体的平均年龄。在本例中,平均年龄确定为 47.0。
除了平均值之外,您还可以使用适当的函数探索其他统计数据,例如标准差、中位数、总和、最小值、最大值等。我们将在以后的视频中更深入地研究这些数据操作技术,探索 R 在统计分析方面的强大功能。
这就是我们对开放工作室、基本功能以及使用变量和数据集的概述。请继续关注未来的视频,我们将在其中探索 RStudio 中更高级的功能和技术。
R 中的直方图和频数多边形
R 中的直方图和频数多边形
大家好,在今天的视频中,我们将使用 qplot 命令在 R 中创建具有视觉吸引力的直方图和频率多边形。在 R 中创建图形的方法有很多种,但我个人认为 ggplot2 包可以产生最好看的显示效果。首先,我们将在 ggplot2 中使用 qplot 命令。
在我们的演示中,我们将使用 R 内置的“忠实”数据集。该数据集包含美国黄石国家公园老忠实间歇泉的 272 个喷发时间观测值以及喷发之间的等待时间(以分钟为单位) 。
要绘制“等待”变量的直方图和频率多边形,我们需要首先安装 ggplot2 软件包。如果您尚未安装它,可以通过输入“install.packages('ggplot2')”来安装。安装后,每次启动新会话时都需要通过键入“library(ggplot2)”来加载该包。
现在让我们专注于情节。要创建直方图,我们使用“x”参数指定 x 轴上的变量,如下所示:“qplot(x = waiting, data =faithful, geom = 'histogram')”。这将生成一个看起来比基本 R 的 hist 命令生成的直方图更好的直方图。
然而,我们可以做出一些改进。让我们首先向图表添加标签和主标题。我们可以使用参数“xlab”作为 x 轴标签,“ylab”作为 y 轴标签,“main”作为主标题。例如:“qplot(x = waiting, data =faithful, geom = 'histogram', xlab = '等待时间', ylab = 'Frequency', main = 'Old Faithful')”。
接下来,让我们解决条形的外观。默认情况下,这些条可能看起来并排在一起。为了区分它们,我们可以使用“color”参数添加边框颜色,例如“color = 'darkblue'”。此外,我们可以使用“fill”参数更改条形的填充颜色,例如“fill = 'lightblue'”。
现在,如果我们想创建频率多边形而不是直方图,我们可以将“geom”参数更改为“geom = 'freqpoly'”。这将在 x 轴上使用相同的变量绘制频率多边形。请记住删除“fill”参数,因为它在这种情况下不适用。
您可能还想使用“bins”参数调整直方图中的 bin 数量。默认情况下,R 使用 30 个 bin,但您可以将其更改为不同的值,例如“bins = 20”,以拥有更多或更少的 bin。
最后,我想提一下指定数据的另一种方法。您可以使用“data”参数直接指定数据集,而不是使用“$”符号,例如“qplot(x = waiting, data =faithful, geom = 'histogram')”。这在处理多个变量时非常有用。
我们关于使用 qplot 命令在 R 中创建直方图和频率多边形的教程就到此结束了。请随意探索和尝试不同的设置,以创建具有视觉吸引力和信息丰富的图形。
茎叶图
茎叶图
大家好,今天的讨论中,我们将探讨茎叶图的概念。茎叶图提供了一种简单且信息丰富的方式来可视化单个变量的分布。它们对于小数据集特别有效,因为它们在可视化过程中保留所有信息而不会丢失任何信息。为了更好地理解它们,让我们深入研究一些示例。
典型的干图由垂直条组成,条右侧的每个数字代表一个数据点。这些数字代表每个观察值的最后一个有效数字,而条形左侧的值代表较高的位值数字。例如,在给定的分布中,初始值为 27、29 和 32。
请注意顶部的键,其中小数点是斜杠右侧的一位数字。茎叶图不直接包含小数;相反,键表示位值。这样,我们就可以区分 27、2.7 或 0.27。
现在,让我们为以下数据集构建茎叶图。这里,十分位为叶子,小数点左边两位为茎。因此,前几个条目将是 34.3、34.9,然后继续到下一个词干 35/1(小数点与斜杠对齐)。
完整剧情如下:34.3 34/9等等。
值得注意的是,即使没有相应的叶子,第一个和最后一个之间的每个茎都包括在内。这使我们能够以公正的方式观察数据的形状。例如,值 39.0 和 39.1 并不紧邻 37.5,而是在两者之间留有一些空间。
然而,构建茎叶图时可能会出现两个潜在的困难。首先,如果数据包含太多有效数字(例如在给定的示例中),则使用最后一位数字作为叶子将导致超过 400 个茎。为了避免这种情况,建议对数据进行四舍五入。在这种情况下,四舍五入到最接近的百位可以提供合理的词干数。
当每个词干有太多数据点时,就会出现第二个问题,如另一个示例所示。为了解决这个问题,对叶子使用千分之一,对茎使用十分之一和百分之一似乎是合适的。然而,这只会产生三个词干(2.1、2.2 和 2.3)。尽管技术上准确,但该图未能描绘出所需的分布形状。
为了解决这个问题,我们可以将茎分开。通过复制每个茎并将前半部分分配给从 0 到 4 的最后数字(叶),将后半部分分配给从 5 到 9 的数字,我们可以获得更好的表示。例如,词干 2.1 将分为 2.10 至 2.14(上半部分)和 2.15 至 2.18(下半部分)。这解决了之前的困难并提供了更丰富的数据视图。
这个额外的细节可以揭示问题,如本示例所示,其中分裂的茎突出显示对称分布,这与之前出现的右倾斜显示相反。茎叶图提供了对数据分布的宝贵见解,同时保留了所有基本信息。