编程教程 - 页 14

 

均匀分布


均匀分布

大家好,今天我们将深入研究连续随机变量,特别探讨那些具有均匀分布的随机变量。

让我们首先回顾一下什么是连续随机变量。它是一个可以取整个范围内的值的变量,而不是一组离散的值。例如,如果我们随机选择某人并测量他们的准确身高,则该随机变量可以取无限多个可能的值。因此,获得任何特定值的概率是无限小的,使得讨论特定值的概率是不切实际的。为了解决这个问题,我们关注与落在特定值范围内的随机变量相关的概率。

例如,我们可能不会询问某人身高恰好为 58.6 英寸(几乎为零)的概率,而是询问其身高在 55 到 65 英寸之间的概率。这种方法使我们能够处理有意义的概率。另一个例子是考虑随机选择的歌曲少于三分钟或长于三分钟的概率,而不是恰好三分钟。

最简单的连续随机变量类型之一是均匀分布。在均匀分布的随机变量中,概率均匀分布在其整个域中。您可能在 Excel 的 rand() 函数中遇到过这个概念,该函数生成 0 到 1 之间并具有指定小数位的随机数。在这种情况下,所有值都具有相同的概率。我们将此称为区间 [0, 1] 上的均匀分布。

为了计算均匀分布的概率,我们将所需区间的宽度除以整个范围的总宽度。例如,结果小于 0.2 的概率为 0.2 除以 1(总宽度),结果为 0.2。同样,结果大于或等于 4 的概率为 0.6,因为感兴趣区间的宽度为 0.6 个单位。值得注意的是,考虑到单个结果的概率无限小,在处理连续随机变量时,不等式的严格性(例如“<”与“<=”)是无关紧要的。

我们也可以将均匀概率分布的概念扩展到其他区间。例如,考虑区间 [1, 7] 将产生连续概率分布,其中随机变量可以以相同的概率取 1 到 7 之间的任何值。让我们看一下这个发行版中的几个例子:

  • 随机变量小于 5 的概率为 4/6 或 2/3,计算方法是将 1 到 5 的区间宽度 (4) 除以区间总宽度 (6)。
  • 随机变量小于或等于 1.5 的概率为 0.5/6 或 1/12。在这里,我们将 1 到 1.5 区间的宽度 (0.5) 除以区间的总宽度 (6)。
  • 随机变量大于 6.12 的概率为 11/70 或 0.157,通过将 6.12 到 7 的区间宽度除以区间总宽度 (70/5) 获得。

不可能以与离散随机变量相同的方式绘制连续随机变量的概率直方图,因为单个概率是无穷小的。相反,我们使用密度图,将概率表示为面积而不是高度。在均匀分布的密度图中,所有概率都相等并形成一条水平线。密度图下的总面积应始终为 1,以确保概率正确求和。

为了说明这一点,我们考虑区间 [-5, 5] 上的均匀分布。在本例中,域的宽度为 10 (5 - (-5))。要创建密度曲线,我们需要将矩形的高度设为 1 除以宽度,即 1/10。这可确保密度曲线下的总面积为 1。

现在,我们来计算该分布中随机变量大于 3.5 的概率。我们可以重新绘制密度曲线,并对 X > 3.5 对应的区域进行着色。概率等于该阴影区域的面积。

通过应用计算矩形面积的公式(底乘以高),我们将宽度 (5 - 3.5 = 1.5) 乘以高度 (1/10)。这导致面积为 1.5/10 或 15%。

综上所述,在均匀分布 U(-5, 5) 中,X 大于 3.5 的概率为 15%。

The Uniform Distribution
The Uniform Distribution
  • 2020.05.13
  • www.youtube.com
Your first continuous random variable! The uniform distribution is a fantastic way to learn the basics.
 

连续随机变量


连续随机变量

大家好!今天,我们将深入研究连续随机变量的主题。连续随机变量只是一个可以在整个范围内取值的变量,可以进行精确测量。让我们通过几个例子来说明这个概念。

想象一下在当地动物收容所随机选择一只狗并测量它的尾巴长度。您可以获得任何您想要的精确度的测量结果。同样,考虑在随机时刻获取南极的精确温度读数或测量随机选择的客户服务呼叫的时间长度。这些示例展示了以任何精度级别测量变量的能力。

相反,离散随机变量只能采用非连续集合中的值。例如,掷骰子 20 次并数出 6 的数量将得到 0、1、2、3、4 等整数。然而,诸如二分之一、三分之二或三又四分之一之类的分数或小数是不可能的结果。

描述连续随机变量的概率比离散随机变量的概率更复杂。由于有无限多种可能的结果,获得特定单个结果的可能性基本上为零。例如,如果我们声明客户服务呼叫持续 150 秒,则实际长度可能是 150.1、150.05 或任何无数其他值。因此,通话恰好持续 150 秒的概率基本上为零。

尽管如此,某些通话长度似乎比其他通话长度更有可能。我们预计持续 150 秒的通话比持续 3 小时的通话更有可能发生。为了解决连续随机变量的概率,我们关注值的范围而不是特定的结果。例如,我们考虑呼叫在 140 到 160 秒之间的概率,这通常会产生非零概率。

可视化连续随机变量的一种方法是通过密度曲线。然后,范围内的概率表示为密度曲线下的面积。让我们检查一个描绘随机变量 X 的图表,该变量的范围从 0 到 4,且概率递减。图中的阴影区域表示在给定试验中 X 落在 1 和 2 之间的概率。从图中,我们可以观察到 X 落在 1 和 2 之间的概率小于它落在 0 和 1 之间的概率。出现这种差异的原因是,与 1 到 2 相比,从 0 到 1 的曲线下面积更大类似地,X 落在 1 和 2 之间的概率比落在 2 和 3 之间的概率更高。我们可以通过近似阴影区域的面积来估计 X 落在 1 和 2 之间的概率,这会产生大约十分之三或30%。

密度曲线通常称为概率密度函数 (PDF)。合法的 PDF 具有两个基本属性。首先,它必须始终是积极的,与概率的积极本质保持一致。其次,合法PDF图下的总面积应该始终为1,这意味着我们在进行概率实验时获得了X的某个值。

虽然 PDF 和密度曲线的概念可能很直观,但涉及它们的实际计算可能具有挑战性。在实践中,我们经常使用随机变量的累积分布函数(CDF)来绕过大量计算的需要。 CDF 提供随机变量在给定试验中假设值不大于指定 X 的概率。本质上,它累积了概率。例如,如果 X 增加,则随着累积的概率增加,相应的 CDF 值也会增加。

使用 CDF,我们可以计算随机变量落在特定范围内的概率。该概率是通过减去范围下限和上限的 CDF 值来确定的。让我们检查同一随机变量(表示为 X)的 PDF 和 CDF 的图形。图中的阴影区域表示 X 小于或等于 2 的累积概率,表示为 F(2),即 2 处的 CDF 。请注意,随着 X 的增加,CDF F(X) 也始终会增加,因为累积了更多的概率。

为了计算 X 落在两个值(例如 a 和 b)之间的概率,我们用 a 处的 CDF 值减去 b 处的 CDF 值。在图中,这相当于从 X 左侧的面积等于 1 减去 X 左侧的面积等于 2。数学上,这表示为 F(b) - F(a)。视觉表现使其显而易见。

最简单的连续随机变量类型是均匀分布的。在均匀分布中,等宽度间隔的概率相等。本质上,这意味着特定范围内的每个 X 值的可能性相同。另一种看待这一问题的方法是,均匀分布随机变量的 PDF 是一个常数函数。

让我们考虑一个例子。假设我们有一个连续随机变量,其值可以均匀分布在 1 到 7 之间。 PDF 是 1 到 7 之间的常数函数,总面积为 1。由于区间的宽度为 6,因此图形的高度为 1/6。有了这些信息,我们就可以计算任何 X 范围的概率。例如,X 落在 2 和 7 之间的概率由区间宽度(即 7 减 2)除以图的高度得出,即是 1/6。因此,概率为 (1/6) * (7 - 2) = 5/6。

如果您想对均匀分布进行更全面的解释,我有一个关于该主题的专门视频,您可以在上面提供的链接中找到。

Continuous Random Variables
Continuous Random Variables
  • 2020.09.26
  • www.youtube.com
Continuous random variables are cool. No, really! In this vid, we cover pdfs (probability density functions) and cdfs (cumulative distribution functions) and...
 

正态分布


正态分布

今天我们将讨论正态概率分布和经验规则。当处理连续随机变量时,其密度曲线通常呈钟形曲线的形状。该钟形曲线表明大部分概率集中在分布的中心或均值附近。然而,从理论上讲,您可以想象的大或小结果都是可能的。

正态分布在现实生活中很常见。例如,如果我们测量随机选择的新生儿的身长,观察开放高速公路上车辆的速度,或者检查随机选择的学生在标准化考试中的分数,所有这些随机变量都可能遵循近似正态分布。正态分布呈现围绕均值的对称性,这意味着获得小于均值的结果的概率与获得大于均值的结果的概率相同。因此,在考虑新生儿身长时,我们遇到高于或低于平均水平的婴儿的可能性是相同的。

正态分布的特征可以通过其均值和方差(或标准差)来充分描述。平均值代表分布的中心,而标准差代表平均值到曲线拐点的距离。这些拐点标志着曲线从山形到山谷形的过渡。

让我们以 2017 年 SAT 成绩为例。SAT 成绩近似正态分布,平均值为 1060,标准差为 195。绘制此分布图,我们将平均值定位在 1060,并将拐点标记为 1两个方向上偏离均值的标准差。我们还可以标记与平均值之上和之下一个标准差相对应的附加点。

在解释密度曲线时,它们下方的面积代表概率。从图中我们可以看到,随机选择 865 到 1060 之间的分数的概率大大高于选择 670 到 865 之间的分数的概率。为了量化这些概率,我们可以采用经验规则作为估计正态分布的经验法则概率。

根据经验法则,在任何正态分布中,大约 68% 的概率位于平均值的一个标准差内,95% 的概率位于平均值的两个标准差内,99.7% 的概率位于平均值的三个标准差内。这些比例对应于相应区域内曲线下的面积。

将经验规则应用于平均值为 1060、标准差为 195 的 SAT 分数分布,我们发现有 68% 的机会随机选择 865 到 1255 之间的分数,有 95% 的机会选择 670 之间的分数和 1450,并且有 99.7% 的机会选择 475 到 1645 之间的分数。

使用几何和经验规则,我们还可以计算其他场景的概率。例如,获得与平均值相差超过一个标准偏差的结果的概率等于一减去获得在平均值的一个标准偏差以内的结果的概率。类似地,我们可以通过找到平均值两个标准差内区域的补集来计算获得低于平均值两个标准差以上的值的概率。

总之,正态概率分布遵循钟形曲线,经验规则为估计正态分布特定区域内的概率提供了有用的近似。

The Normal Distribution
The Normal Distribution
  • 2020.05.18
  • www.youtube.com
Introducing normally-distributed random variables! We learn what they look like and how they behave, then begin computing probabilities using the empirical r...
 

标准正态分布


标准正态分布

大家好,今天我们将深入研究标准正态分布。这本质上是均值为零、标准差为 1 的正态分布或钟形曲线,如此处所示。

我们正在处理一个连续随机变量,它可以取负无穷大和正无穷大之间的任何值。然而,大部分概率集中在零附近。曲线的峰值以均值(为零)为中心,拐点出现在正负 1 处,此时图形从山形过渡到谷形。

为了指代遵循标准正态分布的随机变量,我们经常使用字母“z”。标准正态分布特别有用,因为任何具有正态分布的随机变量(具有平均值 mu 和标准差 sigma)都可以转换为标准正态分布。此转换是通过减去平均值并除以标准差来实现的:z = (x - mu) / sigma。

现在,我们来谈谈 z 分数。 z 分数表示 x 值高于或低于平均值的标准差数。有时,z 分数也称为标准分数。在标准正态分布中,我们不关注单个值的概率,因为有无限多个。相反,我们考虑 z 落在特定范围内的概率。

当考虑标准正态分布中的概率时,我们检查图表下方的区域以获得所需的范围。例如,让我们看一下 z 在 -1 到 0.5 之间的概率。我们想要找到这两个值之间的图形下方的阴影面积。请记住,图表下方的总面积始终为 1,因为它代表总概率。

为了描述标准正态等连续随机变量的概率,我们通常使用累积分布函数(CDF)。 CDF 提供随机变量小于或等于特定值的概率。在标准正态分布中,我们使用 Phi(z) 表示 CDF。

要计算概率,建议使用计算器或软件等技术。例如,TI计算器具有“normalcdf”函数,Excel可以执行计算,而在R中,命令“pnorm”用于计算标准正态分布的CDF。

让我们考虑一个例子。如果我们想要找到 z 分数小于或等于 0.5 的概率,我们可以使用 CDF 并计算 Phi(0.5),其结果约为 0.691。因此,获得小于或等于 0.5 的 z 分数的概率约为 69.1%。

一般来说,如果我们想要计算 z 分数落在特定范围(a 到 b)内的概率,我们可以从 z 小于或等于 a 的概率中减去 z 小于或等于 a 的概率b.象征性地,这可以写成 Phi(b) - Phi(a)。

最后,必须记住任何单个 z 分数的概率都是无穷小的。 z 小于或等于特定值 (c) 的概率与 z 小于该值 (c) 的概率相同。此外,z 大于 c 的概率等于一减去 z 小于或等于 c 的概率,因为这些事件是互补的。

为了说明这一点,我们来确定获得大于 -1.5 的 z 分数的概率。通过上面的事实二,我们可以计算出 1 减去 z 小于或等于 -1.5 的概率,大约为 93.3%。正如预期的那样,考虑到负 z 分数将我们置于钟形曲线的最左侧,表明该区域的很大一部分位于该 z 分数的右侧,因此该概率远大于 50%。

总之,标准正态分布的特征是均值为 0,标准差为 1,是统计学中的基本概念。通过利用 z 分数(测量值与平均值的标准差数量),我们可以确定与分布中特定范围相关的概率。累积分布函数 (CDF)(通常表示为 Phi(z))用于计算这些概率。通常采用计算器或统计软件等技术来计算 CDF 值。请记住,标准正态分布允许我们通过将任何正态分布的值转换为 z 分数来标准化和比较这些值。

The Standard Normal Distribution
The Standard Normal Distribution
  • 2020.07.27
  • www.youtube.com
The standard normal distribution: what it is, why it matters, and how to use it. Your life is about to get better! If this vid helps you, please help me a ti...
 

使用 R 计算正态概率


使用 R 计算正态概率

大家好!今天,我们将深入研究使用 RStudio 计算正态分布概率的世界。当处理连续的正态分布随机变量时,讨论获得特定个体值的概率是没有意义的。相反,我们依赖累积分布函数(CDF)。此函数采用 x 值,并返回在正态分布中随机获得小于或等于该 x 值的数字的概率。

为了更好地理解这个概念,让我们看一下视觉表示。在图中,我标记了一个 x 值,阴影区域表示使用正态 CDF 达到该 x 值的累积概率。当我们提到均值为 0、标准差为 1 的标准正态分布时,我们通常将随机变量表示为 Z,并使用大写的 Phi (Φ) 来表示 CDF。

现在,在某些情况下,我们想要计算正态分布中的变量落在特定范围内的概率,而不仅仅是小于单个数字。我们可以通过计算它小于或等于较高数字的概率并减去它小于或等于较低数字的概率来实现这一点。这可以通过从左下角的阴影区域减去右下角的阴影区域来可视化。

让我们通过使用不同的正态分布和概率执行一些计算来测试我们的知识。为此,我们将切换到 RStudio。在R中,我们可以利用“Pnorm”函数,它是正态分布的累积分布函数。

首先,我们考虑 N(5, 9) 分布。我们想要找到 X 小于或等于 10 的概率。使用 x 值为 10、平均值为 5、标准差为 3 的“Pnorm”,我们得到的结果约为 0.9522。

接下来,让我们确定获得大于 10 的 x 值的概率。由于获得大于 10 的 x 值是获得小于或等于 10 的 x 值的补集,因此我们可以通过减去以下概率来计算它:后者是从 1 中得出的。通过从 1 中减去“Pnorm(10, 5, 3)”,我们发现概率约为 0.048。

现在,让我们将注意力转移到均值为 100、方差为 20 的正态分布。我们感兴趣的是 X 落在 92 到 95 之间的概率。我们首先计算 X 小于或等于 95 的概率使用“Pnorm(95, 100, sqrt(20))”。然后,我们使用“Pnorm(92, 100, sqrt(20))”减去 X 小于或等于 92 的概率。结果约为 0.095。

最后,我们使用标准正态分布来计算 Z 介于 -1.2 和 0.1 之间的概率。我们可以直接用“Pnorm(0.1)”减去“Pnorm(-1.2)”,得到大约0.428的结果。

总之,通过利用正态分布和累积分布函数的力量,我们可以计算与不同值范围相关的概率。 RStudio 为我们提供了必要的工具,例如“Pnorm”函数,以高效地执行这些计算。

Computing Normal Probabilities Using R
Computing Normal Probabilities Using R
  • 2020.05.28
  • www.youtube.com
A quick introduction to the normal cdf function and its implementation in R, complete with several complete examples. Easy! If this vid helps you, please hel...
 

逆正态计算


逆正态计算

大家好!今天,我们将深入研究逆法线计算的迷人世界。让我们首先回顾一下如何使用累积分布函数 (CDF)(表示为 Φ(z))计算标准正态分布中的概率。 CDF 将 z 分数作为输入,并返回随机选择的 z 分数小于或等于该值的概率。

为了说明这个概念,请考虑绘制 Φ(0.5) 的图形。为了计算 Φ(0.5),我们绘制标准正态钟形曲线,并将 z = 0.5 定位在平均值的稍微右侧。然后,我们对 z 分数左侧的整个区域进行着色。 Φ(0.5)表示阴影区域的面积。请记住,钟形曲线下的总概率始终为 1,因此我们可以将阴影面积解释为总面积的百分比。

现在,让我们探讨一下正态 CDF 的逆,表示为 Φ^(-1) 或“phi 逆”。这个过程逆转了之前的计算。我们不是输入一个 z 分数并获得概率,而是输入一个概率并返回相应的 z 分数。例如,Φ^(-1)(0.5) 为 0,因为 Φ(0) 为 0.5。在标准正态分布中,一半概率位于 z = 0 的左侧。同样,Φ^(-1)(0.6915) 为 0.5,因为 Φ(0.5) 为 0.6915;Φ^(-1)(0.1587) 为 -1,因为 Φ(-1) 为 0.1587。我们本质上是颠倒了这两个函数的输入和输出。

为了进一步说明这个概念,让我们考虑一个例子。假设我们想要找到捕获标准正态分布中第 90 个百分位数的 z 分数。如果我们重复从此分布中得出结果,则该 z 分数代表大于 90% 的结果。为了确定这一点,我们使用 Φ^(-1) 并计算 Φ^(-1)(0.90),结果约为 1.28。因此,1.28 是对应于标准正态分布中第 90 个百分位数的 z 分数。

现在,有了给定概率或百分位数的 z 分数,我们可以轻松确定任何正态分布中的相应值。考虑一个标准化测试分数呈正态分布的示例,平均值为 1060,标准差为 195。为了确定超过 95% 分数所需的分数,我们首先找到第 95 个百分位。在 R 中使用 Φ^(-1)(0.95) 或 qnorm(0.95),我们得到大约 1.64 作为 z 分数。解释此结果时,学生的得分必须比平均值高 1.64 个标准差,才有 95% 的机会超越随机选择的分数。

为了计算实际分数,我们使用公式 x = μ + zσ,其中 x 表示所需分数,μ 是平均值 (1060),z 是 z 分数 (1.64),σ 是标准差 (195) 。代入这些值,我们发现学生需要获得大约 1379.8 分。因此,得分在 1380 左右将使学生处于第 95 个百分位,并且有 95% 的机会超过测试中随机选择的分数。

值得注意的是,从正态分布和逆正态分布获得的值通常是近似值,因为它们可能是无理数。虽然可以使用表格执行逆正态计算,但使用技术进行这些计算更为常见和方便。例如,在 R 中,逆法线的命令是 qnorm。为了找到概率的倒数,我们输入 qnorm ,然后输入所需的概率。例如,要计算 0.6915 的倒数,我们使用 qnorm(0.6915) 并获得大约 0.5。类似地,对于 0.1587 的倒数,我们使用 qnorm(0.1587) 并得到大约 -1。

在 21 世纪,使用技术进行这些计算更为可取,因为与使用手动表格相比,它可以提供准确的结果并节省时间。通过利用 R 等工具,我们可以通过提供概率并接收相应的 z 分数来轻松执行逆正态计算。

总之,逆正态计算使我们能够确定与正态分布中给定概率或百分位数相对应的 z 分数。我们可以使用逆正规函数,例如 R 中的 Φ^(-1) 或 qnorm 来获得这些值。这些信息可以帮助我们做出明智的决策并进行各种统计分析。

Inverse Normal Calculations
Inverse Normal Calculations
  • 2020.07.30
  • www.youtube.com
Let's learn about the inverse normal cdf! Lots of examples and pictures, as usual.
 

抽样分布


抽样分布

大家好,今天我们来讨论统计抽样分布的概念。在统计推断中,我们的目标是使用样本统计量来估计总体参数。然而,样本统计数据往往因样本而异,这意味着如果我们重复采样,我们将获得同一统计数据的不同值。

让我们用一个例子来说明这一点。假设我们有一个装有编号筹码的袋子,站统计员随机抽取 5 个筹码,得到数字 24、11、10、14 和 16。样本均值(表示为 x 条)经计算为 15。现在,如果我们多次重复此过程,我们可能每次都会获得不同的 x-bar 值。例如,在后续样本中,我们可能会获得 17.8、18.8 或 21.6 作为样本均值。因此,样本统计量 x 条是随机过程的结果,可以被视为随机变量。它有自己的概率分布,我们将其称为统计量的抽样分布。

现在,让我们来看一个具体的例子。假设我们有一个袋子,里面有三个红色筹码和六个蓝色筹码。如果我们放回地随机抽取三个筹码,我们想要找到 x 的抽样分布,它代表抽取的红色筹码的数量。 x 有四个可能的值:0、1、2 或 3。为了确定与每个值相关的概率,我们将每次抽签视为伯努利试验,其中红色被视为成功,蓝色被视为失败。由于我们进行了三次相同的抽奖,每次抽奖的概率均为三分之一,因此我们得到 n = 3 且 p = 1/3 的二项式分布。通过使用二项分布公式计算概率,我们发现 x = 0、1、2 和 3 的概率分别为 0.296、0.444、0.296 和 0.064。这些概率定义了 x 的抽样分布。

均值是统计推断中最常用的统计量,因此您经常会遇到“样本均值的抽样分布”这一短语。它表示从同一总体中抽取相同大小的样本时,样本均值所能取的所有可能值的概率分布。例如,让我们再次考虑袋子的例子,但这一次,芯片的编号从 1 到 35。当我们选取大小为 n = 5 的样本时,我们想要描述样本均值的抽样分布,表示为 x-bar无需更换。通过重复采样过程一千次并每次计算样本均值,我们得到了从 15 到 165 的一千个数字的列表。这些样本均值大多数都落在中间范围内,通过构建直方图,我们观察到抽样分布近似遵循钟形曲线形状。这种钟形曲线模式并非巧合,我们将在以后的讨论中探讨这一点。

样本均值的抽样分布具有可预测的中心和分布,从而可以进行各种统计推断。特别是,如果我们从平均值为 mu 且标准差为 sigma 的大型总体中抽取大小为 n 的样本,则样本平均值 (x-bar) 的平均值将等于总体平均值 (mu)。此外,样本均值的标准差将等于总体标准差 (sigma) 除以 n 的平方根。这些关系表明样本均值提供了总体均值的估计,并且比总体内的个体观测值的变化更小。

为了说明这一点,让我们考虑一个示例,其中标准化考试的平均分数为 1060,标准差为 195。假设我们从总体中随机选择 100 名学生。在这种情况下,我们假设总体足够大,因此无需放回的抽样是可以接受的。样本均值的抽样分布(表示为 x 条)的中心为 1060,标准差为 19.5。

澄清一下,如果我们收集 100 名学生的样本并计算他们的平均考试成绩,多次重复此过程,我们会发现样本均值平均为 1060。样本均值的分布,如图所示19.5 的标准差将大大小于总体中个体分数的标准差。

了解抽样分布的属性(例如其中心和分布)使我们能够做出有意义的统计推断。通过利用样本均值的抽样分布,我们可以估计总体参数,并根据观察到的样本统计数据得出有关总体的结论。

总体而言,统计数据的抽样分布通过提供对样本统计数据的变异性及其与总体参数的关系的深入了解,在统计推断中发挥着至关重要的作用。

Sampling Distributions
Sampling Distributions
  • 2020.08.01
  • www.youtube.com
All statistical inference is based on the idea of the sampling distribution of a statistic, the distribution of all possible values of that statistic in all ...
 

什么是中心极限定理?


什么是中心极限定理?

今天,我们讨论中心极限定理(CLT),它被广泛认为是统计学中最重要的定理之一。 CLT 描述了样本均值(x 条)的抽样分布的形状,并且需要对抽样分布有深入的了解。

要掌握 CLT,建议您熟悉抽样分布。您可以观看有关采样分布的视频,为方便起见,我在上面链接了该视频。

现在,让我们深入研究 CLT。假设我们从具有均值 (μ) 和标准差 (σ) 的总体中抽取大小为“n”的简单随机样本。我们可能对总体形状了解不多,但如果“n”足够大(通常在 30 左右),样本均值的抽样分布将近似正态分布。如果总体本身呈正态分布,则无论“n”如何,x-bar 的抽样分布都将完全呈正态分布。此外,x-bar 的平均值始终为 μ,x-bar 的标准差将为 σ 除以“n”的平方根。

本质上,中心极限定理指出,无论抽样总体如何,当样本量足够大时,x-bar 的分布将近似正态分布,平均值为 μ,标准差为 σ 除以平方根的“n”。在心理上,设想从总体中抽取大量相同大小的样本,计算每个样本的样本平均值。虽然各个样本均值可能略有不同,但它们的平均值将等于总体均值,并且这些样本均值围绕均值的分布将近似为钟形,标准差与总体标准差相关但小于总体标准差。

为了说明这个概念,让我们考虑一个例子。我们有一条技术帮助热线,其中通话时长服从正态分布,平均值 (μ) 为 2 分钟,标准差 (σ) 为 3 分钟。假设我们想要计算随机选择的 40 个呼叫样本的平均长度小于 2.5 分钟的概率。尽管我们不知道各个呼叫长度的确切分布,但我们可以利用中心极限定理,因为我们正在检查 40 个呼叫的样本平均值。样本平均值 (x-bar) 将近似呈正态分布,平均值为 2,标准差为 3 除以 40 的平方根 (σ/sqrt(n))。

为了计算概率,我们确定平均值为 2、标准差为 3/sqrt(40) 的分布中 x-bar = 2.5 的 z 分数。通过将 z 分数计算为 (2.5 - 2) / (3 / sqrt(40)),我们发现值为 1.05。然后,我们可以使用正态累积分布函数 (CDF) 来查找 z 分数小于 1.05 的概率,得出的结果约为 85.3%。这意味着对 40 个调用进行采样时,有 85.3% 的机会在不到 2.5 分钟的时间内获得样本平均值。

在另一个演示中,让我们想象一个随机数生成器,它以相等的概率生成 1 到 12 之间的随机整数。这种情况类似于随机选择某人并确定他们的出生月份。如果我们从该生成器中获取大小为 2 的简单随机样本,运行多次并计算样本平均值,我们会观察到一个大致呈金字塔形状的直方图。结果往往集中在 6.5 附近,这表明与接近 1 或 12 的值相比,获得接近 6.5 的样本均值的概率更高。

通过将样本大小增加到 10,我们观察到直方图开始类似于钟形分布,并且样本均值的分布减小。现在大多数样本平均值都在 4 到 9 之间。

如果我们进一步将样本量增加到 100 并重复该过程,直方图会变得更加钟形,大多数样本均值集中在 6 到 7 之间。样本均值的标准差继续减小。

最后,当我们抽取 1000 个样本时,直方图遵循近乎完美的正态分布曲线。样本均值紧密聚集在总体均值周围,大多数落在 6.25 到 6.75 之间。随着样本量的增加,样本均值的标准差继续缩小。

总而言之,随着样本量 (n) 的增加,样本平均值 (x-bar) 成为总体平均值 (μ) 的更可靠的估计量。样本均值的变异性降低,导致样本分布更窄且更呈钟形。

现在,让我们考虑一个涉及蒸馏水机的示例。饮水机装满加仑的水,其饮水量服从正态分布,平均值为 1.03 加仑,标准差为 0.02 加仑。我们想要确定所分配的单个“加仑”实际小于 1 加仑的概率。

为了找到这个概率,我们计算正态分布中 x = 1 的 z 分数,平均值为 1.03,标准差为 0.02。 z 分数的计算公式为 (1 - 1.03) / 0.02,结果为 -1.5。通过使用正态累积分布函数 (CDF),我们发现获得小于 1 加仑的值的概率约为 6.68%。

现在,我们考虑 10 加仑的平均值小于每加仑 1 加仑的概率。根据中心极限定理,当样本量(n)足够大时,样本均值的抽样分布变得正态,与总体分布无关。在这种情况下,x-bar 的抽样分布的平均值为 1.03(与总体平均值相同),标准差为 0.02/sqrt(10)。

为了找出获得小于 1 加仑的样本均值的概率,我们将 z 分数计算为 (1 - 1.03) / (0.02/sqrt(10)),等于 -4.74。使用正态累积分布函数 (CDF),我们发现获得小于 1 加仑的样本均值的概率约为 0.0001%。

总之,虽然一加仑水不足的可能性不大(大约 7%),但 10 加仑的平均值低于每加仑 1 加仑的情况是极其不寻常的。

最后,关于样本量,中心极限定理表明 x 条的采样分布近似于大样本量的正态分布。然而,什么构成“大”样本量是主观的,取决于总体分布的偏度和异常值的存在。一般来说,当从没有极端异常值的相当对称的分布中采样时,较小的样本量可能足以应用中心极限定理。

What is the central limit theorem?
What is the central limit theorem?
  • 2020.08.04
  • www.youtube.com
This is it! The most important theorem is the whole wide universe! A large proportion of statistical inference made possible by this one result. If this vid ...
 

使用中心极限定理计算概率:示例


使用中心极限定理计算概率:示例

大家好,今天的课程,我们将研究一些与使用中心极限定理计算概率相关的问题。我们有两个问题需要解决。让我们开始吧!

问题1:某品牌糖果的袋子重量服从正态分布,平均值为45克,标准差为1.5克。我们需要计算随机选择的袋子中糖果含量少于 44 克的概率。

为了解决这个问题,我们将使用正态分布并计算 z 分数。 z 分数是通过从值 (44) 中减去平均值 (45) 并将其除以标准差 (1.5) 获得的。这给我们的 z 分数为 -0.67。

接下来,我们使用正态累积分布函数(CDF)来查找在标准正态分布中获得小于 -0.67 的值的概率。结果概率约为 0.252,这意味着随机选择的袋子中糖果含量少于 44 克的可能性为 25.2%。

问题2:我们将考虑随机选择的5袋糖果的平均重量小于44克的概率。对于这个问题,我们需要应用中心极限定理。

根据中心极限定理,当样本量足够大(通常为 30 个或更多)时,样本均值的抽样分布变得近似正态,而与总体分布无关。在这种情况下,抽样分布的平均值 (x-bar) 将与总体平均值 (45) 相同,标准差将为总体标准差 (1.5) 除以样本量的平方根 ( √5)。

为了找到概率,我们通过从期望值 (44) 中减去平均值 (45) 并将其除以标准差 (√(1.5^2/5)) 来计算 z 分数。这给我们的 z 分数为 -1.49。

使用正态 CDF,我们发现获得小于 44 克的样本均值的概率约为 0.068,即 6.8%。因此,随机选择的 5 袋糖果的平均重量小于 44 克的可能性约为 6.8%。

最后,我们考虑随机选择的 25 个袋子的平均重量小于 44 克糖果的概率。由于样本量较大(25),我们仍然可以应用中心极限定理。

使用与之前相同的程序,我们计算 44 克样本平均值的 z 分数,标准差为 1.5/√25。这给我们的 z 分数为 -3.33。

应用正态 CDF,我们发现获得小于 44 克的样本均值的概率约为 0.004,即 0.4%。因此,随机选择的 25 袋糖果的平均重量少于 44 克的可能性只有 0.4%。

总之,中心极限定理为这些概率提供了可靠的近似,即使样本量相对较小(7)。计算出的概率非常接近从原始概率分布获得的精确值。

Calculating Probabilities Using the Central Limit Theorem: Examples
Calculating Probabilities Using the Central Limit Theorem: Examples
  • 2020.10.02
  • www.youtube.com
Let's compute! The Central Limit Theorem is incredibly useful when computing probabilities for sample means and sums. We do an example of each. If this vid h...
 

引入置信区间


引入置信区间

大家好,今天我们要深入探讨置信区间的话题。当我们讨论这个问题时,记住参数和统计量之间的区别至关重要。让我们快速回顾一下这个概念。

参数是描述总体的数字,例如美国所有数据科学家的平均起薪。另一方面,统计数据是描述样本的数字,例如美国随机选择的 10 名数据科学家的平均起薪。

通常,我们无法直接访问观察参数。从整个人群中收集信息通常是不切实际的,因此我们依赖提供统计数据的样本数据。统计推断是从统计量推理到参数的过程。

统计推断最基本和最重要的形式之一是置信区间。为了使所有这些更加具体,让我们考虑一个例子。假设我们随机抽取了 10 位美国数据科学家,发现他们的平均起薪为 97,000 美元。该值代表统计数据,因为它仅指我们样本中的数据科学家。然而,我们想要推断美国所有数据科学家的平均起薪,这是我们有兴趣估计的参数。

为了用统计 x 条(样本均值)估计参数 μ,我们最好的猜测是美国所有数据科学家的平均起薪为 97,000 美元。然而,重要的是要承认这一估计不太可能完全正确。参数 μ 不太可能正好是 97,000 美元;它可能会略高或略低,甚至显着升高。

鉴于我们的估计并不准确,因此最好提供一个区间估计,通常采用 x 条加上或减去一些误差幅度的形式。关键问题是我们如何确定这个误差幅度。我们必须记住,即使误差幅度很大,也总是有出错的可能性。

例如,考虑这样一个场景:我们碰巧选择了一个包含 10 名薪资过低的数据科学家的样本,而实际参数(美国数据科学家的真实起薪)为 150,000 美元。我们的样本均值仍然是 97,000 美元。因此,我们所能期望的最好结果就是构造一个可能以高概率捕获真实参数的置信区间。这意味着间隔应在很大一部分时间内包含真实参数。

通常,95% 的置信水平被用作标准,但也可以根据应用选择其他水平,如 90% 或 99%。在任何情况下,用于表示置信水平的符号都是大写 C。为了将其正式表达为概率陈述,我们的目标是找到误差范围 (e),使得 x-bar 和 μ 的概率在 e 范围内彼此都是C。

让我们的例子更具体一些。假设数据科学家的起薪遵循正态分布,总体标准差为 8,000 美元。我们希望找到一个误差幅度 (e),使我们能够以 95% 的置信度估计 μ,即美国所有数据科学家的平均起薪。

为了实现这一点,我们将使用标准正态分布的属性。如果我们采用服从正态分布的随机变量 x,则采样均值 (x-bar) 也将服从正态分布。样本均值分布的均值与总体分布的均值(μ)相同,但标准差减小。在我们的示例中,样本均值的标准差为 σ/√n,其中 σ 是总体标准差,n 是样本大小。

有了这些信息,我们可以重写我们的概率陈述如下:x-bar 位于 μ - e 和 μ + e 之间的概率等于 C。现在,我们可以用 z 分数来表示这一点,z 分数衡量数字偏离平均值的标准差。通过标准化我们的区间,我们可以利用标准正态分布(Z 分布)来确定适当的值。

对于给定的置信水平 C,我们需要找到 z 分数 (z-star),使得标准正态曲线下 -z-star 和 z-star 之间的面积等于 C。C 的常见值包括 0.95,对应于 1.960 的 z 星。一旦我们有了 z 星,我们就可以通过将其乘以 σ/√n 来计算误差幅度。

回到我们的示例,其中样本大小为 n = 10,样本平均值为 97,000 美元,总体标准差为 8,000 美元,我们可以构建 μ 的 95% 置信区间。通过将这些值代入置信区间的一般形式,我们发现 μ 的区间估计值为 $97,000 ± $1,958。

综上所述,我们预计美国所有数据科学家的平均起薪将在 92,042 美元至 101,958 美元之间,估计置信度为 95%。这意味着,如果我们要重复此采样过程并多次使用样本数据构建置信区间,我们预计我们的区间在大约 95% 的时间内捕获真实参数 (μ)。

Introducing Confidence Intervals
Introducing Confidence Intervals
  • 2020.07.30
  • www.youtube.com
Let's talk about confidence intervals. Here we're attempting to estimate a population mean when the population standard deviation is known. Cool stuff! If th...
原因: