[存档！]纯数学、物理学、化学等：与贸易没有任何关系的大脑训练问题

Nazariy Stapyak 2010.07.22 18:52 #3821

Richie:

WWer，"一垒尺寸 "是什么意思？成员的总和？

元素的数量（数字）。

Sceptic Philozoff 2010.07.22 19:13 #3822

WWer:

你需要从新基数中确定（概率上（例如2sigma））第一个基数的大小。

按照我的理解，大小是指极端值的范围，还是什么？在这种情况下，如果分布是已知的，问题就可以得到解决。

但如果尺寸是一个数字的数量，我就不明白了。请给我一个例子。

Nazariy Stapyak 2010.07.22 21:51 #3823

Mathemat:

我认为，规模是指极端的传播，还是什么？在这种情况下，只要有一个已知的分布，问题就可以得到解决。

但如果大小是一个数字的数量，我就不明白了。请给我一个例子。

为了简单起见，我们以自然数为例。1 2 3 4 5 ...这就是我们需要找到的 "X"。

从这个基数中随机选择一个数字，例如："3"...选择任何数字的概率=1/X。

例子。假设有10个数字。1 2 3 4 5 6 7 8 9 10（我说10是为了举例，实际上这是我们需要找到的数字）

让我们对20个数字进行取样：5 2 9 5 3 8 4 10 3 2 7 1 8 5 2 6 1 10 1

在这里，现在让我们忘记我们有第一个基地的大小，只有从第二个基地我们需要找到它。

很明显，第一个基地会大得多，而且这些数字不是连续的。

Владимир Тезис 2010.07.22 22:14 #3824

哇，这个问题完全可以解决吗？

只要第一个数据库中的数字没有重复，我们就可以通过后续的样本，重新计算元素的数量（如果同一个数字在其中重复，那么就不考虑重复的情况--只考虑1次，以后出现的情况就跳过）。但是，哪里能保证原始数据库所包含的元素不超过我们所能重新计算的？概率就是概率。我们将不得不制作大量的样品。而结果只会被验证（无论我们做了多少个样本）--总会有一个概率，即至少有1个元素不包括在任何样本中....。

Sceptic Philozoff 2010.07.22 22:14 #3825

说实话，我不明白这个想法。如果这些数字是自然数的平方，即1，4，9，...，625呢？X等于什么？

又如何从一个比原始人口大的 "样本 "中估计出来？

你能暗示一下实际应用吗--它的用途是什么？

Nazariy Stapyak 2010.07.22 22:50 #3826

drknn:

哇，这个问题完全可以解决吗？

只要第一个基数没有重复，你就可以到后续的选择中去重新计算元素的数量（如果相同的数字在其中重复，那么重复就不计算了--只计算1次，进一步出现的就不计算了）。但是，哪里能保证原始数据库所包含的元素不超过我们所能重新计算的？概率就是概率。我们将不得不制作大量的样品。而结果只会被验证（无论我们做了多少个样本）--总会有一个概率，即至少有1个元素不包括在任何样本中....。

是的，当然是这样)

所以这就是为什么我说"概率"....，所以答案应该是这样的：基数100000-110000，概率97%....。而如果我们做30万个样本，我们有95%的概率是90%的基数。

Nazariy Stapyak 2010.07.22 22:54 #3827

Mathemat:

说实话，我不明白这个想法。如果这些数字是自然数的平方，即1，4，9，...，625呢？X等于什么？

而我如何从一个比原始人口大的 "样本 "中估计它呢？

你能给出一丝实际应用的提示吗--它是用来做什么的？

我向服务器发送查询，作为回应，我从数据库中得到10个随机的用户ID。在这里我想同时解决这样一个问题，那就是知道至少有多少个ID，以及要发送多少个查询)

zy.我现在有400000个ID。

Prival 2010.07.22 23:12 #3828

WWer:

你好，谁能解决这个问题？）。

有一个不同数字的基数。从中随机选择数字并形成另一个基数（即已经有数字可以重复）。你可以随心所欲地选择，但这是对资源和时间的浪费。

你需要从新基数中确定（概率上（例如2sigma））第一个基数的大小。

+ 如果能计算出应该做多少个样本才能得到至少90%的一垒，那也是很好的。

样本的MOJ乘以2

Nazariy Stapyak 2010.07.22 23:12 #3829

Prival:
从样本中确定OLS并乘以2。

什么的OLS？

Prival 2010.07.22 23:22 #3830

WWer:
什么的MOS？

你已经从一个基数中选择了100个数字，如果基数是从1到....。X的顺序。那么这100个数字中可能有*2个会是X。

matad.rnd(2000)函数生成一个从1到2000的随机数。我们取了100个i=0...100的值，用它们来计算一切。当然，结果不会是精确的，因为这个统计数字是一个置信区间--你也可以计算它，根据你需要的准确性，确定正确的样本量

[存档！]纯数学、物理学、化学等：与贸易没有任何关系的大脑训练问题 - 页 383