这是一个复杂的描述。对列进行排序，然后将其分成 32 份，例如，如果有重复，那么所有的重复都会被扔进量子中。如果列中只有 0 和 1，那么就会有 2 个量子，而不是 32 个（因为有重复的）。
你指的是方法，而我指的是目标。方法可以不同。让我这么说吧--经验方法往往比数学方法更好。也许是因为我们没有一般样本的完整数据。
从根本上说，树是根据每个预测因子分别建立的。
没错，C4.5 树就是这样为离散值构建的。一次分割
对于非平稳数据，根本没有 "主样本 "的概念，只有尾数。这就是问题所在，这也是为什么从训练中得到的任何估计值在未来都极难获得的原因。
我们不知道。更确切地说，我们不知道分布的真实密度，我们只能观察摘录--这就是为什么会出现这种波动......
我不是靠概念生存的:)
那么，请告诉我，这种我们无法观察到的现象是如何产生的，因为我们正处于它的产生过程中，而它早已在遥远的太空中完成了....。
没错，桑桑尼奇。
非平稳数据总是受到其他非平稳 数据的累积影响。尾数将取决于此。
描述数据的预测值范围。
我在这里 对算法进行了实际描述--还有一张 RSI 的图片。
我明白了，把所有东西都分开，单独研究。我不明白为什么它们是量子。
我不明白为什么是量子。
因为这孩子不守规矩，他写道）。
嗯，可能是翻译的问题。术语。
有量子化及其不同的方法，包含分割点的表格--量子表格--已经来自 CatBoost 指令。
量子段 - 来自量子表，但极端的量子段是有限制的。这已经是我的发明了。
不是量子的，可能是量化的，就像这里。
5.4 卷积神经网络的量化
通常，由于明显的优化困难，在对神经网络进行量化时，我们不会只使用整数，而是通过整数对浮点数进行近似。 谷歌 GEMMLOWP 库[59]中提出的算法是文献[52, 54, 60]中广泛使用 的一种通过任意深度整数逼近浮点数的方法。输入数组𝑋、边界值[𝑣,𝑣]、位数𝑀，结果定义如下：
𝑠𝑐𝑎𝑙𝑒=(𝑣 - 𝑣)/2,(14) 𝑧𝑒𝑟𝑜_𝑝𝑜𝑖𝑛𝑡 = 𝑟𝑜𝑢𝑛𝑑(min(max(-𝑣/𝑐𝑎𝑙𝑒, 0),2)),(15) 𝑜𝑢𝑡𝑝𝑢𝑡 = 𝑟𝑜𝑢𝑛𝑑(𝑋/𝑠𝑐𝑎𝑙𝑒 + 𝑧𝑒𝑟𝑜_𝑝𝑜𝑖𝑡𝑛)。(16)
因此，对于每个浮点数数组，我们可以得到一个整数数组 𝑜𝑢𝑡𝑝𝑢𝑡𝑝𝑢𝑡 , integer 𝑧𝑒𝑟𝑜_𝑝𝑜𝑖𝑛𝑡，准确表示零，是一个双精度𝑠𝑐𝑎𝑙𝑒数，定义了量化的尺度。
https://dspace.susu.ru/xmlui/bitstream/handle/0001.74/29281/2019_401_fedorovan.pdf?sequence=1&isAllowed=y
我告诉你，这只是个翻译问题--它们都是同义词。下面是 CatBoost 的设置。