需要帮助!无法解决这个问题，我遇到了硬件限制

Dmitry Fedoseev 2014.08.18 12:48 #61

YuraZ:

想法很清楚...

而这种方法（通过快速搜索）在行业基础上却无法得到。

一定有原因的

因为数据库已经完美地应对了搜索的任务，无需将所有数据加载到RAM中。

Eugeniy Lugovoy 2014.08.18 12:51 #62

Integer:

没有人在谈论在压缩数据中搜索的问题。我们谈论的是比较两个压缩序列的情况。

假设一个数组，"aaa"，"bbb"，"vvv"。三个阵列元素中的每一个都是独立于其他元素而被压缩的。假设我们压缩并得到数组 "a"、"b"、"c"。

我们有一个寻求的字符串 "bbb"，我们需要在数组中找到它。在搜索之前，我们对其进行压缩，得到 "b"。现在我们搜索并找到它。

我们要清楚，在你的情况下，应该是3a、3b和3c的压缩形式，因为你省略了重复的次数。

如果你认为这样的算法会带来70-80%的压缩率，你就错了。即使在俄语文本上（更不用说数字），这种方法也只会使数据膨胀。

例如，单词 "Expert "将被重新编码为 "1E1k1с1п1е1р1t"，并且不会被压缩哪怕一个比特，但会被膨胀两次。如果你省略 "1"，仍然不会有压缩。

日期和时间2014.08.18 13:45:45不会给压缩你的方式。

更不用说引言了...所以在这种情况下，这种转码的效率接近于0。这就是PCX格式中使用的所谓的RLE算法。

Dmitry Fedoseev 2014.08.18 12:53 #63

elugovoy:

1.我们要清楚，在你的情况下，应该是3a、3b和3c的压缩形式，因为你省略了重复的次数。

如果你认为这样的算法会带来70-80%的压缩率，你就错了。即使在俄语文本上（更不用说数字），这种方法也只会使数据膨胀。

例如，单词 "Expert "将被重新编码为 "1E1k1с1п1е1р1t"，并且不会被压缩哪怕一个比特，但会被膨胀两次。如果你省略 "1"，仍然不会有压缩。

日期和时间2014.08.18 13:45:45不会给压缩你的方式。

更不用说引言了...所以在这种情况下，这种转码的效率接近于0。这就是PCX格式中使用的所谓的RLE算法。

1.不是一个事实。也许数据是这样的，所有的东西都要去三次，这就是为什么它是一个如此简单的压缩算法。

其余的...哦，谢谢你，你让我大开眼界，我不知道压缩短序列的数据会增加它们的大小。

Yuriy Zaytsev 2014.08.18 12:54 #64

Integer:
因为数据库已经在做很好的搜索工作了，不需要把所有的数据加载到RAM中。

事实上，一个好的和正确设置的SQL服务器（如果你的硬件有64g和128zu，例如）

扣除操作系统的需要，几乎占据了64克的全部空间......。128г

而搜索20G的数据（预先缓存的数据）--实际上是在内存中进行的...。

这就是为什么压缩它没有意义。

--

Eugeniy Lugovoy 2014.08.18 12:55 #65

Integer:

你有点暗示了。

如何搜索，我之前写过。

首先，"暗示 "和 "断言 "是不同的概念。

第二，我的话里根本没有一丝一毫，我再说一遍对于一个源文件，会有一棵树，而对于要找到的一部分数据，会有另一棵树

而使用或多或少严重的压缩算法（任何经典的，甚至是Huffman的），你将无法进行搜索。理论上也不行。

Yuriy Zaytsev 2014.08.18 12:57 #66

Integer:
因为数据库已经在做很好的搜索工作了，不需要把所有的数据加载到RAM中。

这就是为什么在SQL数据库中放置20G的意义所在。

Dmitry Fedoseev 2014.08.18 13:00 #67

elugovoy:

首先，"提示 "和 "论断 "是不同的概念。

第二，我的话里根本没有一丝一毫，我再说一遍源文件将有一棵树，但要找到的数据部分将有自己的树。

而使用一个或多或少严重的压缩算法（任何经典的，甚至是Huffman的），你将无法进行搜索。理论上也不行。

如果你在压缩相同的数据，为什么一部分数据会有不同的树形？如果数据不同，就让它有一个不同的树。重要的是当相同的数据被压缩时，要与之相匹配。

Yuriy Zaytsev 2014.08.18 13:02 #68

Integer:
如果同样的数据被压缩了，为什么会有一部分数据的不同树形？如果数据不同，那么就让它有一个不同的树。对我们来说，重要的是相同数据被压缩时的重合性。

迪米特里 - 如果有可能的话

很久以前，他们就已经创建了一个SQL工业数据库--在良好的（80%-90%）压缩数据中进行（快速）搜索。

也可以用插入更新删除

Eugeniy Lugovoy 2014.08.18 13:06 #69

Integer:

1.这不是一个事实。也许数据是这样的，所有的东西都要走三次，因此要采用简单的压缩算法。

其余的...谢谢你让我大开眼界，我只是不知道压缩短序列的数据会增加它们的大小。

还有一个小论点，让我的眼睛睁开。任何编码都有一个目的。

有一种解压缩编码，目的是在只支持电传的通信渠道上传输二进制数据（例如通过电子邮件传输图片），通常使用基于Radix算法的Base64。

与数据校正相关的冗余编码，（如CD Aduio）其目的是尽可能地保护数据不受物理载体的损害。

压缩编码，目的 储存/归档 数据。

Dmitry Fedoseev 2014.08.18 13:09 #70

YuraZ:

德米特里 - 如果有可能的话

他们早就建立了一个工业化的SQL数据库--在良好的（80%-90%）压缩数据中进行（快速的）搜索......

要去参加第二轮比赛吗？从第5-6页开始重读。特别仔细地阅读该帖子。

不要把我的建议归咎于我。我建议比较相互独立压缩的浓缩序列。而不是一次次在单独压缩的巨大文件中寻找单独压缩的小文本。

需要帮助!无法解决这个问题，我遇到了硬件限制 - 页 7