2007-07-20

url排重

http://blog.csdn.net/oyd/archive/2007/07/19/1699237.aspx---原网址 我这里介绍一个极适合大量URL快速排重的方法 ,这个算法被称为Bloom filter,基本上,它也只适合这样的场合。 这里的大量是指有5000万至1亿的URL,更大的数据量可能也不合适了。 一开始我使用了一个最复杂的做法,是有一个单独的daemon程序负责排重,数据和排重结果通过socket传输。 后来发现不行,仅仅几百万数据要做好几个小时,5000万不把人都急疯了?至于daemon中具体用什么算法就次要了,因为一涉及到网络通讯,速度再快也被拉下来( ...