众所周知,Java中如果用String的hashcode作为key,将String保存到HashSet中,这样做是不太可靠的。原因就在于,String的hashcode有可能会重复。比如有这样一个场景,一个网络爬虫需要将所有爬取过的URL保存下来,以便于判断新获取的URL是否已经被访问过,这时就需要有一块内存空间来保存URL,或是保存能够唯一标识URL的ID,比如URL的MD5值或hashcode。如果用hashcode作为URL的ID进行保存的话,当然肯定会比较省内存,但是它带来的一个问题就是,URL通常比较长,其hashcode重复的可能性比较高(我测试了20w个真实的网站URL,结果hashcode重复了2~3个)。一旦出现hashcode重复,这就意味着后面得到的URL会被当成之前访问过的URL,从而被丢弃掉,如果这是一个比较顶层的URL,那也就意味着,可能有大批的子URL无法被获取。这样的话,爬虫爬取的内容肯定是很不完整的,某些情况下,这是无法容忍的。
String.hashCode()方法的算法如下:str.charAt(0) * 31n-1 + str.charAt(1) * 31n-2 + ... + str.charAt(n-1)
据说算法中31这个数字是对英文字符进行优化后产生的一个最佳数字,但是碰上字母大小写或是一些特殊字符,再或者是中文字符,它就不灵了,很容易重复,举个例子:
"Aa" = 'A' * 31 + 'a' = 2112
"BB" = 'B' * 31 + 'B' = 2112
要想hashcode不重复,一个简单的做法就是扩大hashcode的取值范围,由原来4个字节的int型,变为8个字节的long型,这样算出来的hashcode重复率大大降低,低到几乎可以忽略不计。以下是改进后的hashcode算法:
static final long[] byteTable = createLookupTable();static final long HSTART = 0xBB40E64DA205B064L;static final long HMULT = 7664345821815920749L;private static final long[] createLookupTable() {long[] byteTable = new long[256];long h = 0x544B2FBACAAF1684L;for (int i = 0; i < 256; i++) {for (int j = 0; j < 31; j++) {h = (h >>> 7) ^ h;h = (h << 11) ^ h;h = (h >>> 10) ^ h;}byteTable[i] = h;}return byteTable;}public static long hashCode(CharSequence cs) {long h = HSTART;final long hmult = HMULT;final long[] ht = byteTable;final int len = cs.length();for (int i = 0; i < len; i++) {char ch = cs.charAt(i);h = (h * hmult) ^ ht[ch & 0xff];h = (h * hmult) ^ ht[(ch >>> 8) & 0xff];}return h;}
不过该方法有待测试验证。。。
本文发布于:2024-01-30 13:50:50,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170659385420448.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |