2019独角兽企业重金招聘Python工程师标准>>>
算法如下:
1、提取网页文本。这个提取步骤不要求精确,也没办法精确,因为你面对的是未知结构的网页,所以只需要提取去掉标签之后的文本即可。
2、对提取的文本进行分词。我们使用开源的中文分词组件word分词。
3、为每一个网页建立一个词向量,向量的维度就是两个网页的不重复词的并集,每一个维度的权重就是词频TF,我们这里忽略IDF也不影响。
4、计算词向量的余弦相似度或简单共有词。
5、相似度分值超过0.5的基本上可以视为这两个网页拥有相同的内容。
算法的实现代码来自本人的rank项目:
.java
我的ITEYE()和OSCHINA()博客有很多同样的博文,主要目的是备份,这里刚好用来测试相似度检测算法的效果,从测试效果来看,相似度分值低于0.5的两篇博文,一篇是由于正文内容太少,不足以抵消干扰信息,另一篇是由于博文不是完整的内容,具体两种相似度判定情况如下所示:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
博文地址2:
博文地址1:
本文发布于:2024-01-27 18:47:32,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17063524531981.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |