首页 > 编程札记 > 编程

维基百科文章爬虫和聚类：高级聚类和可视化

阅读：评论：0

维基百科文章爬虫和聚类：高级聚类和可视化

维基百科文章爬虫和聚类：高级聚类和可视化

一、说明

维基百科是丰富的信息和知识来源。它可以方便地构建为带有类别和其他文章链接的文章，还形成了相关文档的网络。我的 NLP 项目下载、处理和应用维基百科文章上的机器学习算法。

在我的上一篇文章中，KMeans 聚类应用于一组大约 300 篇维基百科文章。如果没有任何预期的标签，则只能通过检查哪些文章被分组在一起以及哪个单词最常出现来接近聚类结果。结果并不令人信服，例如有关人工智能的文章与有关太空探索的文章归为一类。

为了提高聚类结果，本文实现了三个不同的目标。首先，可视化文档矢量化结果并绘制聚类。其次，应用不同的矢量化方法。第三，使用额外的聚类算法。

本文发布于:2024-01-28 02:01:45，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/17063785154007.html

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

上一篇：程矢Axure夜话： Axure基础系列视频教程汇总贴

下一篇：catia v5法矢数据软件

标签：爬虫维基百科高级文章

留言与评论（共有 0 条评论）

推荐文章

排行榜

热门标签

我要关灯

我要开灯
返回顶部