php dth网络节点,基于 DHT 网络的磁力链接和BT种子的搜索引擎架构

阅读: 评论:0

上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent},本文简单介绍一下主要的系统功能和用到的技术。

系统包括几个独立的部分:

使用 Python 的 Scrapy 框架开发的网络爬虫,用来爬取磁力链接和种子;

使用 PHP CI 框架开发的简易网站;

搜索引擎目前直接使用的 MySQL,将来可以考虑使用 sphinx;

新词发现机制

基于搜索关键词的新词发现机制。

目前词库方面还有一个很大的问题,比如最新的电影无法分词,例如星际穿越 会被分词为“星际”和“穿越”,因此“被偷走的那五年,穿越火线,极速蜗牛,了不起的盖茨比,摩登年代,星际迷航,乔布斯传。”也出现在了搜索结果中。

当然这也不算事大问题,但是霍比特人却被分词为了“霍”、“比特”、“人”了,好在搜索结果里面没有啥东西乱入。这些属于过度分词,通过增加词库内容可以解决,因此准备些一个豆瓣爬虫,将豆瓣的所有电影都加入词库,用来辅助分词。

资源别名

这会使我们的系统更加智能,更加人性化。我们在百度搜索时,经常会遇到这样的情况,当我们搜索“开核桃利器”,百度提示我们“您要找的是不是诺基亚?”。当我们搜索“世界上最好的语言”,百度提示我们“您要找的是不是PHP?”。同样,当用户搜索“星际穿越”时,应该为用户提供Interstellar的匹配结果。

我们不用实现复杂的在线翻译,只需要继续爬取豆瓣,将电影的中英文都做成对照表就可以了。而且,为了考虑到某些宅

本文发布于:2025-02-24 09:31:00,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/1740360694580108.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网络   磁力   节点   架构   种子
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23