垂直搜索架构(爬虫部分) ------垂直爬虫

IT教程 3年前 (2020) https://www.55wd.com

垂直搜索

垂直爬虫的代码实现比较简单,主要是两方面:

1. 限定url,一般是通过正则匹配

2.限定内容,比如列表页面只要抓取详细页面的url,详细页面只要抓取特定内容,一般都是用css 选择器或者xpath的库取匹配内容

垂直爬虫的技术难点没有全网爬出那么多,主要要解决的是反爬的问题.

针对性的做几个项目的垂直爬虫,你就慢慢形成了你自己的垂直爬虫框架,有了自己的任务管理,数据集存储,基本的数据处理器,实现了一些通用的采集器,这样有新需求的时候就比较简单了,对于垂直采集来说就是设置设置URL规则,写些解析页面的脚本代码.

以上是自己写了几个垂直采集系统的经验之谈,欢迎一起探讨

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

在垂直搜索的索引建立之前,我们需要到垂直网站上抓取资源并做一定的处理。垂直搜索与通用搜索不同之处在于,通用搜索不需要理会网站哪些资源是需要的,哪些是不需要的,一并抓取并将其文本部分做索引。而垂直搜索里,我们的目标网站往往在某一领域具有其专业性,其整体网站的结构相当规范(否则用户体验也是个灾难,想想东一篇文章西一篇文章基本没人会喜欢),并且垂直搜索往往只需要其中一部分具有垂直性的资源,所以垂直爬虫相比通用爬虫更加精确。

通常把爬虫爬取资源分成三个步骤:url-crawling(链接抓取),detail-crawling(详情抓取),format&fusion(规整与聚合),以下是整体垂直搜索的架构及流程图:

垂直搜索架构(爬虫部分) ------垂直爬虫

初次爬取:

1.首先运营人员会选定需要抓取的目标网站,录入数据库的站源表sitelist,然后url crawler会读取出来存入map,并提出对应站点的正则解析规则。

2.根据事先制定的url列表页正则表达式,url crawler到列表页爬取列表并提取出来存入资源url表urllist,当中涉及一些列表页分页功能,具体视每个网站分页url规则而定。

3.info crawler从数据库的资源url表读出urls及其资源页的xpath规则,存入一个同步的队列中(一般做法会将url做md5处理,用于去重,以免重复爬取相同url,浪费资源),多线程下的每个爬虫程序将从此队列读取urls(若队列为空线程将进入等待),然后爬取每个资源页,并根据xpath规则提取有价值的资源(xpath用法详见xpath解析),并将提取的资源存入原始数据表originalresource。

4.format crawler从数据库原始数据表提取数据,进行进一步的规整、聚合(例如做一些资源分流下载服务器,会从目标网站爬取资源文件存入自己的文件服务器中),最终存入规整内容表中。

5.现在资源就可以被线上应用使用了。

更新爬取:

1.根据每个站点设定的url失效时间,定期的从数据库抽取需要更新的资源url,加入步骤3的队列中,进行资源爬取,并比较一些能鉴别资源是否有更新的字段(例如应用软件资源,可比较版本号)。

2.爬取的资源更新到数据库中。

以上就是垂直爬虫的工作过程,为什么要分成三步走呢?这样能够将风险分化,不至于某个地方错了,必须整个重来。维护爬虫最耗费人工的地方就是当今网站的反爬虫策略已经日趋成熟,其实爬取资源的过程,就是与整个互联网形形色色的反爬虫策略做博弈的过程,这个会在之后的博客中详说。

垂直在线旅游新玩家入场,抄综合平台商后路?

我对于综合平台做旅游电商不是不看好,而是觉得创新不足,仍然是一味地拼杀价格,在内部作为一个部门很难做到精细化运营,最终也就没办法

网盘资源搜索

https://blog.csdn.net/qq_41455420/article/details/78984076 https://blog.csdn.net/aaronthon/article/details/81714455

Facebook的搜索和Google的搜索有什么不同?

终于,Facebook 自己开始做搜索了,但是却是以一种完全不同于 Google 的方式来做。Facebook 压根没打算做一个比 Google 更好的搜索引

寡头时代,垂直电商哀鸿遍野

寡头时代已然形成,强者恒强,弱者更弱,综合电商想从巨头手中分一杯羹尚且不易,而对于垂直电商来说,更是哀鸿遍野,一地鸡毛。“纯电商已经

爬虫实现:根据IP地址反查域名

域名解析与IP地址 域名解析是把域名指向网站空间IP,让人们通过注册的域名可以方便地访问到网站的一种服务;IP地址是网络上标识站点

文章回顾

大家看了本文垂直搜索架构(爬虫部分) ------垂直爬虫的精彩教程资源内容,是不是对垂直搜索架构(爬虫部分) ------垂直爬虫了解更多,真心希望垂直搜索架构(爬虫部分) ------垂直爬虫能帮助到你, 小编会一直给你带来更多教程资源文章信息。

版权声明: 发表于 2020-12-05 23:43:36。

本文由第三方用户分享仅代表作者观点,不代表本网站立场,秉承互联网开放分享的精神,目的在于传递更多信息,加强各行业互通交流,但对内容不作任何保证或承诺,请读者自行参考斟酌。网站发布的信息(包含但不限于版式、图片、字体、文章等素材)由第三方用户分享,版权归原作者所有,本站不承担任何相关的版权纠纷等相关责任。如您认为本篇内容侵犯了您的权益,请与我们联系,我们会及时处理。

豌豆资源网专注分享全网综合资源网站大全,致力于超实用的内容资源搜索。

转载请注明:
本文标题:垂直搜索架构(爬虫部分) ------垂直爬虫
本文地址:https://55wd.com/s181846/