爬虫管理系统---构思

基于crawlerMan标准化的入库的实现我们还可以进一步的对入库的文件类型,数量,以及抓取进度做进一步监控、控制。由此爬虫管理系统应运而生。

爬虫管理系统为了实现抓取过程的可见与可控,就需要实时的记录抓取的进度。我们通过crawlerLog这张表来记录爬虫的实时情况。

初步拟定以下几个属性,后期逐步完善该表。

 

图片.png

 

 

crawlerLog

                      图片.png

 

监控功能实现

爬虫每次启动在crawlerManrun方法里,开始创建CrawlerLog表,首次建立时status值默认为1urls为文件总数。在run方法里的遍历urls的同时检测status的值当status值为1时才执行爬取,为0则停止该爬虫的抓取。每次importData时,增加successnum的数值,相应的在importArticleimportImageimpoertVideo时增加ArticlenumImagenumvideonum的数值。

 

管理页面

我们为爬虫管理系统创建视图,视图层显示crawlerLog表里的所有详细信息,并提供停止按键,触发停止功能则修改该爬虫的status值为0.

 

问题:

我比较担心的是这个过程中访问数据库过于频繁。希望大家指点。对这个爬虫管理系统的构思有更多见解的老铁,希望畅言。

日记本

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

赞赏支持
被以下专题收入,发现更多相似内容