由于面试实习的时候都需要一个能证明自己的代码,于是翻来覆去找不到一个合适的,那就自己重新写一个吧,就打算写一个爬虫框架,大概设计了一下。

我的爬虫结构

爬虫就叫DSpider吧,DSpider主要又4部分组成。最初的设计是一个包含配置的爬虫文档,任务调度模块获取配置分配任务,交给下载器获得服务器返回的html数据,再转交给解析器获得需要的数据,然后将数据发送给数据处理模块进行存储分析等操作。

基本就这个样子,开始动手了。