Dspider出生了

今天是第一天,简单的写了爬虫的框架结构:

─com

└─nickzy

└─dspider

DataParser.java #原始数据解析

DataSolver.java #价值数据处理

Downloader.java #下载器组件

FinishQuee.java #历史访问的地址集合

FunctionKit.java #静态方法类

RunSpider.java #测试类

Spider.java #爬虫定义类

TaskHandler.java #任务调度

UnreadQuee.java #待访问地址队列

TaskHandle......

5天开发爬虫框架

由于面试实习的时候都需要一个能证明自己的代码,于是翻来覆去找不到一个合适的,那就自己重新写一个吧,就打算写一个爬虫框架,大概设计了一下。

我的爬虫结构

爬虫就叫DSpider吧,DSpider主要又4部分组成。最初的设计是一个包含配置的爬虫文档,任务调度模块获取配置分配任务,交给下载器获得服务器返回的html数据,再转交给解析器获得需要的数据,然后将数据......