今天是第一天,简单的写了爬虫的框架结构:

─com
    └─nickzy
        └─dspider
                DataParser.java    #原始数据解析
                DataSolver.java    #价值数据处理
                Downloader.java    #下载器组件
                FinishQuee.java    #历史访问的地址集合
                FunctionKit.java   #静态方法类
                RunSpider.java     #测试类
                Spider.java        #爬虫定义类
                TaskHandler.java   #任务调度
                UnreadQuee.java    #待访问地址队列

TaskHandler.java:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
package com.nickzy.dspider;

/**
 * @author zynick
 *
 */
public class TaskHandler extends Thread{
    public TaskHandler(Spider spider){
        UnreadQuee.addElem(spider.getStart_url());
        start();
    }

    @Override
    public void run() {
        System.out.println("一个线程开始...");
        String content = Downloader.getContentFromUrl(UnreadQuee.outElem());//调用下载器
        String data = DataParser.dataParser(content);//解析下载到的内容
        DataSolver.dataSolver(data);保存解析后的内容
        
    }
    
}

RunSpider.java

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
package com.nickzy.dspider;

public class RunSpider {

    public static void main(String[] args) {
        Spider spider = new Spider();
        spider.setStart_url("http://localhost:8080/test.html");
        TaskHandler th = new TaskHandler(spider);


    }

}

功能测试成功。