爬虫可以爬了

昨天没有写日志,基本昨天的任务是完成了单个页面获取符合正则的内容(其实是偷懒没时间写太多)。

今天更新的内容比较多,将Download类作为多线程实现类,由TaskHandler类调用,并且创建了静态变量提供线程的数目属性,可以自定义线程的数量。线程之间同步两个存储队列,避免出现死锁。

......

Dspider

经过4天课余时间,Dspider做好了,虽然没有实现很多高级功能,但是对于抓取博客站和新闻站已经足够了,也满足了我的要求。

其主要特性有:

·支持自定义多线程抓取页面

·能够自定义内容存储方式,默认使用json格式保存文件

·数据处理模块和下载器分离

下面贴上源码:

T......

Dspider出生了

今天是第一天,简单的写了爬虫的框架结构:

─com

└─nickzy

└─dspider

DataParser.java #原始数据解析

DataSolver.java #价值数据处理

Downloader.java #下载器组件

FinishQuee.java #历史......

5天开发爬虫框架

由于面试实习的时候都需要一个能证明自己的代码,于是翻来覆去找不到一个合适的,那就自己重新写一个吧,就打算写一个爬虫框架,大概设计了一下。

又一个开始

昨天总算是把博客在farbox建起来了,说实在的我真的有点强迫症,做什么事情都想要弄的非常完美,就单是从用软件来说我把windows平台的浏览器一个个都用过,总是纠结哪个更适合我。

虽然非常纠结,但是我享受这种感觉。

作为一个即将成为程序员的人,我觉得写程序就像是发明创造,良好的表达能力是必要的......