Gecco网络爬虫 v1.3.0
收藏
举报
Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架,让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时 Gecco 基于十分开放的 MIT 开
作者:
暂无 演示网站:
暂无 当前版本:
v1.3.0 日期:
2020-11-11 相关链接:
Home Page 所属分类:
网络开发 、Java 软件评级:
下载人气:
390
源码属性
授权 | 开源 |
大小 | 239KB |
语言 | Java |
运行环境 | Java |
功能介绍
Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架,让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时 Gecco 基于十分开放的 MIT 开源协议,无论你是使用者还是希望共同完善 Gecco 的开发者,欢迎 pull request。
主要特征:
简单易用,使用 jquery 风格的选择器抽取元素
支持爬取规则的动态配置和加载
支持页面中的异步 ajax 请求
支持页面中的 javascript 变量抽取
利用 Redis 实现分布式抓取,参考gecco-redis
支持结合 Spring 开发业务逻辑,参考gecco-spring
支持 htmlunit 扩展,参考gecco-htmlunit
支持插件扩展机制
支持下载时 UserAgent 随机选取
支持下载代理服务器随机选取
付费服务
模板/插件