当前位置:

WebSpider蓝蜘蛛网页采集 v5.1

收藏
举报
1.2. 产品主要功能特点: 可以定制采集网址与栏目 可以定制网页数据结构化解析,精准,纯数据,无垃圾 支持翻页采集、分页采集:对于列表页,支持翻页,可以抓取到所有列表页中的数据;对于正文页,可以对分页显示的内容自动进行合并。 页面深度抓取:页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页URL,然后再抓取正文页。各级页面可以分别入库 增量式数据采集:采用独特的重复数据过滤技术,支持增量式
  • 作者:
    蜘蛛工作室
  • 演示网站:
    Demo Url
  • 当前版本:
    v5.1
  • 日期:
    2009-02-16
  • 相关链接:
    Home Page
  • 所属分类:
    搜索链接 Java MySQL
  • 软件评级:
  • 下载人气:
    37092
免费下载
求购此源码
应用截图
源码详情
免费下载
联系客服/入群
源码属性
作者 蜘蛛工作室
授权 试用
大小 20.35MB
语言 Java
数据库 MySQL
运行环境 JSP/Mysql
功能介绍
1.2. 产品主要功能特点:
 可以定制采集网址与栏目
 可以定制网页数据结构化解析,精准,纯数据,无垃圾
 支持翻页采集、分页采集:对于列表页,支持翻页,可以抓取到所有列表页中的数据;对于正文页,可以对分页显示的内容自动进行合并。
 页面深度抓取:页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页URL,然后再抓取正文页。各级页面可以分别入库
 增量式数据采集:采用独特的重复数据过滤技术,支持增量式数据抓取,可以抓取实时数据,如:股票交易信息、天气预报等
 断点续采:支持断点续采,在宕机或出现异常情况后可以恢复抓取,继续后续的抓取工作,提高了系统的抓取效率
 定制采集的时间和频度
 采集状态的监控和统计
 支持多种动态和静态网页类型(如 htm/html/shtml/php/asp/jsp/ajax等)
 支持图片/音视频/流媒体/flash/doc/pdf/xls等各种附件的采集
 支持GBK、BIG5、UTF8、UNICODE等多种编码格式
 支持RSS、论坛、博客等网页采集
 支持数据入库到mysql/oracle/informix/sqlserver等多种数据库 
 支持代理服务器
 多任务多线程,采集效率高
 支持POST和GET等页面调用方式、支持unescape解码;
 支持可视化页面解析;
 支持对目标网站的登录和验证
 支持采集结果自动去重
 可以手工设置URL参数列表,支持多参变参采集
 具有二次开发接口和第三方程序调用接口
1.3. 产品主要优势:
 适用范围广:可以抓取任何网页(包括登录后才能访问的网页)
 处理速度快:如果网络畅通,1小时可以抓取、解析上万个网页
 定向采集、精确制导:只采集指定网站的指定内容,并通过网页解析,精确地分析出用户真正想要的数据项,稳准狠快。  
 动态采集:根据网页更新的频率,定义采集的时间频度,随时发现最新的数据并即时采集。  
 网络隔离:通过人工或者专用通道实现对数据的导入,保证了内外网的物理隔离。  
 信息隔离:采集的信息都存到外网采集电脑的数据库中,导出数据库时可以采用txt/xml/sql格式,将采集的信息导入到内部的数据库中,在整个过程中没有任何的其他信息介入,不能传播电脑病毒,保证信息的绝对安全可靠。
 信息资料库:通过采集数千家网站的实时信息,自动分类,实时保存到数据库中,建立内部的互联网信息资料库,通过发布系统可以对其数据库进行浏览、编辑、查询、统计等。 
 准确性高:抓取信息的准确性高,系统提供了强大的数据校验功能,保证了数据的正确性;
 易操作性:WEB操作界面,一处安装,随处使用
 策略灵活:分步解析,分步入库,配置策略灵活;
 低投入高回报:一次配置,永久抓取,一劳永逸
付费服务
模板/插件

联系客服

手机版

扫一扫进入手机版

返回顶部