WebSpider蓝蜘蛛网页采集 v5.1
收藏
举报
1.2. 产品主要功能特点: 可以定制采集网址与栏目 可以定制网页数据结构化解析,精准,纯数据,无垃圾 支持翻页采集、分页采集:对于列表页,支持翻页,可以抓取到所有列表页中的数据;对于正文页,可以对分页显示的内容自动进行合并。 页面深度抓取:页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页URL,然后再抓取正文页。各级页面可以分别入库 增量式数据采集:采用独特的重复数据过滤技术,支持增量式
源码属性
作者 | 蜘蛛工作室 |
授权 | 试用 |
大小 | 20.35MB |
语言 | Java |
数据库 | MySQL |
运行环境 | JSP/Mysql |
功能介绍
1.2. 产品主要功能特点:
可以定制采集网址与栏目
可以定制网页数据结构化解析,精准,纯数据,无垃圾
支持翻页采集、分页采集:对于列表页,支持翻页,可以抓取到所有列表页中的数据;对于正文页,可以对分页显示的内容自动进行合并。
页面深度抓取:页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页URL,然后再抓取正文页。各级页面可以分别入库
增量式数据采集:采用独特的重复数据过滤技术,支持增量式数据抓取,可以抓取实时数据,如:股票交易信息、天气预报等
断点续采:支持断点续采,在宕机或出现异常情况后可以恢复抓取,继续后续的抓取工作,提高了系统的抓取效率
定制采集的时间和频度
采集状态的监控和统计
支持多种动态和静态网页类型(如 htm/html/shtml/php/asp/jsp/ajax等)
支持图片/音视频/流媒体/flash/doc/pdf/xls等各种附件的采集
支持GBK、BIG5、UTF8、UNICODE等多种编码格式
支持RSS、论坛、博客等网页采集
支持数据入库到mysql/oracle/informix/sqlserver等多种数据库
支持代理服务器
多任务多线程,采集效率高
支持POST和GET等页面调用方式、支持unescape解码;
支持可视化页面解析;
支持对目标网站的登录和验证
支持采集结果自动去重
可以手工设置URL参数列表,支持多参变参采集
具有二次开发接口和第三方程序调用接口
1.3. 产品主要优势:
适用范围广:可以抓取任何网页(包括登录后才能访问的网页)
处理速度快:如果网络畅通,1小时可以抓取、解析上万个网页
定向采集、精确制导:只采集指定网站的指定内容,并通过网页解析,精确地分析出用户真正想要的数据项,稳准狠快。
动态采集:根据网页更新的频率,定义采集的时间频度,随时发现最新的数据并即时采集。
网络隔离:通过人工或者专用通道实现对数据的导入,保证了内外网的物理隔离。
信息隔离:采集的信息都存到外网采集电脑的数据库中,导出数据库时可以采用txt/xml/sql格式,将采集的信息导入到内部的数据库中,在整个过程中没有任何的其他信息介入,不能传播电脑病毒,保证信息的绝对安全可靠。
信息资料库:通过采集数千家网站的实时信息,自动分类,实时保存到数据库中,建立内部的互联网信息资料库,通过发布系统可以对其数据库进行浏览、编辑、查询、统计等。
准确性高:抓取信息的准确性高,系统提供了强大的数据校验功能,保证了数据的正确性;
易操作性:WEB操作界面,一处安装,随处使用
策略灵活:分步解析,分步入库,配置策略灵活;
低投入高回报:一次配置,永久抓取,一劳永逸
WebSpider蓝蜘蛛网页采集下载地址 已被下载37092次
付费服务
模板/插件