CMS自带采集体验系列之齐博CMS v7.0

作者:azha hihi 来源:ChinaZ源码报导 浏览: 2012-4-28 14:25:48 字号:
[摘要]各大CMS为方便个人站长们在建站初期给网站填充内容,都会内置一个采集模块。网站采集的规则大致相同,但每个CMS系统自带的采集模块又各有特点,今天小编将给大家带来齐博CMS v7.0自带采集模块的体验过程,并总结特点。

  CMS自带采集体验系列文章已做了三期:

  CMS自带采集体验系列之PHPCMS V9

  CMS自带采集体验系列之DedeCMS v5.7

  CMS自带采集评测系列帝国CMS v6.6

  今天的第四期我们来体验下齐博CMS的自带采集,齐博CMS前身是“龙城”于大学期间也即2003年所创建的PHP168网站管理系统,于2010年12月1日更名为齐博软件。自2003年10月V1.0版本面世至今,经历了多个版本的升级换代,现已发展到最为成熟的“核心+模块+插件”的架构体系,成为国内领先的开源PHP系统。涉及电子政务、媒体新闻门户、大型企业信息化、电子商务B2B等高端互联网应用,已为数以万计的免费及收费用户提供应用平台。

  同样,今天我们来体验下齐博CMS整站系统的自带采集的文章采集和组图采集功能。目标网站与之前文章的也还是一样,比较好做对比。

  一、文章采集

  1、标题和URL采集

  采集目标网站:http://roll.tech.sina.com.cn/internet_chinalist/index.shtml

  规则名称任意填写,所属分类也可任意,不影响内容的采集。

  列表网站同样是有两种添加方式,一种手动输入多页,另一种有规则的连续多页,分析目标站的列表页网址可以得到列表页的规则,用[page]代替变化的数字就可以了,所以我们选择“有规则的连续多页”并填入http://roll.tech.sina.com.cn/internet_chinalist/index_[page].shtml,然后填上开始、结束页码以及每一次变化的梯度。(小提示:在整个采集设置过程中,所有的通配符都无需手动填写,可以通过鼠标点击旁边官方说明中的通配符自动复制,你只需直接粘贴即可)

  同时齐博也考虑到了有些网站列表页第一页的网址规则是不符合整体变化规则的,所以后面有一个文本框可填写无规则的第一页。我们的采集目标第一页是符合整体规律的,所以留空。

  采集内容页地址和内容页标题。齐博CMS自带采集与众不同的地方:采集标题并不是在内容页采集,而是在采集列表页中的文章url的同时也直接把锚文本文字采集为标题。你只需定义一下这个指向内容页的锚文本规则就可以了。其中{url=*}代表标题网址通配符,{title=*}代表标题通配符,{*}代表不需要的内容通配符。分析我们的目标站可以得到规则为:

<li><a href="{url=*}" target=_blank>{title=*}</a><span class="c_date">{*}</span></li>

  其实这样的设计有点小瑕疵,比如有些网站为了让列表页更美观,会限制列表页标题的字数,然后控制文章的双标题中的副标题字数让其显示在列表页,而主标题出现在内容页。

  接下来可以勾选“显示不常用的高级设置”来对采集网址进一步设置,其实有几个功能也还是比较常用的,比如链接中不能包含或者必须包含的字符设置,在过滤干扰链接的时候也很常用。另外其他的替换标题字符、链接字符、指定截取区域等可以看页面左边的说明,开头结尾正则语法这个设置对使用者的要求比较高,如果你不熟悉PHP的话请慎用。

  设置好后,点击“测试采集标题”

  如图,我们采集到内容页地址以及对应的标题。然后关闭测试页,点击“下一步”设置内容采集规则。

共5页 首页 上一页 1 2 3 4 5 下一页 尾页
快捷键使用:上一页“←”,下一页“→”
sssss
Tags: 自带采集   齐博CMS采集   php168采集   齐博  
责任编辑:qjt198895
编辑推荐排行