1.ZCMS中的Web采集

　　ZCMS中的Web采集功能是一个易用的功能强大的基于模板的内容采集和提取工具，支持自动采集文章列表分页、ASP.net分页采集、自动采集URL转向后的内容、自动识别内容编码、自动识别网页修改日期、多线程采集、多层级URL采集等特性，并支持使用代理服务器和URL过滤、内容过滤。

　　采集完成后，ZCMS将根据匹配块中的规则，提取文章的标题、内容等信息，并自动添加到指定的栏目，以便于编辑人员进一步利用。

2.填写采集基本设置

　　切换到“数据通道”下的“从Web采集”菜单下，点击“新建”按钮，可以增加新的采集任务，如下图所示：

　　其中：

　　采集类别为文章采集时，采集程序直接将网页转化成ZCMS中的文档；如果是自定义采集，则只采集数据，不进行转换，需要开发程序去读取采集回来的文本，并进行处理。自定义采集只用于ZCMS的二次开发。

　　发布日期格式表示从网页内容中提示出来的发布日期的格式，与JAVA中的日期格式一致，以y代表年，M代表月，d代表日，h代表小时，m代表分，s代表秒。

　　采集选项中的“下载远程图片”被勾选的话，采集程序会自动将内容中的图片下载到ZCMS服务器，并替换内容中的图片地址。

　　采集选项中的“去掉内容中的超链接”被勾选的话，则采集程序会自动将内容中所有超链接变成纯文本。

　　采集到此栏目表示采集后的文档存放到哪个栏目。

　　内容页最大采集数表示本任务最多采集多少个文章内容页。

　　列表页最大采集数表示本任务最多采集多少个文章列表页。

　　采集线程数表示同时进行采集的线程个数，此数值越大，则采集速度越快，占用带宽也越多。一般情况使用1个线程即可，最多不超过30个。

　　超时等待时间表示如果目标网页所在服务器忙时，采集程序等待的秒数。默认是30秒，一般不应超过120秒。

　　发生错误时重试次数表示如果目标服务器没有响应或者响应出错，采集程序重试的次数。

　　如果ZCMS所在服务器不能直接访问互联网或者目标网页必须通过特殊代理才能访问，则需要勾选“使用代理服务器”选项，并填写代理服务器的地址、端口、用户名以及密码。

3.填写URL规则

　　填写完基本设置后，即可开始填写URL规则，以新浪新闻中为例，可以按如下步骤进行：

　　1）填写起始URL，将新浪新闻列表页URL填写如下图所示：

　　2) 填写下一层级URL

　　通过观察列表页中的新闻链接，发现大部分新闻链接URL都和下面这个类似：

　　http://news.sina.com.cn/s/2013-04-25/140926945423.shtml

　　我们将此URL转化为URL通配符，如下所示：

　　http://news.sina.com.cn/s/${A}/${D}.shtml

　　其中${D}表示此处允许是数字，${A}表示允许是任意字符。

　　但有一部分新闻链接URL不符合此规则，例如：

　　http://news.sina.com.cn/s/p/2013-04-19/100826876358.shtml

　　我们将此URL也转化为URL通配符，如下所示：

　　http://news.sina.com.cn/s/p/${A}/${D}.shtml

　　然后点击按钮“增加URL层级”，并将上述两上URL通配符填入下一层级的文本框中，如下图所示：

　　3) 如果列表页不能直接到达文章内容页，则可能需要填多个层级的URL。整个URL处理的流程是：首选采集起始URL（起始URL可以有多个），然后分析起始URL采集回来的HTML文本中的所有链接URL，一一和2级URL通配符比较，如果URL和2级URL通配符中有一个符合则将其采集。待符合条件的所有2级URL采集完后，从2级URL采集回来的HTML中再次提取所有链接URL，一一和3级URL通配符比较……，直到最后一级URL。

　　4) 有时候要求过滤掉一部分URL，则需要勾选“URL过滤”选项，并填写过滤表达式，其规则和普通URL通配符类似。采集程序会将URL和过滤URL通配符比较，如果发现和其中的一项通配符符合，则直接忽略不采集。