1.在通道-从Web采集菜单中,点击新建,界面如下:

示例起始URL:http://story.kedo.gov.cn/story/focus

从以上列表页中点击2-3个页面,获取详细页地址。如通过http://story.kedo.gov.cn/c/2019-07-17/970116.shtml和http://story.kedo.gov.cn/c/2019-07-09/976444.shtml两个页面地址,得出详细页url路径(即截图中的二级URL地址):http://story.kedo.gov.cn/c/${A}/${D}.shtml。配置好采集到某个栏目,添加任务名称,勾选相应的采集选项,保存。

从Web采集

从Web采集

2.在1的基础上,切换至匹配块,通过以上两个页面地址,页面右击查看源码,复制出我们需要采集的部分。即下图内容:

根据采集规则替换上图中所需要部分,替换完成的部分如下:

<!-- s : 内容 -->
            <div class="main-content" id="main-content">
                <h1 class="title">${A:Title}</h1>
        <div class="sub-title"></div>
                <div class="info gray"><span>来源:${A:Source}</span><span>发布时间:${A:PublishDate}</span></div>
                <hr />
                <pre class="pre">${A:Summary}</pre>
                <div class="spacer"></div>
                <div class="content fs-16-line">
                    ${A:Content}
                  <p><a href="javascript:;" target="_blank"><img src="http://www.kedo.gov.cn/image/copyright1.jpg" alt="扫码加蝌蚪五线谱微信"></a></p>
                  <p>&nbsp;</p>
                </div>
            </div>

填写完匹配块,保存,切换至基础信息菜单,点击执行任务,进行web采集。