1.在通道-从Web采集菜单中,点击新建,界面如下:
示例起始URL:http://story.kedo.gov.cn/story/focus
从以上列表页中点击2-3个页面,获取详细页地址。如通过http://story.kedo.gov.cn/c/2019-07-17/970116.shtml和http://story.kedo.gov.cn/c/2019-07-09/976444.shtml两个页面地址,得出详细页url路径(即截图中的二级URL地址):http://story.kedo.gov.cn/c/${A}/${D}.shtml。配置好采集到某个栏目,添加任务名称,勾选相应的采集选项,保存。
从Web采集
2.在1的基础上,切换至匹配块,通过以上两个页面地址,页面右击查看源码,复制出我们需要采集的部分。即下图内容:
根据采集规则替换上图中所需要部分,替换完成的部分如下:
<!-- s : 内容 -->
<div class="main-content" id="main-content">
<h1 class="title">${A:Title}</h1>
<div class="sub-title"></div>
<div class="info gray"><span>来源:${A:Source}</span><span>发布时间:${A:PublishDate}</span></div>
<hr />
<pre class="pre">${A:Summary}</pre>
<div class="spacer"></div>
<div class="content fs-16-line">
${A:Content}
<p><a href="javascript:;" target="_blank"><img src="http://www.kedo.gov.cn/image/copyright1.jpg" alt="扫码加蝌蚪五线谱微信"></a></p>
<p> </p>
</div>
</div>
填写完匹配块,保存,切换至基础信息菜单,点击执行任务,进行web采集。
|
所有评论仅代表网友意见