• 0点赞

  • 0收藏

下面我们要从列表页分析出来他文章的地址。

首先看下,在列表页里面他的文章链接都在我红线画出的部分。

QQ截图20200319224133

然后我们就可以从画出这部分里面的代码找到地址,我们看一下

是在server-r2这个div里面

注:我用的是浏览器带的调试功能,直接按键盘F12就出来了。

QQ截图20200319224341

我们查看网页源代码,浏览器按CTRL+U即可

CTRL+F搜索server-r2,可以看到只有一个结果,没有其他重复项

QQ截图20200319224632

那么这个就可以作为我们火车头采集器自动从列表页分析文章链接的开始部分了。我们复制server-r2,填入火车头的开始字符串那里,意味着火车头从这一段开始寻找文章链接。

QQ截图20200319224919

然后我们还要确定下结束字符串位置

直接看下列表页最后一个文章是啥

QQ截图20200319225210

然后再源码里面看看这个文章在哪个位置

QQ截图20200319225431

找到了位置,我们尽可能在他下面找下一个DIV开始的标记。这里我们找到了

<div class=”cp-manu” style=”margin-top:14px”>这个DIV,我们复制class=”cp-manu” style=”margin-top:14px作为火车头的结尾字符串

QQ截图20200319225619

其实这时候已经可以查找到准确的文章链接了,但是我们最好还是加一个过滤

在连接过滤–必须包含里面填入.html这个内容,然后回车键即可。想添加更多条内容就在输入过滤规则,再回车。

后面那个设置图标点一下可以选择:满足其中一个条件或者满足所有条件。

以上基本完成了我们采集文章链接的规则,我们点一下下方的保存,先存一下。

如果你是新建任务规则可能提示你要输入任务名

QQ截图20200319230030

然后我们点保存上面的:网址采集测试

看看链接采集有没有问题

因为是测试,我们点进去后他很快会采集很多列表页,我们点击停止,不需要采集这么多,现在还是测试。

点击左侧的加号,展开链接,看看链接对不对,是不是文章的链接地址。

然后发现了第二个有个地址跟其他的不一样,直接鼠标放上去点下右键,可以复制网址,打开看看是不是文章地址就行了。是的话就没问题

从这一步也可以看到我们上面说的过滤规则的重要性,很多时候你会采集到无关的地址,或者是过滤掉了正确的文章地址。

QQ截图20200319230423

版权声明:橙逸所提供的文章、图片等内容均为用户发布或互联网整理而来,仅供学习参考,如有侵犯您的版权,请联系我们微信:jalonw删除。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

评论信息

TOP