火车头采集器使用教程–分析目标网站文章链接位置及规则

上一篇文章我们批量添加了他列表页的地址。

下面我们要从列表页分析出来他文章的地址。

首先看下,在列表页里面他的文章链接都在我红线画出的部分。

QQ截图20200319224133

然后我们就可以从画出这部分里面的代码找到地址,我们看一下

是在server-r2这个div里面

注:我用的是浏览器带的调试功能,直接按键盘F12就出来了。

QQ截图20200319224341

我们查看网页源代码,浏览器按CTRL+U即可

CTRL+F搜索server-r2,可以看到只有一个结果,没有其他重复项

QQ截图20200319224632

那么这个就可以作为我们火车头采集器自动从列表页分析文章链接的开始部分了。我们复制server-r2,填入火车头的开始字符串那里,意味着火车头从这一段开始寻找文章链接。

QQ截图20200319224919

然后我们还要确定下结束字符串位置

直接看下列表页最后一个文章是啥

QQ截图20200319225210

然后再源码里面看看这个文章在哪个位置

QQ截图20200319225431

找到了位置,我们尽可能在他下面找下一个DIV开始的标记。这里我们找到了

<div class=”cp-manu” style=”margin-top:14px”>这个DIV,我们复制class=”cp-manu” style=”margin-top:14px作为火车头的结尾字符串

QQ截图20200319225619

其实这时候已经可以查找到准确的文章链接了,但是我们最好还是加一个过滤

在连接过滤–必须包含里面填入.html这个内容,然后回车键即可。想添加更多条内容就在输入过滤规则,再回车。

后面那个设置图标点一下可以选择:满足其中一个条件或者满足所有条件。

以上基本完成了我们采集文章链接的规则,我们点一下下方的保存,先存一下。

如果你是新建任务规则可能提示你要输入任务名

QQ截图20200319230030

然后我们点保存上面的:网址采集测试

看看链接采集有没有问题

因为是测试,我们点进去后他很快会采集很多列表页,我们点击停止,不需要采集这么多,现在还是测试。

点击左侧的加号,展开链接,看看链接对不对,是不是文章的链接地址。

然后发现了第二个有个地址跟其他的不一样,直接鼠标放上去点下右键,可以复制网址,打开看看是不是文章地址就行了。是的话就没问题

从这一步也可以看到我们上面说的过滤规则的重要性,很多时候你会采集到无关的地址,或者是过滤掉了正确的文章地址。

QQ截图20200319230423

我们可以开始设置内容采集了,请看下一篇文章。

其他教程

火车头采集器使用教程–批量添加目标网站列表链接

2021-8-4 16:07:27

其他教程

火车头采集器使用教程–分析目标网站要采集内容的位置及规则

2021-8-4 16:10:13

无法充值请加客服QQ2663325096人工充值
24小时自助充值教程QQ2663325096人工充值
版权声明 本站所发布的一切与破解相关的文章仅限用于学习和研究目的,请在下载后的24个小时之内,从您的电脑中彻底删除。所有资源均来自于网络,不得用于商业或者非法用途,否则一切后果请用户自负。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索