火车头采集器使用教程–分析目标网站文章链接位置及规则

其他教程
21年8月4日
编辑

森西发现好东西

上一篇文章我们批量添加了他列表页的地址。

下面我们要从列表页分析出来他文章的地址。

首先看下，在列表页里面他的文章链接都在我红线画出的部分。

然后我们就可以从画出这部分里面的代码找到地址，我们看一下

是在server-r2这个div里面

注：我用的是浏览器带的调试功能，直接按键盘F12就出来了。

我们查看网页源代码，浏览器按CTRL+U即可

CTRL+F搜索server-r2，可以看到只有一个结果，没有其他重复项

那么这个就可以作为我们火车头采集器自动从列表页分析文章链接的开始部分了。我们复制server-r2，填入火车头的开始字符串那里，意味着火车头从这一段开始寻找文章链接。

然后我们还要确定下结束字符串位置

直接看下列表页最后一个文章是啥

然后再源码里面看看这个文章在哪个位置

找到了位置，我们尽可能在他下面找下一个DIV开始的标记。这里我们找到了

<div class=”cp-manu” style=”margin-top:14px”>这个DIV，我们复制class=”cp-manu” style=”margin-top:14px作为火车头的结尾字符串

其实这时候已经可以查找到准确的文章链接了，但是我们最好还是加一个过滤

在连接过滤–必须包含里面填入.html这个内容，然后回车键即可。想添加更多条内容就在输入过滤规则，再回车。

后面那个设置图标点一下可以选择：满足其中一个条件或者满足所有条件。

以上基本完成了我们采集文章链接的规则，我们点一下下方的保存，先存一下。

如果你是新建任务规则可能提示你要输入任务名

然后我们点保存上面的：网址采集测试

看看链接采集有没有问题

因为是测试，我们点进去后他很快会采集很多列表页，我们点击停止，不需要采集这么多，现在还是测试。

点击左侧的加号，展开链接，看看链接对不对，是不是文章的链接地址。

然后发现了第二个有个地址跟其他的不一样，直接鼠标放上去点下右键，可以复制网址，打开看看是不是文章地址就行了。是的话就没问题

从这一步也可以看到我们上面说的过滤规则的重要性，很多时候你会采集到无关的地址，或者是过滤掉了正确的文章地址。

我们可以开始设置内容采集了，请看下一篇文章。

火车头采集器使用教程–批量添加目标网站列表链接

2021-8-4 16:07:27

火车头采集器使用教程–分析目标网站要采集内容的位置及规则

2021-8-4 16:10:13

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

文章

评论

关注

粉丝

{{userData.task+'%'}}

嗨！朋友

所有的伟大，都源于一个勇敢的开始

公告：

没有公告

TOP1

资讯 bang.thnn
4月4日
TOP2

资讯 #林允怎敌她千娇百媚# 林允早期芭蕾写真
4月4日
TOP3

资讯 hi__821821
3月26日
No.8076 美七 [82张+1P]㊙️完整写真合集今日分享：@秀人图
3月23日
资讯 loveyu_ju 真爱粉专属
4月1日
资讯 saizneko_2
4月4日
抖娘利世Rize 感谢领导的栽培～每天上班的乐趣就是和领导
3月25日
资讯 la_vie_enrose_
3月26日
抖娘利世Rize 祝我们都能在琐碎里找到闪闪的快乐✨ @是
3月25日
轩子巨2兔女仆装我买了好多，这件最满意
3月22日
抖娘利世Rize 趁天气好的气候去野餐吧收起旋转
3月25日
抖娘利世Rize 温柔一夏
3月25日
资讯 yeonyuneko
3月26日
清水由乃手都举酸了怎么还不来抱
3月23日
资讯 _oxo00_s2 真爱粉专属
4月1日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_¥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部