WordPress自动采集Crawling插件 wordpress插件下载一万五源码

当前位置：首页 > 网站插件 > wordpress插件 > WordPress自动采集Crawling插件

[源码类型]：wordpress插件

[相关推荐]：采集插件 wordpress采集

[文件大小]：

[下载权限]：1金币 / VIP会员

立即下载

源码介绍

此wordpress插件的编码为GBK/UTF，适用版本wordpress4.0.x，其他版本自行测试。插件大小：438KB

Crawling插件说明

简单设置，轻松几步设置即可全站采集，定时更新。分类、标签自动匹配，内容批量替换。

高速采集，可设置抓取线程数和抓取延时，最大限度控制抓取速度。防止主机商限制，防止反爬虫。

内容过滤，支持翻页、内容过滤、广告过滤。灵活控制抓取内容，发布文章干净简洁。

智能发布，支持文章图片自动保存替换，添加到媒体库同时链接到文章。支持上传至七牛云。

Crawling插件使用教程

首先，下载最新版，得到crawling_v*.tar.gz。然后，解压压缩包，上传到wordpress插件目录。激活插件。

首先我们需要新建一个任务，一个任务可以理解为一个爬虫，在这里你可以配置多个任务，每个任务可以单独设置参数。

以采集菜鸡源码网站为例，这里只需要右键查看网页源代码，即可知道相应的链接 Xpath 规则是如何的，在我们目标网站中，文章的链接在网站 h2 标签下的 a 标签，所以规则就写//h2/a，即可。如下图所示。

同理，文章标题匹配方式为文章页源代码中<div class=”post-main clearfix”>标签下的 h1 标签，那么我们匹配的时候按照 Xpath 规则，写为//div[@class=”post-main clearfix”]/h1 即可，@的作用是选中 class=”post-main clearfix”的 div 标签，按照这样的规则，再将文章内容匹配的标签规则写上，即可开始采集。