如何只采集列表页面的内容

有时候,我们只需要采集一些列表页面的内容,例如我们想采集百度的某个关键词搜索结果,而我们只需要 标题、网址或简介等内容。又或者我们想采集的是一个短信栏目,它的列表页上就包含了我们需要的短信内容。

 

一、

如果我们希望列表上的每一条内容都单独发布,那么如下配置采集规则:

 

1、按正常的采集配置列表设置中的列表网址、自动列表、列表区域;

 

2、列表分析规则,如果采集的列表内容没有网址,就用 文章地址标记任意采集一个字符串;如果在标题、网址之外我们还需要采集其他内容,例如简介,我们可以利用缩略图标记来采集它;

 

 

3、文章网址合成,这里随便填一个访问速度快的网址,本地硬盘的文件也可以,将文章地址标记作为一个无用的参数跟在网址后面(因为文章地址标记必须使用,所以这一点很重要);

 

 

4、数据项不设置“数据项采集规则”,按需要设置 数据整理即可;

 

5、最新版的数据整理中有[列表数据]标记,可以引用从列表中获取的标题、文章网址、缩略图等数据,因此,我们可以新建数据项,在它们对应的数据整理中引用 标题、文章网址、缩略图等数据,将它们分解或合并为我们要发布的内容,下面图示将缩略图数据赋值给正文数据项。

 

(1、正文数据项的采集规则填任意文字)

 

(2、在正文的数据整理中使用列表数据标记)

 

(3、使用参数标记,将正文数据项的内容替换为列表的缩略图内容)

 

5、其他同一般采集规则;

 

6、发布规则中,我们应注意数据项名称和发布参数名的正确对应;

 

 

 

这样,就可以将列表中的内容,逐条采集,逐一发布了。

 

二、

如果我们需要采集的内容一次性发布,那么如下配置采集规则:

 

1、列表网址,随便填一个访问速度很快的网页,或者填一个本地txt文件地址;

 

2、自动列表、列表区域不用设置;

 

3、列表分析,针对列表网址所填的地址的内容设置一个简单的规则,要使用文章地址标记,文章地址标记的分析结果可以是任意内容,因为它不会被使用,但这个分析规则必须有效,最好文章地址标记只匹配一个结果(如果有多个结果,可以在采集配置-基本设置里设置采集条目数量为1条);

 

4、文章网址合成,在这里填上你要采集的列表页网址,将文章地址标记作为一个无用的参数跟在网址后面(因为文章地址标记必须使用,所以这一点很重要);

 

5、用正文数据项和其他数据项采集列表中的每条内容即可,可以全部包括,也可以选择匹配多条;

 

6、如果有多个列表网址,可以用正文分页来设置采集;

 

7、其他配置同一般采集规则;

 

这样配置后,整个列表会作为一篇文章发布。