赶集网电话号码采集方法

赶集网个人信息的电话号码是图片形式,在采集时要识别为数字,使用OCR方法效率低,准确率低,这里介绍一个简便的方法,可以直接采集到电话号码。

 

赶集网的电话号码在电脑浏览器里显示为图片,见下图红框:

 

和上图相同的信息,在赶集网的WAP网站里电话号码是文字,见下图:

 

这一条信息的WAP网址是:http://wap.ganji.com/bj/fang1/1574715802x?pos=2&url=fang1&agent=1&d=a1/&pageSize=10&page=1&tg=2.1&gjaddata=FVbVcPv1uQoLQL4Mp88rBkqn92DUi8dckRt15vhOKrQ%3D

 

这条网址可以简化为:http://wap.ganji.com/bj/fang1/1574715802x?pos=2&url=fang1&agent=1&d=a1/&pageSize=10&page=1

 

其中,只有1574715802这个数字是随不同信息而变动的,其他都是固定的字符串,而1574715802这个数字就是赶集网的信息编号。

所以,我们可以通过ET的“采集页”功能,在采集电脑版网站时,合成这个WAP网址,就可以轻松采集到电话号码。

 

下面演示了ET的相关设置。

首先,我们新建数据项【电话号码】,并设置它的采集规则,注意,它是从WAP网页里采集的

 

然后,设置采集页,添加一个【WAP页】。

在【内容页】里,我们通过【下级页面网址规则】采集到信息编号,并在【下级页面网址合成】中用它合成为可用的WAP网址。

 

在【WAP页】中,我们选择【电话号码】这个数据项和它关联即可。