为什么爬虫的分页规律不同

更新时间:02-07 教程 由 凛时年 分享

为什么爬虫的分页规律不同?

嗯,这个问题问的太笼统了。从问题中,我可以分析出两种问题,那就两种都回答吧

第一种是,不同网站间页面的分页规律不同

首先,不管是网站,还是接口,不管是爬网页数据,还是接口数据,这些数据都是程序员码出来的,当然,接口定义也是程序员定的。大公司有一些比较好的规范,比如分页,我定page,数据我定size,但并不是所有公司都一样的,有些叫size,有些叫limit,有些叫offset,世界各国货币还都不一样,同样,在企业里面,不同的定义是很正常的,没有统一的标准,也就是说,分页这东西,还不至于严重要需要定义国标。如果是接口还好,分析完还有一些规律,而页面呢?简单的,也和接口一样,放在params里面当成URL的参考,不过有些又喜欢放在路由页面hash里面。这些也都还好,可以通过链接看出来,有些更过分的,直接用本地缓存或常量来存,那你就得看他代码了。

第二种是,相同网站不同页面的分页规律不同

这种现在比较少,一般一个网站,如果不是多项目组的话,主程会定义统一的参数约定规范,如果实在有这种不同规则,那只能考虑是前期没有制定统一规范,或是多团队协作导致的。

还有一种是,为了防止非法爬虫,对网页代码进行了混淆,包括整站的分页代码等,这目前还是可以办到的,也是比较容易的技术。

声明:关于《为什么爬虫的分页规律不同》以上内容仅供参考,若您的权利被侵害,请联系13825271@qq.com
本文网址:http://www.25820.com/tutorial/14_2179297.html