为什么爬虫的分页规律不同-趣分享

为什么爬虫的分页规律不同？

嗯，这个问题问的太笼统了。从问题中，我可以分析出两种问题，那就两种都回答吧

第一种是，不同网站间页面的分页规律不同

首先，不管是网站，还是接口，不管是爬网页数据，还是接口数据，这些数据都是程序员码出来的，当然，接口定义也是程序员定的。大公司有一些比较好的规范，比如分页，我定page，数据我定size，但并不是所有公司都一样的，有些叫size，有些叫limit，有些叫offset，世界各国货币还都不一样，同样，在企业里面，不同的定义是很正常的，没有统一的标准，也就是说，分页这东西，还不至于严重要需要定义国标。如果是接口还好，分析完还有一些规律，而页面呢？简单的，也和接口一样，放在params里面当成URL的参考，不过有些又喜欢放在路由页面hash里面。这些也都还好，可以通过链接看出来，有些更过分的，直接用本地缓存或常量来存，那你就得看他代码了。

第二种是，相同网站不同页面的分页规律不同

这种现在比较少，一般一个网站，如果不是多项目组的话，主程会定义统一的参数约定规范，如果实在有这种不同规则，那只能考虑是前期没有制定统一规范，或是多团队协作导致的。

还有一种是，为了防止非法爬虫，对网页代码进行了混淆，包括整站的分页代码等，这目前还是可以办到的，也是比较容易的技术。