如果爬虫和API都会对服务器造成很大压力?
爬虫是不可控的(被动),API是可控的(主动),这点应该很容易理解。
主动开放API的目的是什么?还不是因为有利可图。比如微信、推特开放的API,是为了利用第三方应用增进用户黏性,第三方应用通过大平台也更易获取用户。既然有利可图,那也就值得花精力解决服务器的压力问题了。当然,那也是建立在第三方发出的请求是合理的基础上,如果第三方大量无意义调用API,那也是要禁止的。提问里说的推特API无限制是个假命题,推特有个get application rate limit status API,就是为了让应用知道自己当前还能发多少请求。
这个问题也可以反过来问,既然有开放API,为什么还要费力去写爬虫?无非是想爬到一些别人不愿给你的信息,或者想绕过API的访问量限制。网站的开发者面对这些情况,难道会不想反爬虫吗?