网站上的历史数据可以通过爬虫获取吗？-趣分享

首先了解下网络爬虫的基本工作流程：

1.先选取一部分精心挑选的种子URL；

2.将这些URL放入待抓取URL队列；

3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

由此可见，你要的数据要通过URL进行传递，如果URL无效，通过一般正常的手段是基本获取不到数据的。所以基本上只要是人无法看到的东西就可以默认为无法获取到。

标签： # 队列 # 爬虫 # 历史数据 # 可以通过 # 放入

声明：关于《网站上的历史数据可以通过爬虫获取吗》以上内容仅供参考，若您的权利被侵害，请联系13825271@qq.com
本文网址：http://www.25820.com/tutorial/14_2104067.html

1131 01-23

教程

989 01-28

教程

1040 01-17

教程

352 01-21

教程

664 01-29

教程

1142 01-21

网站上的历史数据可以通过爬虫获取吗