数据提取流程¶ 核心是 基于队列 的概念。 由用户配置 初始页面、队列处理函数。 然后系统开始从初始页面开始抓取,应用初始队列的处理函数, 初始队列的处理函数有可能返回(添加)更多的URL到队列中。 循环往复,知道所有的页面被抓取完成。 优点¶ 可以执行目标网站的 JavaScript 代码 可以提取出所有可见的信息 缺点¶ 提取数据效率较低 (因为浏览器会进行完整的渲染) 上手难度比较高,需要编写 JavaScript 代码