数据提取流程

核心是 基于队列 的概念。

由用户配置 初始页面、队列处理函数。

然后系统开始从初始页面开始抓取,应用初始队列的处理函数, 初始队列的处理函数有可能返回(添加)更多的URL到队列中。 循环往复,知道所有的页面被抓取完成。

优点

  • 可以执行目标网站的 JavaScript 代码

  • 可以提取出所有可见的信息

缺点

  • 提取数据效率较低 [因为浏览器会进行完整的渲染]

  • 上手难度比较高,需要编写 JavaScript 代码