用户名
密码
(30天内有效)
注册
注册

首页 > 案 例 >

教你快速获取点评网中深圳某区的火锅店铺信息

我要收藏
2017-12-14

阅读数:595

收藏数 0

造数是一款在线智能爬虫工具,能够用来数据采集、舆情监控等。造数的采集节点遍布全国 7 个机房上百万个IP,轻松绕过各类网站的IP访问频率限制。它的主要功能有:

1.分布式爬取:造数的采集节点遍布全国 7 个机房上百万个 IP,轻松绕过各类网站的 IP 访问频率限制;

2.云端保存:普通用户可以保留每个爬虫 30 天内的最新 9 次爬取结果;

3.定时执行:可以设置以日/周/月为周期定时执行,无需人工点击,一切自动完成。提升业务流水线效率;

4.执行结果直达邮箱:将定时执行或监控更新的结果以附件的形式发送到你的邮箱;

5.深度爬取:在爬取了一系列网址后以它们为目标网址二次爬取,挖掘出藏在链接背后的更多信息;

6.监控更新:以一定的频率监控指定网页上的内容更新,每次发现更新后都将新增内容作为执行结果;

7.API:为用户提供 API 来帮助开发者将造数提供的爬虫服务整合进自动化的业务逻辑中;

8.WebHook:每当该爬虫执行完成时,向用户指定的地址以POST方法发送一个通知


下面,以大众点评网中深圳某区的火锅店铺信息为例,试一试造数的威力。

Step1:进入点评网,找到深圳某区的火锅商铺信息。

由于第二页的网址才开始显示页码,因此我们以第二页作为数据爬取的起始页。把网址复制进来,点击开始爬取,造数便开始对整个网页结构进行解析(如左下图)。解析成功后如右下图所示。


1513233908497098.png1513233955577927.png


Step2:分别点击店名、评论数、人均消费等信息,下面会自动生成本页所有商户中相关指标的分值,同时生成相应的链接,如图所示。

1513233975745524.png

 点选好所需的指标后,单击完成创建,然后再单击前往下载,则进入如下界面。

1513233990950592.png

 

Step3:更改网页生成规则,以便对点评网中36页的数据全部爬取。更改好后,单击保存规则,然后单击立即执行。爬取成功后,再点击下载数据,弹出如下对话框,选择所需的数据格式后,下载的数据会存入指定的文件夹中

1513234008414327.png

打开下载好的数据,内容如下图所示

1513234023227430.png

 ......


温馨提醒:

下面还有几步就快完成啦!如需查看完整内容,请成为【城市数据派会员】,点击查看我要成为会员


本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

分享:
点赞0
  • 联系城市数据派
    info@udparty.com
  • 顶部