爬取美团网美食数据,看北京上海都爱吃些啥



数据爬取三步曲之前方有坑
工作需求需要采集 OTA 网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事,然而最后的结果是午饭晚饭都没有时间去吃了……情况如下:

Chrome F12 直接定位 get 请求,response 的结果是 json,研究下 get 的参数发现有个奇怪的参数 token:

先不管它,直接修改参数翻页请求数据:


数据爬取三步曲之开始填坑
问题来了!纠结半天后发现这个 token 是有时效的,而且是 JS 生成的。这也不是问题,get 请求行不通我们还有 Selenuim。悲催的是美团真的是大厂,直接封杀 Selenuim:


数据爬取三步曲之将坑填平
又回到原点——没办法只能从 token 下手了。经过一番查找发现了一个 JS 文件:

因为之前没有用 Python 直接调用 JS,百度一番发现 PyExecJS、PyV8 等都可以。悲催的是我的Python 2.7 安装 PyExecJS 后一直不能正常使用,PyV8 倒是没有问题,只是安装过程太心酸。

我把 JS 文件存放到本地 Python 使用 PyV8 直接解析执行 token 的 JS 事件:

程序自动生成 token,迫不及待接续解析 JSON 数据入库:


测试完成先抓取北京和上海的数据进行数据可视化。
在统计时发现美团还是对数据进行了限制,每个类型的餐饮场所最多显示每页 32 个,一共 32 页,也就是 32*32=1024 个


数据可视化
北京、上海美食各类型数量占比情况:


看以看出川湘、烧烤烤肉和西餐在两地的数量占比都是最多的。撸串、麻小果然不分南北。

数据中有每家店的评论数量,我们可以从中分析出每一类美食的总评论情况来展示受欢迎情况,因展示效果我们只展示 Top10。
北京、上海市 Top10 美食情况:


北京和上海两地火锅荣登榜首。
下面我们对比下两地同类美食的平均价格的情况:

魔都消费水平已经超过帝都啦。
以上只是个人简单分析不代表权威发布仅供娱乐,欢迎各界朋友交流学习。
作者:Kying,西二旗程序单身汪一枚。从事智慧旅游、数据挖掘。新晋 Python 小白,希望与志同道合者一起煮酒论英雄,数据森麟公众号(ID:shujusenlin)特邀作者。
声明:本文为作者投稿文章,版权归对方所有。
热 文 推 荐
☞ 下一次 IT 变革:边缘计算(Edge computing)
☞ 年度重磅:《AI聚变:2018年优秀AI应用案例TOP 20》正式发布
print_r('点个好看吧!');
var_dump('点个好看吧!');
NSLog(@"点个好看吧!");
System.out.println("点个好看吧!");
console.log("点个好看吧!");
print("点个好看吧!");
printf("点个好看吧!n");
cout < < "点个好看吧!" < < endl;
Console.WriteLine("点个好看吧!");
fmt.Println("点个好看吧!");
Response.Write("点个好看吧!");
alert("点个好看吧!")
echo "点个好看吧!"
点击“阅读原文”,打开 CSDN App 阅读更贴心!

关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 中国经济向世界提供“机遇清单” 7904444
- 2 朱元璋换帅照后明孝陵火了 7809472
- 3 水银体温计将禁产 有网友囤货100支 7713088
- 4 2025这些“经济”持续成长壮大 7617697
- 5 近8000吨车厘子来了 7523375
- 6 老人接孙女从认不出到相拥大哭 7425952
- 7 冯提莫自曝癌症复发并转移 7330645
- 8 喜茶600多家店消失 7239196
- 9 财政部发7500亿特别国债 个人不能买 7141494
- 10 寒潮来袭!多地气温将创下半年来新低 7044941



![氤氲Xx补发南宁[ok] 螺狮粉真好吃](https://imgs.knowsafe.com:8087/img/aideep/2023/1/9/ac79ac7ab892943b448eee02794b8ca6.jpg?w=250)



CSDN
