你关心的店铺商家量量若何?手把手教你python爬取MeiTuan(小黄鸭APP)商家的评论~
导师让我帮忙指点一名小帅哥和一位小美女两位本科生完成毕设数据爬虫阐发部门。
研究内容需要用到相关区域商铺的评论文本,因而看了看若何从小黄鸭PC端上面爬取店家的评论。
本文只简单记录若何操纵python获取评论,十分根底,不涉及数据提取及阐发,后续可能会加更也可能弃坑。
以下注释:
一、
起首请在python默认的阅读器翻开小黄鸭官网,并完成登录。
二、查找评论文件
-->翻开感兴趣的商铺(本文认为https://cq.meituan.com/meishi/40915936/例)
-->翻开阅读器的开发者形式(F12)并下滑至评论翻页处
-->选择network(收集)下的XHR文件,并clear(清空)
-->翻页,XHR文件中呈现新的评论文件(getMerchantComment...)
翻开该评论文件链接可知,评论相关信息都在此中
多看几条链接能够发现评论的翻页是通过offset后的数字确定的,该店铺总评论数则在末尾total中
三、确定本机信息
-->间接点击评论文件,从Headers中获取你的Cookie和User-Agent信息
四、代码
""" windows 10 python 3.7 jupyter notebook """ import requests import json import pandas as pd headers = {User-Agent:"你的Cookie信息", Cookie:"你的Cookie信息" } #评论信息 #该url中的uuid和userid每个用户各不不异,最简单的是间接赋值getMerchantComment文件的链接间接用 comment_api = "评论文件链接" #评论文件链接形式 #https://cq.meituan.com/meishi/api/poi/getMerchantComment?uuid=你的uuid&platform=1&partner=126&originUrl=https%3A%2F%2Fcq.meituan.com%2Fmeishi%2F40915936%2F&riskLevel=1&optimusCode=10&id=40915936&userId=你的userid&offset=30&pageSize=10&sortType=1 response = requests.get(url = comment_api,headers = headers) data_json = response.text data = json.loads(data_json) data注:若是输出显示你没有登录,最有可能是以下两种情况:①忘记先在python默认阅读器登录②没有在headers里面加你的cookie
输出成果如下
0