1)打开网站,在网页中右键点击检查,或者F12快捷键,查看源码页面;
2)检查网站:浏览网站源码查看所需内容。
2、从餐饮外送统计平台中采集需要数据,按照要求使用Python语言编写代码工程,获取指定数据项,并对结果数据集进行必要的数据处理。请将符合任务要求的结果复制粘贴至对应报告中。
具体步骤如下:
1)创建工程工程项目:C:\xxx
2)构建采集请求
3)按要求定义相关字段
4)获取有效数据
5)将获取到的数据保存到指定位置
6)对数据集进行基础的数据处理
至此已从餐饮外送统计平台中获取所需数据,并完成了必要的基础的数据处理。
爬取网页信息
1. 自行创建Scrapy工程编写爬虫代码,通过使用Chrome浏览器开发者工具进行抓包,将Scrapy 默认UserAgent 配置为Chrome浏览器UA,并将配置代码复制粘贴至对应报告中。
2. 将Scrapy 默认请求头的 Accept和Accept-Language 设置为抓包到的值,并将配置代码复制粘贴至对应报告中。
3. 在配置文件中配置Scrapy 的下载延时为2秒,并将配置代码复制粘贴至对应报告中。
4. 爬取“配送平台数据”与“店铺运营数据”页面相关数据,通过爬虫代码分页爬取,将使用re解析分页链接的程序源代码复制粘贴至对应报告中。
数据源为众多网站及平台的数据汇总,且为多次采集的结果,在整合多来源数据时可能遇到数据冲突,或数据拼接导致的属性列矛盾或冗余等情况。请根据任务具体参数要求,针对原始数据集进行清洗,并写入指定的数据库或数据文件,复制并保存结果。