【京东评论】数据源——Python提升获取效率▼


这不是我的第一个爬虫,但大多数都是像这样简单粗暴的,因为一开始对于定义函数,然后再相应
相应的操作,是比较困难的,这能直接写for循环语句。
首先,我们要明确我们的目标:从京东上爬取产品的评论。一般评论都是进行情感分析,但我还没进行到那一步,只能先进行相关数据爬取下来。
其次,找到数据源的京东官网首页,然后点击搜索框填入苹果笔记本,假设我们就只爬取第一个搜索结果。


由于可以看到我们的评论是动态的,且可能不断更新,我们便在谷歌网页右键,点击检查,或者审查元素(电脑不一样,说法不一样),就是以下这种界面

点击右上角的network,发现下面是空的,我们刷新页面,network下面就有东西了,但是我们需要评论,直接下拉到评论,网址不会改变,我们可以点击下一页,网址就会变成https://item.jd.com/5225346.html#comment,多了#comment部分,但同时在右边找到了评论所在的JS,具体怎么找呢,我们先点击JS,然后从最下面找,主要看Response,若是在Response里面找到了评论,那就是在那里,然后点击Headers,找到我们需要的URL。

 然后,我们便开始进行相应的爬虫第一步:
然后,我们便开始进行相应的爬虫第一步:
# 导入必要的包
import requests
import json
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"}
# header这个的作用在于伪装成浏览器进行操作,有些网页识别到不是浏览器就不能访问,User-Agent能伪装
# User-Agent可以用不同个,一般在刚刚找网页网址url的Headers的下面就有,当然也可以使用手机的,可网页搜索找到不同的User-Agent,都能进行相应操作
url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5225346&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&rid=0&fold=1'
# 我们可以简单的解析这个网址,前面不动,后面的我们点击下一页,看会出现什么改变
#https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5225346&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1
# 我们发现只有page在变化,根据这个我们可以进行翻页爬取,我们先进行第一页的操作
# 先向浏览器发送请求
response = requests.get(url, headers=header)
data = response.text
# 由于爬取下来的data太大,就不展示了
jd = json.loads(data.lstrip('fetchJSON_comment98vv12345(').rstrip(');'))
data_list = jd['comments']
for data in data_list:buyer_id = data['id']content = data['content']time = data['creationTime']
out[1]:
13698518291 19年的愿望终于实现了,买一台MAC电脑,用起来体验真的太棒了,非常流程,开关机超级快,用惯了win的我,习惯了几天,现在可以轻松操作了,电池也非常耐用,可以用8小时以上不成问题,真是工作必备,超级满意! 2020-01-08 16:01:39
13843231135 运行速度:感觉比windows 快,蛮顺畅
屏幕效果:屏幕色彩真的是非常棒,真的无与伦比!!
散热性能:不太懂,但感觉可以,没感觉到发热。
外形外观:看超来超薄,充满立体感
轻薄程度:感觉很薄,但能感觉出的分量充满安全感
其他特色:音效是真的很立体很不错!!!! 2020-02-26 15:20:21
13633612626 双十二买的,没什么太大优惠,观望了很久最后决定在东东家买,不为别的,就为了多花几百块买个放心!
第一次使用苹果电脑先说下感受吧!
电脑稳稳的是正品原装,检查了电池使用次数和外观,也查了序列号确认已安全下车。
开机十秒以内,运行比较流畅,打开多个文档会卡顿数秒。
屏幕分辨率很多人说不行,我觉得很清晰啊,因人而异吧!
喇叭音质也不错,散热的话没有运行大的软件不会很热,操作系统之前在苹果实体店也摸索的差不多了,所以买完直接就上手了,主要用于工作和看看电影吧,除了内存小没别的问题。
最后再说一点,这款电脑不论配置和性价比都适合mac os系统刚入门的小白使用,这款电脑也是苹果笔记本最后一款logo带灯的,也是最后一款带两个独立的usb接口,省去了再去买转换接口的麻烦。
就说这么多,觉得我的评论帮到你的话就给点个赞吧! 2019-12-22 17:14:31
13653768641 做工太精美了 用料考究 超薄 设计 运行速度超快没有别的系统笔记本往外蹦弹窗的烦恼  散热性能也很好 屏幕色彩太逼真 大写的一个牛? 2019-12-27 20:56:28
13904519460 运行速度:运行速度很快   没有卡涩的问题  
屏幕效果:色彩很好  高端大气上档次  
散热性能:散热不错  温度基本没有上升
外形外观:外观很漂亮  很薄  金色的  颜值很不错  
轻薄程度:很薄的  
其他特色:物流很快   用起来很顺手  就是有点用着不习惯  做工精细  质量没得说 2020-03-12 03:12:30
13846695349 昨天买的。今天到的
运行速度:挺快的。手感也好
屏幕效果:屏幕效果也挺好。
散热性能:开了不到三小时不热。挺好
外形外观:非常高
轻薄程度:很薄
其他特色:客服很耐心,很开心的购买体验。一开始以为会有很多毛病。看看后续问题。 2020-02-27 13:21:39
13983041809 book air隔天就到了。喜欢。苹果的用不习惯不太懂,客服非常好,很多不懂的问她们麻烦她们了嘿嘿。??好是好 费钱也是费钱。包装很紧实。办公工作用以及影音的。不打游戏。内存还行。在win系统电脑徘徊很久还是想了想冲苹果的了。喜欢苹果的设计。害。这该死的甜美。真香!然后买了是七天内4.1就降价了几十块。问了客服可以申请退差价的。然后就退了。害。能省则省。?真香,满满的安全感。加油赚钱! 2020-04-01 14:59:46
13832297459 运行速度:比较快,后期还要用久了才看得到出来。
屏幕效果:比旧款好太多,缩短了边,屏幕看起来更清晰明了。
散热性能:一般办公看电视没问题,这个还得看后期使用效果。
外形外观:这个没的说,银色外表很好看,没选灰色金色就是因为还是银色经典色好看,不会腻。
轻薄程度:很薄很薄,我发的有图,这个确实在笔记本电脑中算外观好看的。手感摸起来也舒适。贵有它的道理。客观评价。
其他特色:收到货后,亲们请第一时间当着京东小哥的面拆封,确认能开机,屏幕无破损,再收货,贵的东西要检查好,有啥问题可以当京东小哥哥面直接退货喔。不过我这个收到都检查了,所有都是完好无损的。非常好。当天买的,第二天就到货了,在疫情这么严峻的时刻,京东真的物流非常给力。 2020-02-23 19:02:32
13815988120 试用了速度挺快的,屏幕效果真心不错,外观一如既往的喜欢,目前感觉散热性能比较好,深空灰颜色还是比较大气的,mac 系统使用起来蛮顺手,最主要是安全性高,后续试用中有进一步发现再来加评。
另:京东物流速度很快,特殊期送货还是很积极,谢谢快递小哥,辛苦了。 2020-02-19 11:44:11
13818632332 京東自營の快遞速度很快!
运行速度:竟是蘋果的產品,運行速度肯定超快! 
屏幕效果:畢竟是蘋果的產品,屏幕效果也一級棒!
散热性能:畢竟是蘋果的產品,散熱性能也是很好滴!
外形外观:畢竟是蘋果的產品,玫瑰金尤其的好看哈!
轻薄程度:畢竟是蘋果的產品,真的是太輕太薄咯啦! 2020-02-20 02:48:35这样,简单的一页评论10条就爬取下来了,若是要翻页爬取的话,可以写一个循环,先写一个爬取10页的:
for page in range(0,10+1):url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5225346&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1'.format(page) response = requests.get(url, headers=header) data = response.text  jd = json.loads(data.lstrip('fetchJSON_comment98vv12345(').rstrip(');')) data_list = jd['comments'] for data in data_list:      buyer_id = data['id']      content = data['content']      time = data['creationTime']这样我们就能获取苹果笔记本第一个产品的前100条评论。
注意:我们在获取网页响应时,网页编码是比较麻烦的,一般的如果是utf-8,我们就用text,若是乱码,可以用content,获得原始网页,然后为了显示正常,可以解码content.decode('gbk'),解码还是看源码是什么格式的。
当然,我只是简单是爬取了三种属性,大家可以爬取热评词,好评数等等。还可以继续增加页数,或者增加产品数,可以一直用for循环,虽然没有函数简单,但是很清楚。最后的目标就是输入关键词、开始页、终止页,输出相关的属性,比如产品的价格,产品的好评数等等。类似于下图:


这是比较笨的循环方法,我之前比较喜欢,简单粗暴,但为了代码美观,我还是换了函数类的,可以爬取知网信息。之后有时间会继续介绍。
补充说明:这篇文章主要是因为评论是以JS的格式保存在网页中,因此我们需要慢慢找到相应的JS网页。后期有时间,会进一步实现价格、评论爬取等等。

相关文章:
 
【京东评论】数据源——Python提升获取效率▼
这不是我的第一个爬虫,但大多数都是像这样简单粗暴的,因为一开始对于定义函数,然后再相应 相应的操作,是比较困难的,这能直接写for循环语句。 首先,我们要明确我们的目标:从京东上爬取产品的评…...
 
Java大厂面试题第2季
一、本课程前提要求和说明 面试题1: 面试题2: 面试题3: 面试题4: 面试题5: 高频最多的常见笔试面试题目 ArrayList HashMap 底层是什么东东 JVM/GC 多线程与高并发 java集合类...
 
探索无限可能性——微软 Visio 2021 改变您的思维方式
在当今信息化时代,信息流动和数据处理已经成为各行各业的关键。微软 Visio 2021 作为领先的流程图和图表软件,帮助用户以直观、动态的方式呈现信息和数据,从而提高工作效率,优化业务流程。本文将介绍 Visio 2021 的特色功能及其在…...
 
Linux CFS调度器之周期性调度器scheduler_tick函数
文章目录 前言一、简介二、源码分析2.1 scheduler_tick2.2 task_tick2.3 entity_tick2.4 check_preempt_tick2.5 resched_curr 参考资料 前言 Linux内核调度器主要是主调度器和周期性调度器,主调度器请参考:Linux 进程调度之schdule主调度器 一、简介 …...
git生成密钥(免密)
生成SSH密钥对的方法如下: 打开Git Bash。 输入以下命令生成新的SSH密钥对: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 这里的 -C 参数后面跟的是你的邮箱地址,通常用于标识这个密钥。 当系统提示你“Enter a fil…...
山东大学软件学院2021级编译原理回忆版
一、判断题 1、正则文法可以表示一般的高级程序语言,构成其语法成分和生成句子() 2、NFA的状态和符号有且只有一条边,因此看起来更直观() 3、DFA无法表示这样的语言{anbn,n>1}() …...
 
为什么都说视频号小店值得做,具体该怎么做?新手必学
大家好,我是电商花花。 所有人都在告诉你2024年应该做视频号小店,但没有人告诉你到底应该怎么做。 今天给大家说一下为什么2024年都推荐大家去做视频号小店,以及分享一些视频号小店的实操干货,可以帮助大家更快更稳的做店。 首先…...
 
网络安全岗秋招面试题及面试经验分享
Hello,各位小伙伴,我作为一名网络安全工程师曾经在秋招中斩获🔟个offer🌼,并在国内知名互联网公司任职过的职场老油条,希望可以将我的面试的网络安全大厂面试题和好运分享给大家~ 转眼2024年秋招又快到了金…...
 
如何实现一个AI聊天功能
最近公司的网站上需要对接一个AI聊天功能,领导把这个任务分给了我,从最初的调研,学习,中间也踩过一些坑,碰到过问题,但最后对接成功,还是挺有成就感的,今天把这个历程和项目整理一下…...
 
实战16:基于apriori关联挖掘FP-growth算法挖掘关联规则的手机销售分析-代码+数据
直接看视频演示: 基于apriori关联挖掘关联规则的手机销售分析与优化策略 直接看结果: 这是数据展示: 挖掘结果展示: 数据分析展示:...
 
Linux基础指令及其作用之系统信息和管理
系统信息和管理 ps ps 命令用于显示当前系统的进程信息。它是 Unix 和类 Unix 操作系统中的一个重要工具,可以用于监控和管理系统进程。以下是 ps 命令的详细用法和常见选项: ps [选项]常用选项 
FinRobot:一个由大型语言模型(LLM)支持的新型开源AI Agent平台,支持多个金融专业AI Agent
财务分析一直是解读市场趋势、预测经济结果和提供投资策略的关键。这一领域传统上依赖数据,但随着时间的推移,越来越多地使用人工智能(AI)和算法方法来处理日益增长的复杂数据。AI在金融领域的作用显著增强,它自动化了…...
 
【SQL学习进阶】从入门到高级应用(七)
文章目录 ✨数据处理函数✨if函数✨cast函数✨加密函数 ✨分组函数✨max✨min✨avg✨sum✨count✨分组函数组合使用✨分组函数注意事项 ✨分组查询✨group by✨having✨组内排序 ✨总结单表的DQL语句 🌈你好呀!我是 山顶风景独好 💕欢迎来到我…...
 
20231911 2023-2024-2 《网络攻防实践》实践十一报告
实践内容 (1)web浏览器渗透攻击 任务:使用攻击机和Windows靶机进行浏览器渗透攻击实验,体验网页木马构造及实施浏览器攻击的实际过程。 实验步骤: ①选择使用Metasploit中的MS06-014渗透攻击模块②选择PAYLOAD为任意…...
 
5G专网驻网失败分析(suci无效)
suci 5G终端第一次驻网时,注册消息Registartion request中携带的5GS mobile identity要携带suci类型的mobile identity。 注册消息协议规范见5G NAS 协议3gpp TS24.501 8.2.6 Registration request。 suci协议规范参见3gpp TS24.501 9.11.3.4 5GS mobile identity …...
 
【PHP项目实战训练】——laravel框架的实战项目中可以做模板的增删查改功能(1)
👨💻个人主页:开发者-曼亿点 👨💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨💻 本文由 曼亿点 原创 👨💻 收录于专栏:…...
go语言使用model Gorm MySQL查询数据 定时十分钟查询一次 查询十分钟前新建的数据
在Go语言中,使用GORM库与MySQL数据库交互并定时查询数据是常见的需求。以下是一个基本的示例,展示了如何设置定时任务,并使用GORM查询十分钟前新建的数据: 首先,你需要安装GORM和MySQL驱动: bash go get -…...
 
透视AI技术:探索折射技术在去衣应用中的奥秘
引言: 随着人工智能技术的飞速发展,其在图像处理和计算机视觉领域的应用日益广泛。其中,AI去衣技术作为一种颇具争议的应用,引发了广泛的讨论和关注。本文将深入探讨折射技术在AI去衣中的应用及其背后的原理。 一、AI去衣技术简介…...
计算机网络工程师需要掌握的知识点
网络基础 网络协议OSI参考模型TCP/IP 体系结构广域网与接入网技术:HDLC、PPP。xDSL、HFCIEEE802标准、以太网技术。网桥、交换机、无线局域网(WLAN)、VLAN、TRUNK、GVRP、STP、综合布线系统IP地址、子网划分、CIDR、ARP、ICMP、IPV6、TCP、UD…...
Java-Collection家族(List接口)
集合-Collection家族-List接口 List接口 1 特点  有序且可重复(因为List接口中添加了许多针对下标操作的方法) 2 四种实现类的数据类型与特点  a. ArrayList  数据结构:一维数组  特点:存储数据  b. LinkedList  数…...
 
AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
云计算——弹性云计算器(ECS)
弹性云服务器:ECS 概述 云计算重构了ICT系统,云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台,包含如下主要概念。 ECS(Elastic Cloud Server):即弹性云服务器,是云计算…...
 
遍历 Map 类型集合的方法汇总
1 方法一 先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...
vue3 字体颜色设置的多种方式
在Vue 3中设置字体颜色可以通过多种方式实现,这取决于你是想在组件内部直接设置,还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法: 1. 内联样式 你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...
 
什么是Ansible Jinja2
理解 Ansible Jinja2 模板 Ansible 是一款功能强大的开源自动化工具,可让您无缝地管理和配置系统。Ansible 的一大亮点是它使用 Jinja2 模板,允许您根据变量数据动态生成文件、配置设置和脚本。本文将向您介绍 Ansible 中的 Jinja2 模板,并通…...
 
【JVM】Java虚拟机(二)——垃圾回收
目录 一、如何判断对象可以回收 (一)引用计数法 (二)可达性分析算法 二、垃圾回收算法 (一)标记清除 (二)标记整理 (三)复制 (四ÿ…...
 
iview框架主题色的应用
1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题,无需引入,直接可…...
Git常用命令完全指南:从入门到精通
Git常用命令完全指南:从入门到精通 一、基础配置命令 1. 用户信息配置 # 设置全局用户名 git config --global user.name "你的名字"# 设置全局邮箱 git config --global user.email "你的邮箱example.com"# 查看所有配置 git config --list…...
 
Proxmox Mail Gateway安装指南:从零开始配置高效邮件过滤系统
💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storms…...
 
windows系统MySQL安装文档
概览:本文讨论了MySQL的安装、使用过程中涉及的解压、配置、初始化、注册服务、启动、修改密码、登录、退出以及卸载等相关内容,为学习者提供全面的操作指导。关键要点包括: 解压 :下载完成后解压压缩包,得到MySQL 8.…...
