小红书关键词爬虫
标题
- 1 统计要收集的关键词,制作一个文件夹
- 2 爬取每一页的内容
- 3 爬取标题和内容
- 4 如果内容可以被查看,爬取评论内容
- 5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容
- 6 总结
1 统计要收集的关键词,制作一个文件夹
例如,我要收集旅游相关的,就收集:
旅游、旅行、旅游攻略,这些词,做成一个txt文件。
用一个浏览器登录上小红书账号,然后记录写cookies,例如:

2 爬取每一页的内容
主要使用request,js模块,将爬取的内容保存为res,里面包含一页20条数据。
info = re.sub(r'"page":".*?"', f'"page":"{page}"', info)ret = js.call('get_xs', api, info, cookies["a1"])headers['x-s'], headers['x-t'] = ret['X-s'], str(ret['X-t'])response = requests.post(search_url, headers=headers, cookies=cookies, data=info.encode('utf-8'))res = response.json()
3 爬取标题和内容
从每一个note里面解析出标题,内容等信息。
result = {}result["title"] = data['note_card']['title']result["desc"] = data['note_card']['desc'].replace("\n", "").replace("\t", "")tags_temp = data['note_card']['tag_list']tags = []for tag in tags_temp:try:tags.append(tag['name'])except:passresult["tags"] = tagsresult["time"] = timestamp_to_str(data['note_card']['time'])
4 如果内容可以被查看,爬取评论内容
每个帖子里面的评论的单独的url,需要根据id号进行拼接,所以根据第3节获取的user-id,进行拼接,然后再用get进行访问,最后获得每条评论,注意有些帖子是不能被查看的,所以需要进行判断。
note_id = url.split('/')[-1]comments_url = "https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={}&image_scenes=FD_WM_WEBP,CRD_WM_WEBP".format(note_id)response = requests.get(comments_url, headers=headers, cookies=cookies)res = response.json()comments = []for line in res["data"]["comments"]:comment_str = line["content"]comments.append(comment_str)
5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容
包含:标题,具体内容,标题,创建时间,评论内容。每个关键词一个文件夹。

6 总结
详细代码私聊,注意本内容没有爬取图片,如果需要可以添加。
相关文章:
小红书关键词爬虫
标题 1 统计要收集的关键词,制作一个文件夹2 爬取每一页的内容3 爬取标题和内容4 如果内容可以被查看,爬取评论内容5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容6 总结 1 统计要收集的关键词,制作一个文…...
网络爬虫的危害,如何有效的防止非法利用
近年来,不法分子利用“爬虫”软件收集公民隐私数据案件屡见不鲜。2023年8月23日,北京市高级人民法院召开北京法院侵犯公民个人信息犯罪案件审判情况新闻通报会,通报侵犯公民个人隐私信息案件审判情况,并发布典型案例。在这些典型案…...
2024/2/29 备战蓝桥杯 6-1 二分
目录 查找 【深基13.例1】查找 - 洛谷 数对 A-B 数对 - 洛谷 砍树 [COCI 2011/2012 #5] EKO / 砍树 - 洛谷 参考连接:AcWing 789. 数的范围---二分法一次搞懂 - AcWing 1.程序中不要同时出现l mid, r mdi这两条语句。 2.如过程序中出现了l mid࿰…...
浅析ARMv8体系结构:原子操作
文章目录 概述LL/SC机制独占内存访问指令多字节独占内存访问指令 独占监视器经典自旋锁实现 LSE机制原子内存操作指令CAS指令交换指令 相关参考 概述 在编程中,当多个处理器或线程访问共享数据,并且至少有一个正在写入时,操作必须是原子的&a…...
综合练习(二)
目录 列出薪金比 SMITH 或 ALLEN 多的所有员工的编号、姓名、部门名称、领导姓名、部门人数,以及所在部门的平均工资、最高和最低工资 补充 spool Oracle从入门到总裁:https://blog.csdn.net/weixin_67859959/article/details/135209645 列出薪金比 SMITH 或 AL…...
sql-labs第46关(order by盲注脚本)
一、环境 网上有自己找 二、解释 order by 注入我们看他的true和false来进行注入出来 二、实操 让我们用sort 看看源码 最终我们的id是放到order by后面了 如果我们直接用列去排序 ?sortusername/password username: password: 可以看到顺序是不…...
13款可以轻松上手画图软件推荐
在当今的数字世界里,我们有各种各样的创作工具,尤其是画图软件。所以问题来了:我们应该如何选择许多免费的绘画软件?为了回答这个问题,我们将在本文中分享10个领先的画图软件。每一个都有其独特的特点和优势࿰…...
vue实现商品评分效果(通过插件实现)
Vue.js 实现了一个简单的商品评分功能。用户可以通过点击星星来修改商品的评分,并且评分显示了相应的星星数。 废话不多说,直接上代码 方法一: <template><div><avue-form :model"formData"><avue-form-it…...
SpringBoot 手写 Starter
spring-boot-starter 模块 1.介绍 SpringBoot中的starter是一种非常重要的机制,能够抛弃以前繁杂的配置,将其统一集成进starter,应用者只需要在maven中引入starter依赖,SpringBoot就能自动扫描到要加载的信息并启动相应的默认配…...
C++ 学习笔记(Structured bindings)
C 学习笔记(Structured bindings) 这个特性是 C17 引入的,个人认为主要是解决如何让函数返回多个值的问题。在这之前,我们一般用 std::pair 或者 std::tuple 来返回多个值。比如下面的例子: std::tuple<int, int …...
K8S常用kubectl命令汇总(持续更新中)
天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…...
加密和签名的区别及应用场景
原文网址:加密和签名的区别及应用场景_IT利刃出鞘的博客-CSDN博客 简介 本文介绍加密和签名的区别及应用场景。 RSA是一种非对称加密算法, 可生成一对密钥(私钥和公钥)。(RSA可以同时支持加密和签名)。 …...
双非二本找实习前的准备day3
学习目标: 每天2-3到简单sql(刷完即止),每天复习代码随想录上的题目3道算法(时间充足可以继续),背诵的八股的问题也在这里记录了 今日碎碎念: 1)偶尔还是贪玩游戏&…...
又挖到宝了!国人团队研发的AI视频工具PixVerse,这么好用居然还完全免费!(强烈推荐)
昨天发了一款国产免费的 AI 绘画工具 Dreamina 的介绍: 居然才发现!字节跳动旗下国产AI绘画工具Dreamina,这么好用居然还免费!(强烈推荐) 发现大家对国产 AI 工具还挺感兴趣的。今天继续帮大家挖国产的 A…...
勒索病毒普通用户防范建议
勒索病毒普通用户防范建议 定期备份存储在计算机上的数据,这样勒索软件感染不会永远破坏您的个人数据。 最好创建两个备份副本:一个存储在云中(记住使用一个自动备份文件的服务),另一个物理存储(便携式硬…...
Zabbix“专家坐诊”第231期问答
问题一 Q:用docker-compose部署zabbix,部署完后如果要修改zabbix的配置应该要改docker-compose文件里的环境变量吧?改了环境变量之后只能重建容器才能生效吗?能不能在不影响已经配好的那些监控项的情况下让新的环境变量生效&#…...
【.NET Core】深入理解IO - FileSteam流
【.NET Core】深入理解IO - FileSteam流 文章目录 【.NET Core】深入理解IO - FileSteam流一、IO流概述二、文件流FileStream2.1 FileStream概述2.2 FileStream检测流位置更改2.3 FileStream构造函数2.4 FileStream常用属性2.5 FileStream.Read方法2.6 FileStream.Write方法2.7…...
CentOS7 Mysql 忘记密码或临时密码进不去时怎么跳过密码进去然后再更改密码
CentOS7 Mysql 忘记密码或临时密码进不去时怎么跳过密码进去然后再更改密码 1、进文件 vi /etc/my.cnf2、加skip-grant-tables设置跳过密码 在[mysqld]下面加 skip-grant-tables3、mysql -u root -p直接回车无密码进去mysql mysql -u root -p3、先更新,不执行这…...
深度学习 精选笔记(8)梯度消失和梯度爆炸
学习参考: 动手学深度学习2.0Deep-Learning-with-TensorFlow-bookpytorchlightning ①如有冒犯、请联系侵删。 ②已写完的笔记文章会不定时一直修订修改(删、改、增),以达到集多方教程的精华于一文的目的。 ③非常推荐上面(学习参考&#x…...
linux操作docker
docker地址 官方地址 centos7安装docker 卸载旧版本docker sudo //在前面表示以管理员权限操作yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine安装docker //安装所需资…...
西门子1200伺服步进FB块程序西门子程序模板 程序内含两个FB,一个是scl写的,一个是梯形...
西门子1200伺服步进FB块程序西门子程序模板 程序内含两个FB,一个是scl写的,一个是梯形图,可以多轴多次调用,中文注释详细。 真实可用,经过在专用设备真实调试运行,可以直接应用到实际项目中,提供…...
SpringBoot 全局异常处理 + 参数校验,企业级规范写法(代码直接复制)
一、前言 在 SpringBoot 前后端分离项目里,这两个东西几乎是必写基础: 1.接口参数乱传,直接报错到前端 2.异常满天飞,前端各种无法解析 3.每个接口都写 try-catch,代码又臭又长 4.参数校验逻辑重复,维护成…...
告别迷茫!用VSCode+Linux-4.9.88内核,手把手教你给IMX6ULL写第一个字符驱动
从零构建IMX6ULL字符驱动:VSCode环境下的高效开发实战 嵌入式Linux驱动开发常被视为高门槛领域,但合理利用现代工具链能显著降低学习曲线。本文将基于IMX6ULL开发板和Linux-4.9.88内核,演示如何通过VSCode搭建高效的驱动开发环境,…...
仿真学习系列(五十一):ADS仿真理解电容特性
前言 在高速电路与电源完整性(PI/PDN)设计中,电容几乎无处不在:去耦、旁路、滤波、储能…… 但在很多实际项目里,电容的使用仍停留在“并几个、换大点”的经验层面,一旦频率上来,就会出现仿真看着没问题、实物却不稳定的情况。根本原因在于:我们往往把电容当成了理想…...
AWS 账单查看与付款方式设置指南(企业支持实用手册)
一文搞定 AWS 发票下载、费用明细查询和电汇付款配置,适合企业财务和运维人员快速上手。 前言 使用 AWS 的企业经常会遇到这几个问题:月底了发票在哪下载?费用明细怎么导出给财务?公司要用银行电汇付款怎么设置? 这篇文章把这三件事讲清楚,都是控制台操作,不需要写代码…...
YOLOFuse效果展示:实测RGB+红外融合检测,复杂环境下精度显著提升
YOLOFuse效果展示:实测RGB红外融合检测,复杂环境下精度显著提升 1. 引言:多模态检测的现实需求 在目标检测领域,单一传感器已经难以满足复杂场景下的应用需求。传统RGB摄像头在低光照、烟雾遮挡等恶劣环境下性能急剧下降&#x…...
TortoiseSVN与BeyondCompare高效协作:从配置到实战的完整指南
1. 为什么需要TortoiseSVN与BeyondCompare集成 如果你经常使用TortoiseSVN进行版本控制,肯定遇到过内置差异查看器不够直观的问题。默认的diff工具只能显示简单的文本对比,对于代码变更的识别效率很低。而BeyondCompare作为专业的文件对比工具࿰…...
记忆的遗忘与压缩:Harness 的上下文维护
记忆的遗忘与压缩:Harness 的上下文维护 一、 标题:从人类记忆的工作机制,到 AI 对话系统的核心瓶颈解决之道——深度解析 Harness 如何通过「遗忘与压缩」构建高可用长上下文系统 二、 摘要/引言 2.1 开门见山:当 AI 对话系统遇到「记忆断层」与「性能雪崩」 你有没有试…...
从精确到共识:一种关于数据架构的经济学解释
数据库系统的核心张力,或许可以用一个日常场景来理解。当你走进一家小店,账单显示102.3元,商家说"收您102元",双方欣然成交。这0.3元的抹零不是数学错误,而是一种精明的成本计算——它节省了找零的时间、对账…...
2025届最火的降重复率平台推荐
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在如今天日渐趋成熟的AI生成内容检测技术状况下,众多创作者都面临着内容被标记成…...
