python爬取robomaster论坛数据,作为后端数据
一. 内容简介
python爬取robomaster论坛数据,作为后端数据
二. 软件环境
2.1vsCode
2.2Anaconda
version: conda 22.9.0
2.3代码
三.主要流程
3.1 接口分析
# 接口分析
# 全部数据
# https://bbs.robomaster.com/forum.php?mod=forumdisplay&fid=63 20
# 机械设计
# https://bbs.robomaster.com/forum.php?mod=forumdisplay&fid=63&filter=typeid&typeid=11 20
# 嵌入式
# https://bbs.robomaster.com/forum.php?mod=forumdisplay&fid=63&filter=typeid&typeid=12 20
# 视觉算法
# https://bbs.robomaster.com/forum.php?mod=forumdisplay&fid=63&filter=typeid&typeid=13 9
# 其他
# https://bbs.robomaster.com/forum.php?mod=forumdisplay&fid=63&filter=typeid&typeid=14
# 分页
# &filter=typeid&page=3
3.2 通过selenium爬取网页结构
大疆这个网站是直接在服务端渲染好的,只能从结构里面爬了,不能直接拿接口数据了,content是整个网页结构
import urllib.request
from lxml import etree
import json
from selenium.webdriver.common.by import By
from selenium import webdriver
import random
import time
import pyautogui
from datetime import datetime
import random
def seleniumRequest(url,chrome_path,waitTime): options = webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches', ['enable-automation'])options.add_experimental_option('useAutomationExtension', False)# 谷歌浏览器exe位置options.binary_location = chrome_path# 是否要启动页面# options.add_argument("--headless") # 启用无头模式# GPU加速有时候会出bugoptions.add_argument("--disable-gpu") # 禁用GPU加速options.add_argument("--disable-blink-features=AutomationControlled")driver = webdriver.Chrome(options=options)driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',{'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'})# 启动要填写的地址,这就启动浏览器driver.get(url)# 这是关闭浏览器# 等待页面加载,可以根据实际情况调整等待时间driver.implicitly_wait(waitTime)# 获取完整页面结构full_page_content = driver.page_source# 关闭浏览器driver.quit()return full_page_content
# # 处理完整页面结构
# print(full_page_content)
url = "https://bbs.robomaster.com/forum.php?mod=forumdisplay&fid=63&page=2"
print(url)chrome_path = r"C:\Program Files\Google\Chrome\Application\chrome.exe"
waitTime = 8
# 获取网页结构
# 通过selenium调用浏览器访问
content = seleniumRequest(url,chrome_path,waitTime)
print(content)
3.2 从网页结构中爬出数据,存入json文件中
import random
from datetime import datetime, timedeltadef generate_random_date(start_date, end_date):random_days = random.randint(0, (end_date - start_date).days)random_date = start_date + timedelta(days=random_days)return random_date.strftime("%Y-%m-%d")start_date = datetime(2021, 1, 1)
end_date = datetime(2023, 12, 31)# 给html变成tree用于xpath解析用
tree = etree.HTML(content)
# 改进的XPath表达式,选择你感兴趣的div元素
# 解析对应数据
contents = tree.xpath("//*[starts-with(@id, 'normalthread')]")img = contents[0].xpath(".//*[@id='aaa']//img/@src")baseurl = " https://bbs.robomaster.com/"lists=[]
id = 1
for index, url in enumerate(contents):imgurl = contents[index].xpath(".//*[@id='aaa']//img/@src") imgurl = baseurl + imgurl[0]all = contents[index].xpath(".//p//a//text()")url = contents[index].xpath(".//p//a/@href")url = baseurl + url[1]# 题目title = all[1]end_index = title.find('】')title = all[1][end_index+1:]end_index= 0if title == None:continue# 作者name = all[2]if "作者" not in name:continue# 查看view = random.randint(1000, 50000)# 评论comment = all[3]if "回复" not in comment:continue# 时间time = generate_random_date(start_date, end_date)# print(index,url)item = {id: id,'imgurl': imgurl,'title':title,'name':name,'view':view,'comment':comment,'time':time,'type':1,'url': url}lists.append(item)id = id + 1
json_data = json.dumps(lists, indent=4)# 将JSON数据写入文件
with open("data.json", "w") as json_file:json_file.write(json_data)
print("JSON数据已保存到文件")
3.4 json存入数据库中
import json
import mysql.connector# 读取JSON文件
with open('data.json', 'r') as file:data = json.load(file)# 连接到MySQL数据库
conn = mysql.connector.connect(host='localhost',port=3306, # MySQL默认端口号user='root',password='1234qwer',database='competitionassistant'
)cursor = conn.cursor()# 创建表(如果不存在的话),并清空表数据# item = {# id: id,# 'imgurl': imgurl,# 'title':title,# 'name':name,# 'view':view,# 'comment':comment,# 'time':time,# 'type':1# }cursor.execute('''
CREATE TABLE IF NOT EXISTS form_list (id INT AUTO_INCREMENT PRIMARY KEY,imgurl VARCHAR(128),title VARCHAR(128),name VARCHAR(64),view VARCHAR(16),comment VARCHAR(16),time VARCHAR(16),type INT,url VARCHAR(128)
)
''')
# 先清空一下表cursor.execute('TRUNCATE TABLE form_list')
# 将数据插入数据库
for item in data:# print(item)# cursor.execute('''# INSERT INTO index_img (img_url, prod_id, seq, status, create_time, update_time)# VALUES (%s, %s, %s, %s, %s, %s)# ''', (item['img_url'], item['prod_id'], item['seq'], item['status'], item['create_time'], item['update_time']))sql_statement = f"""INSERT INTO form_list (imgurl, title, name, view, comment, time, type, url)VALUES ('{item['imgurl']}', '{item['title']}', '{item['name']}', '{item['view']}', '{item['comment']}', '{item['time']}', '{item['type']}', '{item['url']}')"""print(sql_statement)cursor.execute(sql_statement)print()
# 提交更改并关闭连接
conn.commit()
conn.close()
3.4 结果

相关文章:
python爬取robomaster论坛数据,作为后端数据
一. 内容简介 python爬取robomaster论坛数据,作为后端数据 二. 软件环境 2.1vsCode 2.2Anaconda version: conda 22.9.0 2.3代码 三.主要流程 3.1 接口分析 # 接口分析 # 全部数据 # https://bbs.robomaster.com/forum.php?modforumdisplay&fid63 2…...
C++: string的模拟实现
C: string的模拟实现 一.前置说明1.模拟实现string容器的目的2.我们要实现的大致框架 二.默认成员函数1.构造函数2.拷贝构造函数1.传统写法2.现代写法 3.析构函数4.赋值运算符重载1.传统写法2.现代写法 三.遍历和访问1.operator[]运算符重载2.iterator迭代器 四.容量相关函数1.…...
[安洵杯 2019]easy_web
打开环境 img传参还有cmd img应该是base,先解码看看 3535352e706e67 这个好像是十六进制的,再解 访问一下看看,得到一张图片 尝试base解码,但是没有什么发现 再看看地址栏出现index.php,应该是要下载源码,但是还没有…...
CentOS7 安装配置SFTP服务器详解
1、SFTP简介 SSH文件传输协议(英语:SSH File Transfer Protocol,也称Secret File Transfer Protocol,中文:安全文件传送协议,英文:Secure FTP或字母缩写:SFTP)是一种数据流连接,提供文件访问、传输和管理功能的...
【Linux】Shell命令以及运行原理
目录 一、Linux是什么 二、Shell 三、为什么要有Shell 四、Shell的工作原理 一、Linux是什么 狭义上的Linux是指Linux内核本身,它是操作系统的核心部分,负责管理计算机的硬件资源(如处理器、内存、设备等),提供基…...
vue-动态组件、keep-alive
vue-动态组件、keep-alive 如果我们想写一个tabbar导航栏,我能想到的两种方式 通过if条件判断的方式实现(不赘述)动态组件 接下来我们就看看动态组件如何创建,废话不多少直接上代码(代码中有备注) 首先…...
华为OD机试 - 执行任务赚积分(Java JS Python C)
题目描述 现有N个任务需要处理,同一时间只能处理一个任务,处理每个任务所需要的时间固定为1。 每个任务都有最晚处理时间限制和积分值,在最晚处理时间点之前处理完成任务才可获得对应的积分奖励。 可用于处理任务的时间有限,请问在有限的时间内,可获得的最多积分。 输入…...
如何用CHAT配置linux的远程连接?
问CHAT:配置linux的远程连接 1.下载ssh 2.启动ssh服务 3.查看ssh服务状态 4.设置ssh服务开机自启动 5.设置windows的cmd下ssh 6.通过cmd的ssh命令远程到linux linux的ip:10.8.9.23 用户名:Li CHAT回复:以下是为配置Linux的远程连接的步骤说明:…...
Python (十六) 错误和异常
程序员的公众号:源1024,获取更多资料,无加密无套路! 最近整理了一波电子书籍资料,包含《Effective Java中文版 第2版》《深入JAVA虚拟机》,《重构改善既有代码设计》,《MySQL高性能-第3版》&…...
Android进阶之路 - TextView文本渐变
那天做需求的时候,遇到一个小功能,建立在前人栽树,后人乘凉的情况下,仅用片刻就写完了;说来惭愧,我以前并未写过文本渐变的需求,脑中也仅有一个shape渐变带来的大概思路,回头来看想着…...
【复位与释放(亚稳态)模为60的BCD码计数器_2023.11.22】
复位与释放(异步复位,同步释放) 同步复位rst、同步置数load(置数信号只有在时钟上升沿到来时才能生效)、同步清零clr 同步复位: always(posedge clk) if(!rst_n) b<1’b0; else b<a; 同步复位信号rs…...
ABAP: JSON 报文解析——/ui2/cl_json
1、JSON数组 报文格式如下,是JSON 数组类型的。 [{"I_TYPE":"V","I_BUSINESSSCOPE":"1001"},{"I_TYPE":"V","I_BUSINESSSCOPE":"1002"} ] json转换为SAP内表: TYP…...
android NDK相关,调用C库,JNI,交叉编译,跨平台
首先就是库给我,我先进行开发(按照文档),最后进行交叉编译ARM平台。 遇到的问题:我要看到代码效果,所以必须要在真机上跑代码,那么我调用的库就必须是我这个平台适用的,有两种方式&…...
汽车功能安全ISO26262
一、功能安全基本概念及功能安全管理 什么是功能安全 相关标准: 现状: 功能安全的目的和范围: 总体框架: 基本定义:...
Node.js+Express+Nodemon+Socket.IO构建Web实时通信
陈拓 2023/11/23-2023/11/27 1. 简介 Websocket WebSocket是一种在单个TCP连接上提供全双工通讯的协议。特别适合需要持续数据交换的服务,例如在线游戏、实时交易系统等。 Websocket与Ajax之间的区别 Ajax代表异步JavaScript和XML。它被用作一组Web开发技术&…...
广州华锐互动:AR可视化展示昆虫让教学过程更直观生动
随着科技的不断发展,AR(增强现实)技术已经逐渐走进我们的生活。通过AR技术,我们可以将虚拟的信息叠加到现实世界中,让现实世界变得更加丰富多彩。在这篇文章中,我们将以昆虫为主题,探讨AR增强现…...
.NET开源的处理分布式事务的解决方案
前言 在分布式系统中,由于各个系统服务之间的独立性和网络通信的不确定性,要确保跨系统的事务操作的最终一致性是一项重大的挑战。今天给大家推荐一个.NET开源的处理分布式事务的解决方案基于 .NET Standard 的 C# 库:CAP。 CAP项目介绍 CA…...
如何隐藏选择选项值并用新值替换2个选项?
要隐藏选择选项值并用新值替换2个选项,可以使用JavaScript来实现。 首先,使用JavaScript获取两个选项的值,然后将这两个值设置为新的值,最后将这两个选项的可见性设置为false,以隐藏它们。 例如: <se…...
[读论文][跑代码]BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion
github: GitHub - Nota-NetsPresso/BK-SDM: A Compressed Stable Diffusion for Efficient Text-to-Image Generation [ICCV23 Demo] [ICML23 Workshop] ICML 2023 Workshop on ES-FoMo 简化方式 蒸馏方式(训练Task蒸馏outKD-FeatKD) 训练数据集 评测指标…...
机器学习的复习笔记1
机器学习是一种人工智能的分支,它通过让计算机从数据中学习规律和模式,从而实现对未知数据的预测和决策。根据不同的学习方法和任务,机器学习可以分为以下几种类型: 监督学习:在监督学习中,计算机会被提供一…...
明日方舟游戏素材资源集:如何轻松获取高质量游戏资源?
明日方舟游戏素材资源集:如何轻松获取高质量游戏资源? 【免费下载链接】ArknightsGameResource 明日方舟客户端素材 项目地址: https://gitcode.com/gh_mirrors/ar/ArknightsGameResource 你是否曾经为了制作明日方舟相关的创作内容而花费数小时寻…...
张量网络机器学习:从平均风险下界看量子模型泛化极限
1. 项目概述:当张量网络遇见机器学习如果你和我一样,既对量子多体物理中的张量网络着迷,又对机器学习模型的泛化能力充满好奇,那么“张量网络机器学习模型平均风险的理论分析”这个课题,无疑是一个能将两者完美结合的宝…...
观察不同模型在相同任务下的Token消耗与成本差异
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察不同模型在相同任务下的Token消耗与成本差异 在构建基于大语言模型的应用程序时,除了模型的效果,调用成…...
多目标贝叶斯优化在复杂量子动力学模型参数校准中的应用
1. 项目概述与核心挑战在光化学和生物物理领域,模拟视网膜在视紫红质中的光异构化反应,是理解视觉初始步骤的基石。这个反应看似简单——一个分子键的旋转,但其背后的量子动力学过程却异常复杂。传统上,我们依赖量子化学计算来构建…...
LangGraph 与 Streamlit 集成:实时展示多智能体执行状态
1. 标题选项 核心关键词:LangGraph、Streamlit、多智能体、实时可观测性、执行状态可视化 《从0到1:LangGraph + Streamlit 打造可观测的多智能体实时运行面板》 《多智能体开发不再黑盒!手把手教你用Streamlit可视化LangGraph执行全流程》 《LangGraph实战:集成Streamlit实…...
中兴光猫工厂模式解锁终极指南:3分钟掌握隐藏功能
中兴光猫工厂模式解锁终极指南:3分钟掌握隐藏功能 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 还在为光猫功能受限而烦恼吗?zteOnu是一款专为中兴光猫设备设…...
打造专属AI工作空间:Chatbox主题个性化完全指南
打造专属AI工作空间:Chatbox主题个性化完全指南 【免费下载链接】chatbox Powerful AI Client 项目地址: https://gitcode.com/GitHub_Trending/ch/chatbox 你是否厌倦了千篇一律的AI对话界面?想要一个既美观又高效的AI助手工作环境?本…...
BabelDOC:智能PDF翻译神器,完美保留原版格式与布局的终极方案
BabelDOC:智能PDF翻译神器,完美保留原版格式与布局的终极方案 【免费下载链接】BabelDOC Yet Another Document Translator 项目地址: https://gitcode.com/GitHub_Trending/ba/BabelDOC 还在为PDF文档翻译后格式错乱而烦恼吗?BabelDO…...
Grafana k6性能工程实践:从压测工具到CI/CD原生可观测性基础设施
1. 这不是又一个“压测脚本包装器”,而是性能工程的基础设施重构Grafana k6——这个名字刚出现时,我第一反应是:又一个基于Node.js封装的轻量级压测工具?毕竟JMeter、Locust、Artillery都走过类似路径。但真正把它跑通第一个真实业…...
破解特征相关性难题:MVIM与CVIM如何提供更稳健的变量重要性评估
1. 项目概述:从“黑盒”到“可解释”的桥梁在数据科学和机器学习的日常工作中,我们常常面临一个核心矛盾:一方面,以XGBoost、深度神经网络为代表的复杂模型因其卓越的预测性能而备受青睐;另一方面,这些模型…...
