当前位置: 首页 > news >正文

百度百科数据爬取 python 词条数据获取

最近需要补充一些电力名词的解释,尤其是文字相关内容。百度百科上的词条质量有差异,因此我们需要先手工选择一些高质量词条。

假设我们选择了互感器页面中的仪用变压器词条,首先:

import requests  
from bs4 import BeautifulSoup  
import time
import re
import random

接下来,解析获取到的response:

# 百度百科会增加一些字段,例如para_df21d,para_fr44h,需要识别
def has_para_content_mark(child_class):i=0for t in child_class:if t[0:5]=="para_": i+=1if t[0:5]=="MARK_":i+=1if t[0:8]=="content_":i+=1return  i==3# 百度百科会增加一些字段,例如text_sd55g4,text_fw92g,需要识别    
def has_text(child_class):i=0for t in child_class:if t[0:5]=="text_": i+=1return  i==1# 爬取内容,并解析出开头的简介和正文内容   
def get_response(url):random_sleep_time = random.randint(100, 2000) / 1000.0  # 将毫秒转换为秒# 随机睡眠time.sleep(random_sleep_time)   print(url)# 发送HTTP请求并获取响应  response = requests.get(url)  contents=[]# 检查响应状态码,确保请求成功  if response.status_code == 200:  # 解析HTML内容  soup = BeautifulSoup(response.text, "html.parser")  # 找到class属性为"lemmaSummary_M04mg", "J-summary"的div元素  div_with_class_summary  = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))# 找到class属性为"J-lemma-content"的div元素  div_with_class = soup.find("div", class_="J-lemma-content")  # 使用find_all查找所有class属性中包含"J-summary"的divj_summary_divs = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))# 打印结果for div in j_summary_divs:# 找到所有在div_container中的span元素span_elements = div.find_all("span")tmp=""# 遍历所有span元素并输出内容for span in span_elements:if span.get("class") and has_text(span.get("class")):tmp+=span.textcontents.append(tmp)contents.append("\n")if div_with_class:  # 遍历div中的所有子元素  for child in div_with_class.descendants: tmp_1=""# 检查子元素是否是span标签且class属性为"text_wRvkv"  if child.name == "div"  and child.get("class") and has_para_content_mark(child.get("class")):# 打印span元素的文本内容  for new_child in child.descendants: if new_child.name == "span" and new_child.get("class") and has_text(new_child.get("class")):tmp_1+=new_child.textcontents.append(tmp_1)contents.append("\n")    #  检查子元素是否是h2标签  elif child.name == "h2":  # 打印h2标签的内容  contents.append("####\n"+child.text+"\n")elif child.name == "h3":  # 打印h2标签的内容  contents.append("##"+child.text+"\n")return "".join(contents)else:  return "Failed to retrieve the{}.".format(url)

最后打印结果,发现可以复制词条中的主要内容,例如二级标题、三级标题和正文,以及每个百科最开始的概念介绍:

# 发送HTTP请求并获取响应  
url=r"https://baike.baidu.com/item/%E5%A4%AA%E9%98%B3%E8%83%BD%E5%85%89%E4%BC%8F%E5%8F%91%E7%94%B5/1158149?fromModule=lemma_inlink"
response = get_response(url) 
for content in contents:print(content)

解析效果如下(全文过长,这里只有部分):

光伏发电是根据光生伏特效应原理,利用太阳电池将太阳光能直接转化为电能。不论是独立使用还是并网发电,光伏发电系统主要由太阳电池板(组件)、控制器和逆变器三大部分组成,它们主要由电子元器件构成,但不涉及机械部件。所以,光伏发电设备极为精炼,可靠稳定寿命长、安装维护简便。理论上讲,光伏发电技术可以用于任何需要电源的场合,上至航天器,下至家用电源,大到兆瓦级电站,小到玩具,光伏电源可以无处不在。20221215日,入选中国工程院院刊《Engineering》发布“2022全球十大工程成就”。
####
分类
##发电模式
太阳能发电分光热发电和光伏发电。不论产销量、发展速度和发展前景、光热发电都赶不上光伏发电。可能因光伏发电普及较广而接触光热发电较少,通常民间所说的太阳能发电往往指的就是太阳能光伏发电,简称光电。
##输送方式
太阳能光伏发电分为独立光伏发电、并网光伏发电、分布式光伏发电

你也可以使用其他手段来避开反爬措施,但是我们的工作中,需要人工核验词条,因此采取了“把地址复制到excel中,爬虫批量爬取”的方法。你可以新建一个xlsx,然后新增两个列名“address”和“content”,然后运行:

import csv  
import pandas as pd  # 读取CSV文件  
df = pd.read_excel(r'D:\data\百科词条2.xlsx')  # 对第一列应用f1函数  
df["content"]= df.iloc[:, 0].apply(get_response)  # 将结果写回到原文件中  
df.to_excel('D:\data\百科词条2.xlsx', index=False)

为避免爬虫,也可以采用“手工保存网页,然后解析html”的方式

相关文章:

百度百科数据爬取 python 词条数据获取

最近需要补充一些电力名词的解释,尤其是文字相关内容。百度百科上的词条质量有差异,因此我们需要先手工选择一些高质量词条。 假设我们选择了互感器页面中的仪用变压器词条,首先: import requests from bs4 import BeautifulS…...

为不同文章形式选择不同的WordPress文章模板

在写文章的时候选择不同的文章形式,然后打开文章的时候会调用不同文章形式的模板。比如,文章形式为video ,就调用single-video.php模板,其它文章形式类似,可以添加多个文章样式。 //为不同文章形式的内容添加不同的si…...

MySQL存储引擎及索引机制

大家好我是咕噜美乐蒂,很高兴又和大家见面了! MySQL 存储引擎是指 MySQL 数据库管理系统中负责存储和检索数据的组件,它们可以影响数据的存储方式、事务支持、并发性能等方面。而索引则是用于加速检索数据库表中数据的数据结构。下面我将分别…...

Leetcode算法题

二进制求和 给两个字符串a和b&#xff0c;以二进制字符串的形式返回它们的和。 示例 1&#xff1a; 输入:a “11”, b “1” 输出&#xff1a;“100” 示例 2&#xff1a; 输入&#xff1a;a “1010”, b “1011” 输出&#xff1a;“10101” 提示&#xff1a; 1 <…...

数据结构之七大排序

&#x1d649;&#x1d65e;&#x1d658;&#x1d65a;!!&#x1f44f;&#x1f3fb;‧✧̣̥̇‧✦&#x1f44f;&#x1f3fb;‧✧̣̥̇‧✦ &#x1f44f;&#x1f3fb;‧✧̣̥̇:Solitary_walk ⸝⋆ ━━━┓ - 个性标签 - &#xff1a;来于“云”的“羽球人”。…...

【MySQL】数据库中常用的函数

目录 聚合函数COUNT()函数的多种用法COUNT(*)COUNT(主键)COUNT(1)COUNT(常量)COUNT(非主键)COUNT(distinct(字段)) COUNT()函数小结 字符函数length(str)函数&#xff1a;获取参数值的字节个数concat(str1,str2,...)函数&#xff1a;字符串拼接upper(str)、lower(str)函数:大小…...

嵌入式面试常见问题(四)

1.在基于Linux的网络套接字编程中&#xff0c;如果需要创建一个IPv4的网络套接字&#xff0c;应该在socket函数中指定domain参数为AF_INET 解析&#xff1a; socket()函数创建套接字 函数原型:int socket(int domain, int type, int protocol); domain&#xff1a;协议簇&…...

用Java在Spring Boot项目中,如何传递来传递一个对象(多个参数??

前言&#xff1a; 在前面我们已经了解到&#xff0c;Spring Boot项目中&#xff0c;可以传递一个参数&#xff0c;或者多个参数&#xff0c;但是&#xff0c;随着参数的增加&#xff0c;咱们总不能每增加一个参数&#xff0c;就重新写一段代码吧&#xff1f;&#xff1f;这样显…...

如何利用ChatGPT搞科研?论文检索、写作、基金润色、数据分析、科研绘图(全球地图、植被图、箱型图、雷达图、玫瑰图、气泡图、森林图等)

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮&#xff0c;可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…...

一命通关二分搜索

二分法 简介 和双指针一样&#xff0c;二分法也是一种优化方法&#xff0c;或者说二分法就是双指针的一类。不过&#xff0c;二分法的思想比双指针诞生更早也更广泛&#xff0c;在我们日常生活里也无时不刻在使用二分的思想。 比如我们想回顾某些影片&#xff0c;但是只记得…...

串联所有单词的子串

题目链接 串联所有单词的子串 题目描述 注意点 words[i] 和 s 由小写英文字母组成1 < words.length < 5000可以以 任意顺序 返回答案words中所有字符串长度相同 解答思路 根据滑动窗口哈希表解决本题&#xff0c;哈希表存储words中所有的单词及单词的出现次数&#…...

【会议征稿通知】第四届经济发展与商业文化国际学术会议(ICEDBC2024)

第四届经济发展与商业文化国际学术会议&#xff08;ICEDBC2024&#xff09; The 4th International Conference on Economic Development and Business Culture (ICEDBC 2024) 第四届经济发展与商业文化国际学术会议&#xff08;ICEDBC2024&#xff09;将于2024年6月21-23日在…...

回溯算法套路③排列型回溯+N皇后【基础算法精讲 16】

46 . 全排列 链接 : . - 力扣&#xff08;LeetCode&#xff09; 思路 : 那么怎么确定选了那个数呢? 这里设置一个used表示i选没选过 ; class Solution { public:vector<vector<int>> ans;vector<int> path;void backtrack(vector<int>nums,vect…...

MyBatis-Plus 框架中的自定义元对象处理器

目录 一、代码展示二、代码解读 一、代码展示 package com.minster.yanapi.handler;import com.baomidou.mybatisplus.core.handlers.MetaObjectHandler; import org.apache.ibatis.reflection.MetaObject; import org.springframework.stereotype.Component;import java.util…...

Node.js_基础知识(fs模块 - 文件操作)

写入 文件操作 流式写入:fs.createWriteStream(path[, options]) 可以减少打开关闭文件的次数适用于:大文件写入、频繁写入参数说明: path:文件路径文件夹操作: 调用mkdir方法:fs.mkdir(./a/b/c, err => {}) 递归创建文件夹:加参数recursive fs.mkdir(./a/b/c, {recu…...

基于C#开发OPC DA客户端——搭建KEPServerEX服务

简介 OPC DA (OLE for Process Control Data Access) 是一种工业自动化领域中的通信协议标准&#xff0c;它定义了应用程序如何访问由OPC服务器提供的过程控制数据。OPC DA标准允许软件应用程序&#xff08;客户端&#xff09;从OPC服务器读取实时数据或向服务器写入数据&…...

让你的函数,返回你需要的“两个值” (函数传址、结构体作为参数传参)

总结&#xff1a;1.结构体完成你的目标 2.指针传参 方法2. void get_a_b(int* a, int* b) { *a 13; *b 14; //通过解引用&#xff0c;找到并修改 } int main() { int a 0; int b 0; get_a_b(&a, &b); //传地址 prin…...

快速上手:在 Android 设备上运行 Pipy

Pipy 作为一个高性能、低资源消耗的可编程代理&#xff0c;通过支持多种计算架构和操作系统&#xff0c;Pipy 确保了它的通用性和灵活性&#xff0c;能够适应不同的部署环境&#xff0c;包括但不限于云环境、边缘计算以及物联网场景。它能够在 X86、ARM64、海光、龙芯、RISC-V …...

【操作系统学习笔记】文件管理1.3

【操作系统学习笔记】文件管理1.3 参考书籍: 王道考研 视频地址: Bilibili I/O 控制方式 程序直接控制方式中断驱动方式DMA 方式通道控制方式 程序直接控制方式 关键词: 轮询 完成一次读/写操作的流程 CPU 向控制器发出读指令。于是设备启动&#xff0c;并且状态寄存器设…...

基于springboot+vue的酒店管理系统

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…...

OpenClaw(小龙虾AI)Windows一键部署包v2.7.5|零代码+可视化操作

适配系统&#xff1a;Windows10 64 位&#xff08;纯小白友好版&#xff09; 核心优势&#xff1a;免命令行、免环境配置、解压即装&#xff0c;内置所有运行依赖&#xff0c;全程可视化操作&#xff0c;新手也能一次成功部署 2026 爆火的开源 AI 智能体&#xff01; 本文专属…...

前 DeepMind 研究员反思:评测,而非算力或数据,才是下一阶段的瓶颈

一线后训练研究员的技术随笔与动态评测管线启示当你还在为某项主流基准的分数微涨而讨论时&#xff0c;模型可能已悄悄学会“只说真话但战略性隐瞒”。前 Google DeepMind 高级研究员 Lun Wang 在近期的技术长文中抛出一个反直觉观察&#xff1a;如果下一代大模型跨进了全新的能…...

14404黄大年茶思屋榜文144期第四题AI辅助故障自动检测、复现和故障自动定界定位

开源鸿蒙难题揭榜第四题&#xff1a;AI辅助故障自动检测复现定位 AI零偏差标准化脱敏解题全集 摘要 本文严格遵循AI无偏差标准化解题框架&#xff0c;完成鸿蒙第四期系统故障智能运维难题全维度规范化拆解&#xff0c;全文一字未改复刻官方脱敏原题内容&#xff0c;精准还原隐藏…...

网关端口映射和路由器端口转发有什么区别?配置要点全解析

一、什么是网关端口映射网关端口映射是指通过路由器、防火墙等网关设备&#xff0c;建立“公网IP:外部端口”与“内网设备IP:内部端口”之间的一对一映射通道&#xff0c;让外网用户能够访问内网中的特定服务。‍形象理解&#xff1a;网关相当于“小区保安”&#xff0c;公网IP…...

真・三国无双 起源 官方正版2026最新版pc免费下载(看到请立即转存 资源随时失效)手机版通用

下载链接 破局与重塑&#xff1a;——《真・三国无双 起源》制作团队、玩法架构与竞品技术对标 作为光荣特库摩&#xff08;Koei Tecmo&#xff09;旗下最具代表性的动作砍杀IP最新作&#xff0c;《真・三国无双 起源》&#xff08;Dynasty Warriors: Origins&#xff09;在延…...

遥感影像分割选哪个?eCognition里8种方法(棋盘、多尺度、分水岭...)的实战避坑指南

遥感影像分割实战指南&#xff1a;eCognition八大算法深度解析与选型策略 1. 遥感影像分割的技术演进与核心挑战 在数字地球时代&#xff0c;高分辨率遥感影像已成为地理信息提取的重要数据源。与传统基于像素的分类方法相比&#xff0c;面向对象影像分析&#xff08;OBIA&am…...

BabelDOC终极指南:三步解决PDF翻译格式错乱难题

BabelDOC终极指南&#xff1a;三步解决PDF翻译格式错乱难题 【免费下载链接】BabelDOC Yet Another Document Translator 项目地址: https://gitcode.com/GitHub_Trending/ba/BabelDOC 还在为PDF文档翻译后格式混乱而烦恼吗&#xff1f;BabelDOC作为专业的PDF文档翻译工…...

wpr_simulation机器人仿真平台:架构设计与高级应用实战

wpr_simulation机器人仿真平台&#xff1a;架构设计与高级应用实战 【免费下载链接】wpr_simulation 项目地址: https://gitcode.com/gh_mirrors/wp/wpr_simulation wpr_simulation是一个基于ROS&#xff08;机器人操作系统&#xff09;的完整机器人仿真平台&#xff0…...

初创团队如何借助Taotoken控制台实现API密钥与访问审计

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 初创团队如何借助Taotoken控制台实现API密钥与访问审计 对于初创技术团队而言&#xff0c;在快速迭代产品、频繁调用大模型API的同…...

UWB硬件堆叠 vs 镜像视界无感原生:新质生产力下的定位革命

UWB硬件堆叠 vs 镜像视界无感原生&#xff1a;新质生产力下的定位革命在数字孪生与空间智能加速落地的当下&#xff0c;全域感知技术正经历一场从“物理外挂”到“数字原生”的底层范式变革。长期以来&#xff0c;以UWB&#xff08;超宽带&#xff09;为代表的传统定位方案&…...