当前位置: 首页 > article >正文

Python实战:构建个人古诗知识库,从古诗文网高效采集与存储

1. 为什么你需要一个古诗知识库作为一个诗词爱好者我经常遇到这样的困扰读到一首好诗想收藏结果过几天就忘了出处想查找某个主题的诗句却记不清具体内容看到喜欢的诗人作品想系统研究却找不到完整资料。这些问题促使我开发了这套古诗采集系统。古诗知识库的价值远不止于简单的收藏。它可以帮你建立个人诗词索引随时检索调用按作者、朝代、主题进行多维分类积累写作素材提升文学修养为后续的知识图谱构建打下基础我选择古诗文网作为数据源因为它收录全面、分类清晰而且页面结构相对稳定。通过Python爬虫技术我们可以把这些散落在网页上的珍贵资料变成结构化的个人知识资产。2. 环境准备与项目配置2.1 基础环境搭建首先确保你的电脑已经安装Python 3.7版本。我强烈建议使用虚拟环境来管理依赖这样可以避免包冲突。下面是具体操作步骤# 创建并激活虚拟环境 python -m venv poetry_env source poetry_env/bin/activate # Linux/Mac poetry_env\Scripts\activate.bat # Windows # 克隆项目仓库 git clone https://github.com/palp1tate/fetch-gushiwen.git cd fetch-gushiwen # 安装依赖 pip install -r requirements.txt主要依赖包包括requests网络请求beautifulsoup4HTML解析PyYAML配置文件读取pymysqlMySQL数据库连接2.2 数据库配置可选如果你想将数据存入MySQL需要先创建数据库CREATE DATABASE gushiwen CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;然后修改项目根目录下的config.yaml文件mysql: host: localhost port: 3306 user: your_username password: your_password db: gushiwen建议使用Navicat等工具导入项目中的poem.sql文件这会自动创建好数据表结构。表设计包含了诗歌名称、作者、朝代、内容等完整字段还支持后续扩展。3. 核心爬虫实现解析3.1 网页请求与反爬策略古诗文网虽然没有特别严格的反爬机制但我们仍需要遵守基本的爬虫礼仪headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Accept-Language: zh-CN,zh;q0.9, Referer: https://www.gushiwen.cn/ } def get_page(url): try: response requests.get(url, headersheaders, timeout10) response.raise_for_status() response.encoding utf-8 return response.text except Exception as e: print(f请求失败: {e}) return None关键点设置合理的User-Agent模拟浏览器控制请求频率建议添加time.sleep(1)处理各种网络异常情况遵守robots.txt的规则3.2 数据解析技巧诗歌页面的解析是核心难点。以这首《行宫》为例我们需要从HTML中提取多个字段def parse_poem(html): soup BeautifulSoup(html, html.parser) poem { name: soup.find(h1).text.strip(), author: soup.select(.source a)[0].text, dynasty: soup.select(.source a)[1].text, content: \n.join([p.text for p in soup.select(.contson p)]), trans: soup.find(div, class_contyishang).text if soup.find(div, class_contyishang) else , # 其他字段类似处理... } return poem实际项目中我遇到了几个坑部分古诗没有译文或注释作者信息有时包含特殊符号内容中的换行符处理需要特别注意建议添加完善的异常处理确保某个字段缺失时不影响整体采集。4. 数据存储方案对比4.1 CSV文件存储对于初学者CSV是最简单的存储方式。项目中的shige_csv.py已经实现了这个功能import csv def save_to_csv(poems, filenamepoems.csv): with open(filename, a, encodingutf-8, newline) as f: writer csv.DictWriter(f, fieldnamespoems[0].keys()) if f.tell() 0: writer.writeheader() writer.writerows(poems)CSV的优势无需数据库环境文件可以直接用Excel打开适合小规模数据万条以内但超过10万条数据后查询效率会明显下降。4.2 MySQL数据库存储对于大规模数据我推荐使用MySQL。项目中的shige_db.py展示了完整实现import pymysql def save_to_db(poem): conn pymysql.connect(**config) try: with conn.cursor() as cursor: sql INSERT INTO poems (name,author,dynasty,content,trans,...) VALUES (%s,%s,%s,%s,%s,...) cursor.execute(sql, (poem[name], poem[author],...)) conn.commit() finally: conn.close()数据库方案的优势支持复杂查询如查找所有李白的七言诗便于后续扩展为知识图谱适合长期积累大量数据我在实际使用中发现添加适当的索引可以大幅提升查询速度ALTER TABLE poems ADD INDEX idx_author (author); ALTER TABLE poems ADD FULLTEXT INDEX idx_content (content);5. 高级应用与扩展思路5.1 定时增量采集为了避免重复采集可以记录已爬取的URLimport pickle class UrlManager: def __init__(self): try: with open(urls.pkl, rb) as f: self.existed_urls pickle.load(f) except: self.existed_urls set() def save(self): with open(urls.pkl, wb) as f: pickle.dump(self.existed_urls, f)结合Linux的crontab或Windows的任务计划程序可以实现每日自动采集新诗# 每天凌晨2点运行 0 2 * * * /path/to/python /project/shige_db.py5.2 构建知识图谱有了基础数据后可以进一步构建关系网络诗人关系图通过共同创作、引用等建立连接诗歌主题网络分析高频词关联时空分布图按朝代和地域可视化这需要用到Neo4j等图数据库以及jieba分词、Gensim等文本处理工具。5.3 开发Web界面用Flask或Django搭建一个简单的查询界面from flask import Flask, request app Flask(__name__) app.route(/search) def search(): keyword request.args.get(q) # 数据库查询逻辑 return render_template(results.html, poemspoems)这样就能随时随地通过浏览器访问自己的古诗库了。

相关文章:

Python实战:构建个人古诗知识库,从古诗文网高效采集与存储

1. 为什么你需要一个古诗知识库? 作为一个诗词爱好者,我经常遇到这样的困扰:读到一首好诗想收藏,结果过几天就忘了出处;想查找某个主题的诗句,却记不清具体内容;看到喜欢的诗人作品,…...

Gon部署与运维:生产环境配置、监控和故障排除完整手册

Gon部署与运维:生产环境配置、监控和故障排除完整手册 【免费下载链接】gon Your Rails variables in your JS 项目地址: https://gitcode.com/gh_mirrors/go/gon Gon是一款专为Rails应用设计的实用工具,能够轻松实现Rails变量在JavaScript中的共…...

如何通过ExplorerPatcher实现Windows 11界面个性化定制:从经典布局到高效工作流

如何通过ExplorerPatcher实现Windows 11界面个性化定制:从经典布局到高效工作流 【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher Wi…...

3大技术突破重构macOS鼠标体验:Mac Mouse Fix深度解析

3大技术突破重构macOS鼠标体验:Mac Mouse Fix深度解析 【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 核心痛点分析:mac…...

AI辅助开发智能车:让快马平台优化你的图像处理与识别算法

最近在准备智能车竞赛,遇到了一个头疼的问题:摄像头采集的图像受环境光影响太大,导致巡线识别不稳定。特别是在弯道和阴影区域,传统固定阈值的二值化方法完全失效。经过反复尝试,发现用InsCode(快马)平台的AI辅助开发功…...

图深度学习文献宝库LiteratureDL4Graph:一站式掌握图神经网络研究进展

图深度学习文献宝库LiteratureDL4Graph:一站式掌握图神经网络研究进展 【免费下载链接】LiteratureDL4Graph 项目地址: https://gitcode.com/gh_mirrors/li/LiteratureDL4Graph 想要快速掌握图神经网络(GNN)和图深度学习的最新研究进展吗?Litera…...

5步快速上手:百度网盘直链解析工具实现高速下载

5步快速上手:百度网盘直链解析工具实现高速下载 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的下载速度限制而烦恼吗?百度网盘直链解…...

ANSYS模态分析后,如何用MATLAB把导出的HB格式刚度矩阵变回普通矩阵?(附完整命令流)

ANSYS模态分析后HB格式刚度矩阵的MATLAB转换全流程解析 在结构动力学和有限元分析领域,ANSYS与MATLAB的协同工作已经成为科研人员和工程师的标配工作流。模态分析作为结构动态特性研究的基础,其刚度矩阵的导出与后续处理尤为关键。然而,当您从…...

消息防撤回方案:RevokeMsgPatcher的通讯内容保护实践

消息防撤回方案:RevokeMsgPatcher的通讯内容保护实践 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了) 项目地址: https://gitcode.com…...

Qwen2-VL-2B-Instruct实战教程:Text-Text语义距离计算在合同比对中的应用

Qwen2-VL-2B-Instruct实战教程:Text-Text语义距离计算在合同比对中的应用 1. 引言:当合同审查遇上AI语义理解 想象一下这个场景:你手头有两份合同,一份是标准模板,另一份是客户发来的修改版。你需要快速找出两份合同…...

深入理解fibjs Fiber机制:为什么它能提升并发性能

深入理解fibjs Fiber机制:为什么它能提升并发性能 【免费下载链接】fibjs JavaScript on Fiber (built on Chromes V8 JavaScript engine) 项目地址: https://gitcode.com/gh_mirrors/fi/fibjs 在JavaScript的世界中,处理高并发一直是开发者面临的…...

BG3ModManager完整教程:高效管理博德之门3模组的实用指南

BG3ModManager完整教程:高效管理博德之门3模组的实用指南 【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是一款专为《博德之门3》玩家设计的模组管理工具&…...

input-overlay多语言支持:如何为全球观众轻松定制直播输入显示

input-overlay多语言支持:如何为全球观众轻松定制直播输入显示 【免费下载链接】input-overlay Show keyboard, gamepad and mouse input on stream 项目地址: https://gitcode.com/gh_mirrors/in/input-overlay 想要让全球观众都能轻松理解你的游戏操作吗&a…...

CodeT5安全使用指南:如何避免代码生成中的潜在风险

CodeT5安全使用指南:如何避免代码生成中的潜在风险 【免费下载链接】CodeT5 Home of CodeT5: Open Code LLMs for Code Understanding and Generation 项目地址: https://gitcode.com/gh_mirrors/co/CodeT5 CodeT5作为一款强大的代码理解与生成AI模型&#x…...

React-Grid-Layout终极指南:三步构建专业级可拖拽网格布局

React-Grid-Layout终极指南:三步构建专业级可拖拽网格布局 【免费下载链接】react-grid-layout A draggable and resizable grid layout with responsive breakpoints, for React. 项目地址: https://gitcode.com/gh_mirrors/re/react-grid-layout React-Gri…...

Dankoe新作《使命与收益》读书笔记 7|你不是迷茫,你只是不敢面对真正的自己

"我不知道自己想要什么。" 这大概是30岁前后最常说的一句话。辞职不敢,创业不会,留下来又不甘心。于是我们把迷茫当成一种身份,穿在身上,仿佛承认迷茫就不必为停滞负责。 但Dan Koe在《使命与收益》里说了一句扎心的话…...

GLM-4.1V-9B-Base实战案例:智能客服知识库图片问答模块集成方案

GLM-4.1V-9B-Base实战案例:智能客服知识库图片问答模块集成方案 1. 项目背景与需求分析 在智能客服系统中,用户经常需要上传产品图片、使用场景截图或问题示意图进行咨询。传统客服系统只能依赖人工处理这类图片咨询,效率低下且成本高昂。G…...

Mustache错误处理与调试:7个常见问题排查清单

Mustache错误处理与调试:7个常见问题排查清单 【免费下载链接】mustache Logic-less Ruby templates. 项目地址: https://gitcode.com/gh_mirrors/mu/mustache Mustache是一款流行的无逻辑Ruby模板引擎,但开发者在实际使用中经常会遇到各种错误和…...

告别繁琐输入:基于SmartConfig与微信的ESP8266/ESP32一键配网实战

1. 为什么我们需要一键配网技术? 每次拿到新的智能设备,最头疼的就是怎么把它连上家里的Wi-Fi。传统的配网方式通常需要你在手机App里手动输入Wi-Fi名称和密码,这个过程不仅繁琐,还容易出错。想象一下,你要给10个智能灯…...

如何高效管理游戏资源:GodotPckTool 完全指南与5个实战技巧

如何高效管理游戏资源:GodotPckTool 完全指南与5个实战技巧 【免费下载链接】GodotPckTool Standalone tool for extracting and creating Godot .pck files 项目地址: https://gitcode.com/gh_mirrors/go/GodotPckTool GodotPckTool 是一个独立的命令行工具…...

usearch的API测试数据生成:使用Faker创建模拟数据

usearch的API测试数据生成:使用Faker创建模拟数据 【免费下载链接】usearch Fastest Open-Source Search & Clustering engine for Vectors & 🔜 Strings in C, C, Python, JavaScript, Rust, Java, Objective-C, Swift, C#, GoLang, and Wolf…...

别再瞎调优先级了!STM32CubeMX配置FreeRTOS任务调度器的5个实战避坑点

别再瞎调优先级了!STM32CubeMX配置FreeRTOS任务调度器的5个实战避坑点 刚接触FreeRTOS的嵌入式开发者,往往会在STM32CubeMX的图形化配置界面里迷失方向。那些看似简单的下拉菜单和复选框,背后却藏着让系统崩溃的陷阱。我曾见过一个工程师将任…...

Landsat8温度反演结果不准?可能是这5个参数没搞对(ENVI实战经验分享)

Landsat8温度反演精度提升:5个关键参数优化与ENVI实战解析 当你在深夜盯着屏幕上那些明显偏离预期的温度反演结果时,是否曾怀疑过ENVI软件出了问题?事实上,90%的温度反演误差都源于几个关键参数的设置不当。作为一位经历过数十个遥…...

Altium Designer 实战指南:高效创建与优化PCB封装库

1. Altium Designer封装库基础入门 刚接触PCB设计时,我最头疼的就是封装库的创建。记得第一次画板子,因为电阻封装画错导致整批板子返工,那种挫败感至今难忘。现在用Altium Designer做封装就像搭积木一样简单,关键是要掌握正确的方…...

PID调参翻车实录:STM32驱动编码电机时,P值过大为何电机啸叫还振荡?

PID调参实战:STM32编码电机啸叫与振荡问题深度解析 当你在深夜实验室里第一次听到电机发出刺耳的啸叫声,同时观察到示波器上速度曲线像过山车一样上下震荡时,那种既困惑又兴奋的感觉,相信每个做过电机控制的工程师都深有体会。这不…...

五步解锁老旧Mac新生:OpenCore Legacy Patcher实战指南

五步解锁老旧Mac新生:OpenCore Legacy Patcher实战指南 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 如何让苹果官方已停更的老旧Mac设备重新焕…...

如何用ScanNetv2复现Stratified和SWIN3D论文实验?完整数据集配置指南

如何用ScanNetv2复现Stratified和SWIN3D论文实验?完整数据集配置指南 在3D点云分割领域,ScanNetv2数据集已成为评估算法性能的黄金标准。对于想要复现Stratified Transformer或SWIN3D这类前沿论文的研究者来说,数据集的正确配置往往是第一个…...

Flask-base实战案例:从零构建功能完备的博客系统

Flask-base实战案例:从零构建功能完备的博客系统 【免费下载链接】flask-base A simple Flask boilerplate app with SQLAlchemy, Redis, User Authentication, and more. 项目地址: https://gitcode.com/gh_mirrors/fl/flask-base Flask-base是一个功能强大…...

PCL (Matlab)拟合椭球

一、椭球点云数学模型二、PCL生成点云int main() {// 生成椭球点云 噪声pcl::PointCloud<pcl::PointXYZ>::Ptr cloud(new pcl::PointCloud<pcl::PointXYZ>);// 椭球参数float a 2.0f; // x轴float b 1.5f; // y轴float c 1.0f; // z轴int N 20000;// 随机数…...

如何在5分钟内开始使用Ivy Wallet:新手入门教程

如何在5分钟内开始使用Ivy Wallet&#xff1a;新手入门教程 【免费下载链接】ivy-wallet Ivy Wallet is an open-source money manager app for android that you can either build or download from Google Play. 项目地址: https://gitcode.com/gh_mirrors/iv/ivy-wallet …...