当前位置: 首页 > article >正文

基于 AI Agent 的童话编剧与绘本生成器(二)——爬虫篇

上一篇文章发表后组内成员说不用写那么长的代码介绍建议我只对实现的核心功能进行概括。一、实现的爬虫脚本在第4、5周实现了“从公开网页目前选则 Storyberries拉取童话/绘本类文本”的爬虫为后面的「编剧 / 绘本生成」提供语料或参考素材。在文件头写明了两个目标站点及正文所在 DOM文档对象模型 区域。二、环境与依赖Python 标准库为主urllib、argparse、csv、pathlib、re等不引入requests。童话站点多半是服务端渲染或传统 HTML用html.parser CSS 选择器足够标准库urllib降低依赖冲突和爬虫场景匹配。环境依赖必须安装 BeautifulSoup4解析 HTML若未安装脚本在 main() 里会直接退出并提示 pip install beautifulsoup4。三、主要模块职责介绍表逻辑区块代表函数/常量职责全局配置BASE_URL、UA、DEFAULT_CATEGORY_RANGE站点根地址、合规 UA、默认分类 ID 范围HTTP 基础设施build_http_opener、http_get、http_get_bytes、decode_body代理、重试退避、超时、正文/二进制下载、编码探测Storynook 链接发现normalize_site_url、extract_story_ids_from_html、collect_story_urls从首页与/story/list/{分类}/{页}收集/story/{id}Storynook 正文解析parse_story_page标题 #storyContent/.article-content纯文本Storyberries 列表与正文collect_storyberries_story_urls、parse_storyberries_article分类翻页、h2.entry-title a、.entry-content与插图 URL插图辅助_parse_srcset_best、_img_best_url、extension_for_imagesrcset取最大宽度图、扩展名推断运行与 CLI运行与 CLI探针模式、两站点分支、写txtstories_metadata.csv四、HTTP 层单独写http_get和decode_body1. 编码网页charset可能不准或缺失。decode_body先信响应头/提示再依次尝试utf-8、gbk、utf-8-sig最后用replace兜底避免中文乱码或整段解析失败。2. 重试与退避对408/429/5xx和部分网络错误做有限次重试间隔min(2**attempt, 20)减轻对目标站压力也提高弱网下的成功率。3. 用户提示print_timeout_hint在超时类错误时打印可操作提示。五、Storynook从「发现 URL」到「存 txt」1. URL 发现策略先抓首页用正则 normalize_site_url收集形如/story/数字的链接排除列表页等。若未加--no-list-crawl再按分类 ID 区间遍历列表页若连续两页没有新 ID 则提前停止避免无意义翻页。2. 正文解析标题#storyTitle 或 h1.article-title正文#storyContent 或 .article-content去掉 script/style 后 get_text(\n, stripTrue)得到适合后续 NLP 或 Agent 的纯文本段落。3. 落盘与元数据每篇一个 {序号}_{标题}.txt根目录下 stories_metadata.csvUTF-8-SIG 方便 Excel字段含 title、url、text_chars、local_txt 等失败时 status 记录 fetch_error / parse_error / text_too_short便于批量跑完后统计质量。六、Storyberries绘本站点的额外复杂度插图1. 列表页WordPress 分类支持/page/N/用h2.entry-title a[href]收集文章链接并规范到www.storyberries.com避免重复。2. 正文与图正文仍在.entry-content插图从img上取 URL优先解析srcset里宽度最大的候选现代站点常用响应式多图再回退data-src/src过滤gravatar、/emoji/等非内容图。3. 可选下载--no-images时只存文本否则按篇建子目录用http_get_bytes写文件扩展名由 URL 或Content-Type推断。七、当前成果总结双站点统一 CLIStorynook 爬取“短篇文本语料”Storyberries爬取“带图绘本页”。重试、延迟、代理、探针模式齐全。爬取效果大致如下。

相关文章:

基于 AI Agent 的童话编剧与绘本生成器(二)——爬虫篇

上一篇文章发表后,组内成员说不用写那么长的代码介绍,建议我只对实现的核心功能进行概括。 一、实现的爬虫脚本 在第4、5周实现了“从公开网页(目前选则 Storyberries)拉取童话/绘本类文本”的爬虫,为后面的「编剧 /…...

从杨氏双缝到现代应用:用Python模拟干涉条纹并分析误差(附代码)

用Python重构杨氏双缝实验:从数学建模到误差分析的完整指南 当物理实验遇上Python编程,经典的光学现象便有了全新的打开方式。想象一下,无需繁琐的光路调整和精密仪器,只需几行代码就能在屏幕上生成清晰的干涉条纹——这正是计算物…...

FreeRTOS在ARM Cortex-M上的移植原理与工程实践

1. FreeRTOS_ARM项目概述 FreeRTOS_ARM并非一个独立的第三方开源项目,而是指FreeRTOS实时操作系统在ARM架构微控制器上的官方适配与工程实践体系。FreeRTOS本身是一个轻量级、可裁剪、开源(MIT License)的实时内核,其核心设计目标…...

tinyCore:轻量级多核任务分发框架

1. tinyCore 库概述:面向多核嵌入式系统的轻量级任务分发框架tinyCore 是一个专为资源受限型多核微控制器设计的轻量级运行时抽象库,其核心目标并非实现完整的实时操作系统(RTOS)功能,而是提供一种语义清晰、配置极简、…...

DeepFlow Agent 故障排查指南:注册失败、协议解析、资源识别与配置方式赋

一、什么是urllib3? urllib3 是一个用于处理 HTTP 请求和连接池的强大、用户友好的 Python 库。 它可以帮助你: 发送各种 HTTP 请求(GET, POST, PUT, DELETE等)。 管理连接池,提高网络请求效率。 处理重试和重定向。 支…...

[AI/向量数据库/GUI] Attu : Milvus 的图形化与一体化管理工具艘

前言 在使用 kubectl get $KIND -o yaml 查看 k8s 资源时,输出结果中包含大量由集群自动生成的元数据(如 managedFields、resourceVersion、uid 等)。这些信息在实际复用 yaml 清单时需要手动清理,增加了额外的工作量。 使用 ku…...

图解强化学习 |强化学习在自动加药系统上的尝试(在线更新,和模型微调)

🌞欢迎来到图解强化学习的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 📆首发时间:🌹2026年4月12日🌹 ✉️希望可以和大家一起完成…...

【GESP】C++二级考试必备:深入解析RAM、ROM与Cache的工作原理与应用场景

1. 计算机存储的基本概念与分类 计算机存储就像我们日常生活中的仓库,用来存放各种数据和程序。想象一下,你有一个大书架(硬盘),上面放满了书(数据),但每次找书都要花很长时间。于是…...

MeteorSeed潮

这个代码的核心功能是:基于输入词的长度动态选择反义词示例,并调用大模型生成反义词,体现了 “动态少样本提示(Dynamic Few-Shot Prompting)” 与 “上下文长度感知的示例选择” 的能力。 from langchain.prompts impo…...

普通数组-238. 除了自身以外数组的乘积(数组、前缀和)

文章目录 一、核心解题思路二、完整可运行代码(大厂机考版) 力扣地址: 中等:238. 除了自身以外数组的乘积 挺简单的 一、核心解题思路 前缀积数组 prefix:prefix[i] 表示 nums[0..i-1] 所有元素的乘积(即…...

行式存储(Row-based Storage)和列式存储(Column-base Storage)简介舷

1. 哑铃图是什么? 哑铃图(Dumbbell Plot),有时也称为DNA图或杠铃图,是一种用于比较两个相关数据点的可视化图表。 它源于人们对更有效数据比较方式的持续探索。 在传统的时间序列比较中,我们通常使用两条折…...

AI 时代的程序员:从“建造者”到“定义者”宋

一、前言:什么是 OFA VQA 模型? OFA(One For All)是字节跳动提出的多模态预训练模型,支持视觉问答、图像描述、图像编辑等多种任务,其中视觉问答(VQA)是最常用的功能之一——输入一张…...

代购佣金计算系统的设计与实现

随着跨境代购业务规模化发展,人工核算佣金效率低、易出错、对账复杂,已成为制约业务扩张的核心痛点。构建一套自动化、可配置、高可靠的代购佣金计算系统,可实现订单佣金实时计算、多级分润自动分配、结算流程线上化与风险可控,显…...

OV7670图像传感器底层驱动与MCU实时采集实战

1. OV7670图像传感器底层驱动技术详解OV7670是OmniVision公司于2000年代初推出的低功耗、单芯片VGA(640480)CMOS图像传感器,采用CSP封装,支持RGB565、YUV422、RAW RGB等多种输出格式,内置PLL、自动曝光/白平衡/增益控制…...

ClearDS1302库:面向初学者的DS1302实时时钟Arduino驱动设计

1. ClearDS1302库概述:面向嵌入式初学者的DS1302实时时钟驱动设计哲学ClearDS1302是一个专为Arduino平台设计的C类库,其核心目标并非追求极致性能或最小资源占用,而是以工程可维护性和学习友好性为第一设计原则。在嵌入式开发实践中&#xff…...

# 上海第一次带宠物去洗护,怎么避免被坑和乱剪毛?

在上海养宠,洗护是绕不开的刚需。尤其是第一次带毛孩子去店里,很多铲屎官心里都打鼓:怕价格不透明,怕美容师手重,更怕“一言不合就剃光”。这里整理了几个大家最关心的问题,帮你理清思路,少踩坑…...

FeatherLib:Adafruit Feather 多平台硬件抽象库

1. FeatherLib 库概述FeatherLib 是专为 Adafruit 公司系列 Feather 开发板及其配套 FeatherWing 扩展模块设计的轻量级 C/C 库。该库并非官方 HAL 层实现,而是一个面向嵌入式工程师的“工程胶水层”——它不替代底层 MCU 的标准外设驱动(如 STM32 HAL、…...

【故障公告】数据库服务器磁盘 MBPS 高造成 :-: 期间全站故障锻

Issue 概述 先来看看提交这个 Issue 的作者是为什么想到这个点子的,以及他初步的核心设计概念。?? 本 PR 实现了 Apache Gravitino 与 SeaTunnel 的集成,将其作为非关系型连接器的外部元数据服务。通过 Gravitino 的 REST API 自动获取表结构和元数据&…...

2026最权威的五大AI辅助写作神器实际效果

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于学术研究刚开始的阶段之时,开题报告写出的时候常常会碰到文献整理得不全面&…...

使用 Bright Data Web Scraper API + Python 高效抓取 Glassdoor 数据:从配置到结构化输出全流程经验分享

在做人才市场分析、雇主品牌研究、薪酬趋势观察时,Glassdoor 是非常有价值的数据源。但手写爬虫往往会遇到动态渲染、反爬、IP 风控、验证码、维护成本高等问题。 如果你的目标是“快速、稳定、可规模化”,使用 Bright Data Web Scraper API(…...

MQ2气体传感器驱动库:原理、标定与FreeRTOS工程实践

1. MQ2气体传感器驱动库技术解析与工程实践1.1 库定位与工程价值MQ2是一款广泛应用于嵌入式系统的宽谱可燃气体检测传感器,其核心敏感元件为二氧化锡(SnO₂)半导体气敏材料。该传感器对液化石油气(LPG)、丙烷、氢气、甲…...

数据摄取构建模块简介(预览版)(二)趴

Qt是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...

Arduino设备控制项目实战:从Demo代码到量产固件

1. 项目概述Goldfish4Tech 并非一个标准开源嵌入式库,其 GitHub 或公开技术平台中未收录可检索的源码仓库、API 文档或硬件设计资料。根据所提供的唯一有效输入信息——项目标题 "Goldfish4Tech"、摘要 "Arduino demo code for project"、关键词…...

PAJ7620手势传感器Arduino驱动库详解

1. 项目概述RevEng PAJ7620 是一个面向嵌入式平台的 Arduino 兼容 C 驱动库,专为 PixArt 公司推出的 PAJ7620 系列集成手势识别传感器设计。该库完整支持 PAJ7620、PAJ7620U2 和 PAJ7620F2 三种硬件变体,其核心目标是将底层寄存器操作、IC 协议时序、模式…...

别再踩坑了!SQL Server数据类型那点事儿,看懂这篇少背三个锅不

从0构建WAV文件:读懂计算机文件的本质 虽然接触计算机有一段时间了,但是我的视野一直局限于一个较小的范围之内,往往只能看到于算法竞赛相关的内容,计算机各种文件在我看来十分复杂,认为构建他们并能达到目的是一件困难…...

ESP32/ESP8266轻量级OTA固件升级库详解

1. 项目概述ESP32FwUploader 是一款专为 ESP32 和 ESP8266 系列微控制器设计的轻量级、高可靠性固件空中升级(Over-The-Air, OTA)库。它并非简单封装 ESP-IDF 或 Arduino Core 的原生 OTA 接口,而是以“开箱即用”和“工程鲁棒性”为核心目标…...

第7篇:嵌入式芯片运算核心:ALU_MAC_FPU的工作原理与性能差异

引言:运算单元是嵌入式芯片算力的核心载体 嵌入式芯片作为各类智能终端、工业控制设备、物联网节点的“大脑”,其算力表现直接决定了设备的响应速度、处理能力与功耗效率。而运算单元作为嵌入式芯片CPU/GPU/DSP核心的核心,是执行所有算术运算…...

ATCODER ABC C题解仿

这&#xff0c;是一个采用C精灵库编写的程序&#xff0c;它画了一幅漂亮的图形&#xff1a; 复制代码 #include "sprites.h" //包含C精灵库 Sprite turtle; //建立角色叫turtle void draw(int d){ for(int i0;i<5;i)turtle.fd(d).left(72); } int main(){ …...

深入理解C语言中的位域布局与字节序

在C语言的世界中,位域(bit-field)是一种独特的数据结构,用于在内存中高效地存储数据。然而,尽管C语言标准已经引入了新的宏来确定编译时的字节序,但位域的布局仍旧是一个复杂且需要深入理解的问题。本文将通过实例来探讨位域的布局规则和字节序之间的关系。 位域的基本概…...

从MATLAB工具箱到Python实战:手把手教你用最小二乘法和SVM搞定一个自适应控制系统

从MATLAB工具箱到Python实战&#xff1a;手把手教你用最小二乘法和SVM构建自适应控制系统 在工业自动化与智能设备研发中&#xff0c;自适应控制系统是实现高精度动态调节的核心技术。传统PID控制器在面对参数时变或非线性系统时往往表现乏力&#xff0c;而结合系统辨识与机器学…...