当前位置：首页 > news >正文

LangChain之网络爬虫

news 2025/7/8 3:19:26

网络爬虫

概述

网络爬虫是LangChain中的一项关键功能，允许用户自动从互联网上收集信息。这项功能对于研究和数据收集尤其有价值，因为它可以大幅减少手动搜索和信息整理的工作量。

从网络收集内容有几个主要组件：

Search搜索：使用工具如GoogleSearchAPIWrapper查询并获取URL列表。Loading加载：将URL转换为HTML内容，使用工具如AsyncHtmlLoader或AsyncChromiumLoader。Transforming转换：将HTML内容转换为格式化文本，使用HTML2Text或BeautifulSoup等工具。

准备

安装相关依赖库

pip install langchain-openai langchain playwright beautifulsoup4

设置OpenAI的BASE_URL、API_Key

import osos.environ["OPENAI_BASE_URL"] = "https://xxx.com/v1"
os.environ["OPENAI_API_KEY"] = "sk-dtRXRfYzHDZQT8Cr2874xxxx13F97bF24b7a"

加载器

使用Chromium的无头实例爬取HTML内容，无头模式意味着浏览器在没有图形用户界面的情况下运行，这通常用于网页抓取。

主要有2种方式：

方式	加载器	描述
Python的asyncio库	AsyncHtmlLoader	使用该库aiohttp发出异步 HTTP 请求，适合更简单、轻量级的抓取。
Playwright	AsyncChromiumLoader	使用 Playwright 启动 Chromium 实例，该实例可以处理 JavaScript 渲染和更复杂的 Web 交互。

注意：

Chromium 是 Playwright 支持的浏览器之一，Playwright 是一个用于控制浏览器自动化的库。

from langchain_community.document_loaders import AsyncChromiumLoader# 加载HTML
loader = AsyncChromiumLoader(["https://www.langchain.com"])
html = loader.load()

转换

html2text

html2text 是一个 Python 包，它将 HTML 页面转换为干净、易于阅读的纯文本，无需任何特定的标签操作。它最适合目标是提取人类可读文本而不需要操作特定HTML元素的场景。

要使用html2text，首先需要额外安装

pip install html2text

使用示例如下：

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import Html2TextTransformer# 加载HTML
loader = AsyncChromiumLoader(["https://www.langchain.com"])
html = loader.load()# # 转换
html2text = Html2TextTransformer()
docs_transformed = html2text.transform_documents(html)# 结果
res = docs_transformed[0].page_content[0:500]
print(res)

Beautiful Soup

Beautiful Soup 提供对 HTML 内容更细粒度的控制，支持特定标签的提取、删除和内容清理。它适合根据需要提取特定信息并清理 HTML 内容的情况。

要使用Beautiful Soup，首先也是需要安装

pip install beautifulsoup4

使用示例如下

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer
# 加载HTML
loader = AsyncChromiumLoader(["https://www.langchain.com"])
html = loader.load()# # 转换
bs_transformer = BeautifulSoupTransformer()
docs_transformed = bs_transformer.transform_documents(html, tags_to_extract=["h1"])# 结果
res = docs_transformed[0].page_content[0:500]
print(res)

从HTML内容中爬取文本内容标签说明

<p>：段落标签。在HTML中定义段落，并用于组合相关句子或短语<li>：列表项标签。用于有序（<ol>）和无序（<ul>）列表中，定义列表中的各个项<div>：分区标签。块级元素，用于组合其他内联或块级元素<a>：锚点标签。用于定义超链接<span>：内联容器，用于标记文本的一部分或文档的一部分

提取

定义模式、架构来指定想要提取的数据类型。键名很重要，因为它告诉 LLM想要什么样的信息。

# 定义模式、架构来指定想要提取的数据类型
schema = {"properties": {"all_tutorial_category": {"type": "string"},"category_item": {"type": "string"},},"required": ["all_tutorial_category"],
}

提取网页内容的爬虫实现如下

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer
from langchain_openai import ChatOpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitterllm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")
from langchain.chains import create_extraction_chain# 定义模式、架构来指定想要提取的数据类型
schema = {"properties": {"category_item": {"type": "string"},},"required": ["category_item"],
}# 执行提取链
def extract(content: str, schema: dict):return create_extraction_chain(schema=schema, llm=llm).invoke(content)# 使用AsyncChromiumLoader加载器
def scrape_with_playwright(urls, schema):loader = AsyncChromiumLoader(urls)docs = loader.load()bs_transformer = BeautifulSoupTransformer()# 限制爬取指定标签内容docs_transformed = bs_transformer.transform_documents(docs, tags_to_extract=["h4"])print("使用 LLM 提取内容")# 获取网站的前 1000 个token文本splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=1000, chunk_overlap=0)splits = splitter.split_documents(docs_transformed)# 拆分处理extracted_content = extract(schema=schema, content=splits[0].page_content)# 打印内容# pprint.pprint(extracted_content)return extracted_contentif __name__ == '__main__':urls = ["https://www.runoob.com/"]extracted_content = scrape_with_playwright(urls, schema=schema)print(extracted_content)

执行部分日志如下，可以看出数据提前成功

text': [{'category_item': 'HTML'}, {'category_item': 'CSS'}, {'category_item': 'Bootstrap'},
{'category_item': 'Font Awesome'}, {'category_item': 'Foundation'}, {'category_item': 'JavaScript'},
{'category_item': 'HTML DOM'}, {'category_item': 'jQuery'}, ........{'category_item': 'Markdown'}, {'category_item': 'HTTP'}, 
{'category_item': 'TCP/IP'}, {'category_item': 'W3C'}]}

自动化

可以使用检索器（如WebResearchRetriever）来自动化网络研究过程，以便使用搜索内容回答特定问题。
在这里插入图片描述

借助Google的Custom Search JSON API，以程序化地检索和显示来自可编程搜索引擎的搜索结果。，具体阅读文档创建GOOGLE_API_KEY和GOOGLE_CSE_ID

自动化爬取实现如下

from langchain.retrievers.web_research import WebResearchRetriever
from langchain_chroma import Chroma
from langchain_community.utilities import GoogleSearchAPIWrapper
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
import logging
from langchain.chains import RetrievalQAWithSourcesChainimport osos.environ["GOOGLE_API_KEY"] = 'AIzaSyBNrdu0_xxxxx-Vk2nDs'
os.environ["GOOGLE_CSE_ID"] = '405fxxxxxx64ca1'# 向量存储：使用 Chroma 客户端进行初始化
vectorstore = Chroma(embedding_function=OpenAIEmbeddings(), persist_directory="./chroma_db_oai"
)# LLM
llm = ChatOpenAI(temperature=0)# 搜索
search = GoogleSearchAPIWrapper()"""
使用上述工具初始化检索器：使用 LLM 生成多个相关搜索查询（一次 LLM 调用）
对每个查询执行搜索
选择每个查询的前 K 个链接（并行多个搜索调用）
从所有选定的链接加载信息（并行抓取页面）
将这些文档索引到矢量存储中
为每个原始生成的搜索查询查找最相关的文档
"""
web_research_retriever = WebResearchRetriever.from_llm(vectorstore=vectorstore, llm=llm, search=search
)# 设置日志
logging.basicConfig()
logging.getLogger("langchain.retrievers.web_research").setLevel(logging.INFO)# 执行
user_input = "菜鸟教程网站有那些教程分类?"
qa_chain = RetrievalQAWithSourcesChain.from_chain_type(llm, retriever=web_research_retriever
)
result = qa_chain.invoke({"question": user_input})
print(result)

输出结果如下
在这里插入图片描述

LangChain之网络爬虫

网络爬虫概述网络爬虫是LangChain中的一项关键功能，允许用户自动从互联网上收集信息。这项功能对于研究和数据收集尤其有价值，因为它可以大幅减少手动搜索和信息整理的工作量。从网络收集内容有几个主要组件： Search搜索：使用…...

编程日记 2024/8/6 15:34:01

VueRouter 相关信息

VueRouter 是Vue.js官方路由插件，与Vue.js深度集成，用于构建单页面应用。构建的单页面是基于路由和组件，路由设定访问路径，将路径与组件进行映射。VueRouter有两中模式 ：hash 和 history ，默认是hash模式。…...

编程日记 2024/8/6 15:31:59

[环境配置]Pycharm：Failed to start [PowerShell.exe]

解决方法，点Local旁边的号，点击Command Prompt，即可在Pycharm中呼出控制台。如果要修改Command Prompt的启动时访问的cmd.exe的路径，可以去Settings→Tools→Terminal中，修改Shell Path实现，改为cmd.exe…...

编程日记 2024/8/6 15:30:58

搜狗爬虫（www.sogou.com）IP及UA，真实采集数据

一、数据来源： 1、这批搜狗爬虫（www.sogou.com）IP来源于尚贤达猎头网站采集数据； 2、数据采集时间段：2023年10月-2024年7月； 3、判断标准：主要根据用户代理是否包含“www.sogou.com”和IP核实…...

编程日记 2024/8/6 15:27:54

北京青蓝智慧科技ITSS服务经理:长安链ChainBridge“链桥”问世加速国家级区块链网络互联互通

8月5日，据国家区块链技术创新中心消息，我国首个完全自主控制的区块链软硬件技术系统——长安链，正式推出了全场景技术平台ChainBridge“链桥”。此平台能够支持所有异构和同构的区块链进行协作，满足跨领域、跨地域、跨行业及跨层…...

编程日记 2024/8/6 15:26:53

音视频入门基础：WAV专题（5）——FFmpeg源码中解码WAV Header的实现

音视频入门基础：WAV专题系列文章： 音视频入门基础：WAV专题（1）——使用FFmpeg命令生成WAV音频文件音视频入门基础：WAV专题（2）——WAV格式简介音视频入门基础：WAV专题…...

编程日记 2024/8/6 15:25:52

目录 csv写入 csv读取 csv写入 import csv# data [ # (tf, 20, 180), # (dl, 20, 170), # (hc, 18, 190) # ] # header (姓名,年龄,身高) # # # csv写入数据会默认写一行隔一行 newline就是让它不要有空行 # with open(text.csv,w,encodingutf8,newline) as f:…...

编程日记 2024/8/6 15:24:50

Opencv-绘制几何图形

1. 绘制圆形 1.1 circle()函数原型 void cv::circle(InputOutputArray img, Point center, int radius, const Scalar & color, int thickness 1, int lineType LINE_8, int shift 0 ) img：需要绘制圆形的图像。 center：圆形的圆心位置坐标。 …...

编程日记 2024/8/6 15:23:48

ElasticSearch安装与集群部署

ElasticSearch安装与集群部署很多小伙伴第一次接触ElasticSearch的时候是一脸愁容,这个东西他怎么用啊,不知道从哪里安装,那我们今天就着重从哪里下载?怎么下载?怎么安装?来研究一下吧! windows下载安装ElasticSearch 下载地址：https://www.elastic.co/cn/do…...

编程日记 2024/8/6 15:20:45

盘点12款企业常用源代码加密软件，源代码防泄密很重要！

在当今的商业环境中，源代码作为企业的核心资产之一，其安全性不容忽视。源代码的泄露可能导致企业丧失竞争优势、面临法律诉讼甚至经济损失。因此，选择合适的源代码加密软件成为企业保护知识产权和核心技术的关键步骤。 1. 安秉源代码加密软件…...

编程日记 2024/8/6 15:18:43

文件上传和下载

要想实现文件上传和下载，其实只需要下述代码即可： 文件上传和下载 import cn.hutool.core.io.FileUtil; import cn.hutool.core.util.StrUtil; import com.example.common.Result; import org.springframework.web.bind.annotation.*; import org.sprin…...

编程日记 2024/8/6 15:16:41

机械学习—零基础学习日志（高数22——泰勒公式理解深化）

核心思想：函数逼近在泰勒的年代，如果想算出e的0.001次方，这是很难计算的。那为了能计算这样的数字，可以尝试逼近的思想。但是函数又不能所有地方都相等，那退而求其次，只要在一个极小的范围，…...

编程日记 2024/8/6 15:14:38

Java | Leetcode Java题解之第318题最大单词长度乘积

题目： 题解： class Solution {public int maxProduct(String[] words) {Map<Integer, Integer> map new HashMap<Integer, Integer>();int length words.length;for (int i 0; i < length; i) {int mask 0;String word words[i];in…...

编程日记 2024/8/6 15:10:32

科普文：JUC系列之多线程门闩同步器Condition的使用和源码解读

一、概述条件锁就是指在获取锁之后发现当前业务场景自己无法处理，而需要等待某个条件的出现才可以继续处理时使用的一种锁。比如，在阻塞队列中，当队列中没有元素的时候是无法弹出一个元素的，这时候就需要阻塞在条件notEmpty上…...

编程日记 2024/8/6 15:09:31

Stable Diffusion绘画 | 图生图-基础使用介绍—提示词反推

按默认设置直接出图拖入图片值图生图框中，保持默认设置，直接生成图片，出图效果如下： 因为重绘幅度0.7，所出图片与原图有差异，但整体的框架构图与颜色与原图类似。输入关键词后出图在正向提示词中输入…...

编程日记 2024/8/6 15:08:30

正点原子imx6ull-mini-Linux驱动之Linux SPI 驱动实验（22）

跟上一章一样，其实这些设备驱动，无非就是传感器对应寄存器的读写。而这个读写是建立在各种通信协议上的，比如上一章的i2c，我们做了什么呢，就是把设备注册成一个i2c平台驱动，这个i2c驱动怎么搞的呢&#xff…...

编程日记 2024/8/6 15:07:29

TypeScript 函数

函数是JavaScript应用程序的基础。它帮助你实现抽象层，模拟类，信息隐藏和模块。在TypeScript里，虽然已经支持类，命名空间和模块，但函数仍然是主要的定义行为的地方。 TypeScript为JavaScript函数添加了额外的功能&…...

编程日记 2024/8/6 15:03:25

C++ : namespace,输入与输出,函数重载,缺省参数

一，命名空间(namespace) 1.1命名空间的作用与定义我们在学习c的过程中，经常会碰到命名冲突的情况。就拿我们在c语言中的一个string函数来说吧： int strncat 0; int main() {printf("%d", strncat);return 0; } 当我们运行之后&…...

编程日记 2024/8/6 15:02:24

目标检测 | yolov1 原理和介绍

1. 简介论文链接：https://arxiv.org/abs/1506.02640 时间：2015年作者：Joseph Redmon 代码参考：https://github.com/abeardear/pytorch-YOLO-v1 yolo属于one-stage算法，仅仅使用一个CNN网络直接预测不同目标的类别与…...

编程日记 2024/8/6 14:57:17

excel中有些以文本格式存储的数值如何批量转换为数字

一、背景 1.1 文本格式存储的数值特点在平时工作中有时候会从别地方导出来表格，表格中有些数值是以文本格式存储的（特点：单元格的左上角有个绿色的小标）。 1.2 文本格式存储的数值在排序时不符合预期当我们需要进行排序的时候…...

编程日记 2024/8/6 14:56:16

AI-调查研究-01-正念冥想有用吗？对健康的影响及科学指南

点一下关注吧！！！非常感谢！！持续更新！！！ 🚀 AI篇持续更新中！（长期更新） 目前2025年06月05日更新到： AI炼丹日志-28 - Aud…...

编程新知 2025/7/7 11:34:25

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/7/6 2:27:06

Docker 运行 Kafka 带 SASL 认证教程

Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明：server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

编程新知 2025/7/7 19:48:55

DAY 47

三、通道注意力 3.1 通道注意力的定义 # 新增：通道注意力模块（SE模块） class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

编程新知 2025/7/7 15:10:39

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

编程新知 2025/7/7 12:59:08

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址：pdf 英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

编程新知 2025/7/4 13:30:54

uniapp微信小程序视频实时流+pc端预览方案

方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器纯前端实现高延迟高流量帧率极低个人demo测试超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 （部分有免费额度&#x…...

编程新知 2025/7/6 15:09:10

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

骨骼动画基础骨骼动画是 3D 计算机图形中常用的技术，它通过以下两个主要组件实现角色动画。骨骼系统 (Skeleton)：由层级结构的骨头组成，类似于人体骨骼蒙皮 (Mesh Skinning)：将模型网格顶点绑定到骨骼上，使骨骼移动…...

编程新知 2025/7/5 23:15:27

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/6/21 15:39:02

HDFS分布式存储 zookeeper

hadoop介绍狭义上hadoop是指apache的一款开源软件用java语言实现开源框架，允许使用简单的变成模型跨计算机对大型集群进行分布式处理（1.海量的数据存储 2.海量数据的计算）Hadoop核心组件 hdfs（分布式文件存储系统）&a…...

编程新知 2025/7/7 5:44:33

网络爬虫

概述

准备

加载器

转换

html2text

Beautiful Soup

提取

自动化​

相关文章：

自动化