当前位置: 首页 > article >正文

AI炼丹日志-26 - crawl4ai 专为 AI 打造的爬虫爬取库 上手指南

点一下关注吧!!!非常感谢!!持续更新!!!

Java篇:

  • MyBatis 更新完毕
  • 目前开始更新 Spring,一起深入浅出!

大数据篇 300+:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(已更完)
  • 实时数仓(正在更新…)
  • Spark MLib (正在更新…)

在这里插入图片描述

官方地址

https://docs.crawl4ai.com/

在这里插入图片描述
Crawl4ai是第一个趋势GitHub存储库,由充满活力的社区积极维护。它提供了针对大型语言模型,AI代理和数据管道量身定制的燃烧,AI-Ready Web爬行。完全开源,灵活并为实时性能而构建,crawl4ai以无与伦比的速度,精度和部署易于使用。

作者故事

我的计算机之旅始于童年,当时我父亲是一名计算机科学家,他向我介绍了 Amstrad 计算机。那些早期的经历激发了我对技术的浓厚兴趣,促使我后来攻读了计算机科学专业,并在研究生阶段专注于自然语言处理(NLP)。也是在那段时间,我第一次接触到网页爬取,开发了帮助研究人员整理论文和从出版物中提取信息的工具。这是一段既充满挑战又极具收获的经历,极大地锤炼了我在数据提取方面的技能。

时间快进到2023年,当时我正在为一个项目开发工具,需要一个爬虫将网页内容转成 Markdown 格式。在寻找解决方案的过程中,我发现了一个自称开源的项目,但它要求创建账户并生成 API Token。更糟糕的是,它实际上是一个 SaaS 模型,需要支付 16 美元,而且质量还达不到我的预期。感到非常沮丧之余,我意识到这背后存在着更深层次的问题。这种沮丧很快变成了爆发式的愤怒,我决定自己动手解决。在短短几天内,我开发出了 Crawl4AI。出乎意料的是,它迅速走红,在 GitHub 上收获了数千颗星星,并受到了全球社区的热烈响应。

我之所以将 Crawl4AI 开源,主要有两个原因。首先,这是我回馈开源社区的一种方式,多年来,正是开源精神一直在支持着我的成长。其次,我坚信数据应该对所有人开放,而不是被高墙锁住或被少数人垄断。数据的自由访问是实现 AI 民主化的基础——一个人人都能训练自己的模型、掌握自己数据的未来愿景。而这个库,就是迈向打造全球最佳开源数据提取与生成工具之路的第一步,这一切将由一个充满激情的社区共同完成。

为什么选择

● 为大语言模型(LLMs)而生:生成智能、简洁的 Markdown 格式内容,专为 RAG(检索增强生成)和微调应用优化。
● 极速性能:以实时、低成本的方式交付结果,速度提升至 6 倍。
● 灵活的浏览器控制:支持会话管理、代理设置和自定义钩子,助力无缝访问数据。
● 启发式智能:采用先进算法进行高效提取,减少对高成本模型的依赖。
● 开源可部署:完全开源,无需 API Key,可直接使用 Docker 部署,支持云端集成。
● 蓬勃发展的社区:由充满活力的社区积极维护,且成为 GitHub 上趋势榜第一的热门项目。

配置环境

python -m venv env
source env/bin/activate

安装项目

pip install -U crawl4ai

执行结果如下所示:
在这里插入图片描述
配置环境

crawl4ai-setup

执行结果如下
在这里插入图片描述

检查环境

crawl4ai-doctor

如果一切正确,则出现的样子如下:
在这里插入图片描述

Docker方式

可以通过Docker来部署

拉取镜像

docker pull unclecode/crawl4ai

执行结果:
在这里插入图片描述

运行项目

docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai

访问项目

http://localhost:11235/playground

访问页面如下所示:
在这里插入图片描述

相关文章:

AI炼丹日志-26 - crawl4ai 专为 AI 打造的爬虫爬取库 上手指南

点一下关注吧!!!非常感谢!!持续更新!!! Java篇: MyBatis 更新完毕目前开始更新 Spring,一起深入浅出! 大数据篇 300: Hadoop&…...

ESP32-idf学习(四)esp32C3驱动lcd

一、前言 屏幕是人机交互的重要媒介,而且现在我们产品升级的趋势越来越高大尚,不少产品都会用lcd来做界面,而esp32c3在一些项目上是可以替代主mcu,所以驱动lcd也是必须学会的啦 我新买的这块st7789,突然发现是带触摸…...

【python】uv管理器

uv是一个速度极快的 Python 包和项目管理器,用 Rust 编写。 安装 安装uv之前,确保你的电脑不需要安装了python 在Windows下,可以使用官方的脚本直接安装 powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.…...

关于Web安全:7. WebShell 管理与持久化后门

一、菜刀马 菜刀马(ChinaZ WebShell) 是一种与“中国菜刀(ChinaZ)”客户端配合使用的 WebShell 木马,广泛应用于 Web 渗透测试中,主要使用 PHP/ASP/JSP 等语言编写。 它的本质是一个一句话木马&#xff0…...

音视频中的复用器

🎬 什么是复用器(Muxer)? 复用器(muxer)是负责把音频、视频、字幕等多个媒体流打包(封装)成一个单一的文件格式的组件。 💡 举个形象的例子: 假设你有两样东…...

戴尔AI服务器订单激增至121亿美元,但传统业务承压

戴尔科技121亿美元的AI服务器订单,不仅超过了公司整个2025财年的AI服务器出货量,更让其AI订单积压达到144亿美元的历史高位。 戴尔科技最新财报显示,AI服务器需求的爆炸式增长正在重塑这家老牌PC制造商的业务格局,但同时也暴露出…...

远程线程注入

注入简单来说就是让别人的程序执行 你想要让他执行的dll #include<iostream> #include<Windows.h> using namespace std;char szBuffer[] "C:\\Users\\20622\\source\\repos\\Dll1\\Debug\\test.dll"; //dll路径void RemoteThreadInject(DWORD Pid,PCH…...

如何手搓扫雷(待扩展)

文章目录 一、扫雷游戏分析与设计1.1 扫雷游戏的功能说明1.2 游戏的分析和设计1.2.1 数据结构的分析1.2.2 文件结构设计 二、扫雷游戏的代码实现三、扫雷游戏的扩展总结 一、扫雷游戏分析与设计 扫雷游戏网页版 1.1 扫雷游戏的功能说明 使用控制台&#xff08;黑框框的程序&a…...

俄军操作系统 Astra Linux 安装教程

安装 U盘制作 Rufus 写盘工具&#xff1a;https://rufus.ie/ Astra Linux ISO 镜像文件&#xff1a;https://dl.astralinux.ru/astra/stable/2.12_x86-64/iso/ 准备一个8g以上的u盘&#xff0c;打开Rufus写盘工具&#xff0c;选择下载的iso镜像&#xff0c;写入u盘&#xff…...

第三方软件评测机构如何助力软件品质提升及企业发展?

第三方软件评测机构与软件开发者及使用者无直接关联&#xff0c;它们提供全方位的检测和公正的评价服务。这样的评测可以展现客观的成效&#xff0c;对提升软件的品质具有显著影响&#xff0c;且在软件产业中发挥着至关重要的角色。 评测的客观性 独立第三方机构与软件开发者…...

Python打卡训练营Day40

DAY 40 训练和测试的规范写法 知识点回顾&#xff1a; 彩色和灰度图片测试和训练的规范写法&#xff1a;封装在函数中展平操作&#xff1a;除第一个维度batchsize外全部展平dropout操作&#xff1a;训练阶段随机丢弃神经元&#xff0c;测试阶段eval模式关闭dropout 作业&#x…...

【仿生系统】爱丽丝机器人的设想(可行性优先级较高)

非程序化、能够根据环境和交互动态产生情感和思想&#xff0c;并以微妙、高级的方式表达出来的能力 我们不想要一个“假”的智能&#xff0c;一个仅仅通过if-else逻辑或者简单prompt来模拟情感的机器人。您追求的是一种更深层次的、能够学习、成长&#xff0c;并形成独特“个性…...

JS逆向案例—喜马拉雅xm-sign详情页爬取

JS逆向案例——喜马拉雅xm-sign详情页爬取 声明网站流程分析总结 声明 本文章中所有内容仅供学习交流&#xff0c;抓包内容、敏感网址、数据接口均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff0c;若有侵权&am…...

钩子函数的作用(register_hook)

钩子函数仅在backward()时才会触发。其中&#xff0c;钩子函数接受梯度作为输入&#xff0c;返回操作后的梯度&#xff0c;操作后的梯度必须要输入的梯度同类型、同形状&#xff0c;否则报错。 主要功能包括&#xff1a; 监控当前的梯度&#xff08;不返回值&#xff09;&…...

电子电路:深入了解CMOS技术构造和工作原理

一、CMOS的基本结构与工作原理 1. 核心结构:互补MOSFET CMOS(互补金属氧化物半导体)的核心是成对的NMOS(N沟道MOSFET)和PMOS(P沟道MOSFET)晶体管,两者共享同一硅衬底但通过阱(Well) 隔离: NMOS:构建在P型衬底上,源/漏极为N⁺掺杂区。当栅极电压(V_GS)高于阈值…...

STM32CubeMX定时器配置

STM32CubeMX定时器配置 一&#xff0c;Mode界面1&#xff0c;Slave Mode (从模式)2&#xff0c;Trigger Source (触发源) 三&#xff0c;Channelx&#xff08;通道模式&#xff09;1&#xff0c;Input Capture2&#xff0c;Output Compare3&#xff0c;PWM Generation4&#xf…...

QNAP MEMOS 域名访问 SSL(Lucky)

注意&#xff1a;下述是通过ssh、docker-compose方式安装docker的&#xff0c;不是直接在container station中安装的哈&#xff01;&#xff01;&#xff01; 一、编辑docker-compose.yml文件 用“#”号标识的&#xff0c;在保存文件的时候建议去掉&#xff0c;不然有时候会出…...

跟单业务并发量分析

虚拟货币交易所中的跟单交易&#xff08;copy trading&#xff09;业务在高峰期的确可能产生较高的并发量&#xff0c;但具体并发量取决于多个因素&#xff0c;包括交易所的规模、用户数量、热门交易员的活跃度、行情波动频率等。 &#x1f4cc; 1. 跟单交易的并发特点 触发集…...

如何将多张图组合到一张图里同时保留高的分辨率(用PPT+AdobeAcrobat)

文章目录 一、用PPT排版得到一页排布了很多图片的PPT二、用AdobeAcrobat打开pdf文件三、最后得到的图片 一、用PPT排版得到一页排布了很多图片的PPT 步骤如下 ①将幻灯片大小的长设置为17.2&#xff0c;宽根据图像多少进行调整&#xff0c;我这里是10 幻灯片大小的长设置步骤&…...

pycharm找不到高版本conda问题

pycharm找不到高版本conda问题 高版本的condaPycharm不能自动识别&#xff0c;需要手动添加。 首先打开你要添加的conda环境win的话在conda终端输入 where conda查找conda的可执行文件位置 进入Pycharm设置&#xff0c;点击添加解释器&#xff0c;点击加载环境&#xff0c;…...

支持selenium的chrome driver更新到137.0.7151.55

最近chrome释放新版本&#xff1a;137.0.7151.55 如果运行selenium自动化测试出现以下问题&#xff0c;是需要升级chromedriver才可以解决的。 selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only su…...

2025年上半年软考系统架构设计师--案例分析试题与答案

必选题一:大模型训练系统 某公司开发一个在线大模型训练平台&#xff0c;支持 Python 代码编写、模型训练和部署,用户通过 python 编写模型代码,将代码交给系统进行模型代码的解析,最终由系统匹配相应的计算机资源进行输出&#xff0c;用户不需要关心底层硬件平台。 a.系统发生…...

Eclipse 插件开发 5.2 编辑器 获取当前编辑器

Eclipse 插件开发 5.2 编辑器 获取当前编辑器 1 获取活跃编辑器2 获取全部编辑器 Manifest-Version: 1.0 Bundle-ManifestVersion: 2 Bundle-Name: Click1 Bundle-SymbolicName: com.xu.click1;singleton:true Bundle-Version: 1.0.0 Bundle-Activator: com.xu.click1.Activato…...

讲述我的plc自学之路 第十二章

“老k&#xff0c;你没想过自己以后怎么过吗&#xff1f;”lora听我夸他漂亮&#xff0c;开始鼓起勇气追问我的过往。 “我还能怎样呢&#xff0c;说实话&#xff0c;家里介绍过几次相亲了&#xff0c;上来就问车问房的&#xff0c;大多数不了了之。”我解释道。 “老k这你就…...

Visual Studio 的下载安装

下载 官网&#xff1a;https://visualstudio.microsoft.com/zh-hans/ 点击免费 Visual Studio。 点击 Visual Studio Community 下的免费下载。 保留并下载。 安装 双击下载的 exe 安装文件&#xff0c;点击继续。 等他下载安装完。 选择你要下载的组件(我只勾了一个 .NET 桌…...

C# 如何获取当前成员函数的函数名

C# 如何获取当前成员函数的函数名 在 C# 中获取当前成员函数的名称&#xff0c;有以下几种常用方法&#xff1a; 1. 使用 MethodBase.GetCurrentMethod()&#xff08;反射&#xff09; using System.Reflection;public void MyMethod() {string methodName MethodBase.GetCu…...

苍茫命令行:linux模拟实现,书写微型bash

文章目录 &#x1f307;前言2、需求分析3、基本框架4、核心内容4.2、指令分割4.3、程序替换 5、特殊情况处理5.2、内建命令5.3、cd5.4、export5.5、echo5.6、重定向 6、源码 &#x1f307;前言 Linux 系统主要分为内核(kernel)和 外壳(shell)&#xff0c;普通用户是无法接触到…...

虚拟DOM和DOM是什么?有什么区别?虚拟DOM的优点是什么?

虚拟DOM与真实DOM的概念 虚拟DOM&#xff08;Virtual DOM&#xff09;是一种对真实DOM的抽象表示&#xff0c;其结构通常为一个JavaScript对象&#xff0c;保存了DOM节点的标签、属性、子节点等信息。真实DOM则是浏览器中的实际文档对象模型&#xff0c;由HTML代码解析生成&am…...

累加法求数列通项公式

文章目录 前言如何判断注意事项适用类型方法介绍典例剖析对应练习 前言 累加法&#xff0c;顾名思义&#xff0c;就是多次相加的意思。求通项公式题型中&#xff0c;如果给定条件最终可以转化为 a n 1 − a n f ( n ) a_{n1}-a_nf(n) an1​−an​f(n)的形式&#xff0c;或者…...

鸿蒙NEXT应用加固工具哪家更好?国内主流的6款对比

随着鸿蒙NEXT系统的推进&#xff0c;越来越多企业将目光投向鸿蒙生态下的应用部署与数据安全。尤其是在核心业务App逐步上架鸿蒙原生平台的当下&#xff0c;如何实现高效、可靠的鸿蒙NEXT应用安全加固&#xff0c;已成为企业技术选型的关键环节。本文将对市面上6款主流的鸿蒙NE…...