当前位置：首页 > article >正文

Python爬虫实战：Yelp餐厅数据采集完整教程

article 2026/2/7 21:39:22

前言

在数据分析和商业智能领域，餐厅和商户信息的采集是一个常见需求。Yelp作为全球知名的本地商户评论平台，包含了大量有价值的商户信息。本文将详细介绍如何使用Python开发一个高效的Yelp数据爬虫，实现商户信息的批量采集。

技术栈介绍

本项目采用以下技术栈：

Python 3.x：主要编程语言
curl_cffi：用于发送HTTP请求，支持浏览器指纹模拟
正则表达式：用于数据解析
JSON处理：解析API响应数据

项目架构设计

核心类：YelpSearchUser

我们设计了一个YelpSearchUser类来封装所有的爬虫功能，主要包含以下几个核心方法：

__init__() - 初始化请求头和配置项
get() - 获取搜索结果列表
get_detail() - 获取商户详细信息
parse_data() - 解析搜索结果
parse_data_detail() - 解析详细信息

详细实现分析

1. 初始化配置

def __init__(self):self.headers = {"accept": "*/*","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","pragma": "no-cache","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"}

在初始化方法中，我们设置了两套请求头：

headers：用于API请求
html_headers：用于页面请求

这样做的目的是为了更好地模拟真实浏览器行为，避免被反爬虫机制检测。

2. Cookie处理机制

def cookie_str_to_dict(self, cookie_str: str) -> dict:cookie_dict = {}cookies = [i.strip() for i in cookie_str.split('; ') if i.strip() != ""]for cookie in cookies:key, value = cookie.split('=', 1)cookie_dict[key] = valuereturn cookie_dict

Cookie是维持会话状态的关键，我们实现了Cookie字符串到字典的转换功能，确保请求的连续性。

3. 搜索功能实现

def get(self, page, find_desc, find_loc=""):url = "https://www.yelp.com/search/snippet"if page == 1:params = {"find_desc": find_desc,"find_loc": find_loc,"parent_request_id": "097f2346bb4acfc4","request_origin": "user"}else:start = f"{(page-1)*10}"params = {"find_desc": find_desc,"find_loc": find_loc,"start": start,"parent_request_id": "097f2346bb4acfc4","request_origin": "user"}

搜索功能支持分页，通过start参数控制结果偏移量，每页显示10条结果。

4. 数据解析核心算法

搜索结果解析

def parse_data(self, data_list):resultList = []for d in data_list:try:bizId = d.get('bizId')if not bizId:continuep_url = "https://www.yelp.com"+d['searchResultBusiness'].get('businessUrl','')item = [bizId, p_url]resultList.append(item)except Exception as e:print("解析错误：", e)return resultList

详细信息解析

def parse_data_datail(self, html, bizId, p_url):html = html.replace("&quot;", '"').replace("&#x2F;", "/")data_text = "".join(re.findall('<!--\{(.*?)--></script><!-- PRAGMA_YELP_BEGIN_RESPONSE', html))data_text = "{" + data_textdataJson = json.loads(data_text)bs = dataJson[f"Business:{bizId}"]# 提取各种商户信息name = bs.get('name', '')reviewCount = bs.get('reviewCount', 0)rating = bs.get('rating({"roundingMethod":"NEAREST_TENTH"})', '0.0')# ... 更多字段解析

这里使用了正则表达式提取页面中的JSON数据，然后解析出我们需要的商户信息。

数据字段说明

我们提取的商户信息包括：

字段名	描述	示例
bizId	商户唯一标识	"abc123def456"
name	商户名称	"老北京烤鸭店"
rating	评分	"4.5"
reviewCount	评论数量	128
phoneNumber	电话号码	"+1-555-123-4567"
address	地址	"123 Main St, New York"
website_url	官网链接	"https://example.com"
operationHours	营业时间	"9:00 AM - 10:00 PM"

使用示例

if __name__ == '__main__':ysu = YelpSearchUser()# 设置Cookie（从浏览器复制）cookies = 'your_cookie_string_here'# 搜索参数keyword = ''  # 搜索关键词，空字符串表示搜索所有location = 'Tokyo'  # 搜索地点page = 1  # 页码# 获取搜索结果data = ysu.main(keyword, location, page, cookies, proxies=None)# 获取每个商户的详细信息for url in data['item_list']:result = ysu.main_detail(url, cookies, proxies=None)print(result)

技术亮点

1. 浏览器指纹模拟

使用curl_cffi库的impersonate="chrome131"参数，完美模拟Chrome浏览器的TLS指纹和HTTP/2特征。

2. 错误处理机制

while True:try:response = requests.get(url, headers=self.headers, ...)if status_code == 200:return response.json(), status_codeelse:return None, status_codeexcept Exception as e:print("发生错误：", e)

采用无限循环重试机制，确保网络波动不会影响数据采集。

3. 代理支持

代码支持代理服务器配置，可以通过proxies参数设置代理，提高采集成功率。

注意事项

1. 法律合规

遵守Yelp的服务条款
控制请求频率，避免对服务器造成压力
仅用于学习和研究目的

2. 技术注意点

Cookie需要定期更新
建议添加随机延时避免被检测
可以配置用户代理轮换

3. 异常处理

网络超时处理
JSON解析异常处理
数据缺失情况处理

总结

本文介绍了一个完整的Yelp数据爬虫实现，涵盖了从搜索到详细信息获取的全流程。通过合理的架构设计和技术选型，实现了高效稳定的数据采集。

这个爬虫项目不仅适用于Yelp，其设计思路和技术方案也可以应用到其他类似的数据采集场景中。希望本文能为大家在爬虫开发方面提供有价值的参考。

Python爬虫实战：Yelp餐厅数据采集完整教程

前言在数据分析和商业智能领域，餐厅和商户信息的采集是一个常见需求。Yelp作为全球知名的本地商户评论平台，包含了大量有价值的商户信息。本文将详细介绍如何使用Python开发一个高效的Yelp数据爬虫，实现商户信息的批量采集。技术栈介绍 …...

编程日记 2025/12/18 11:49:37

微服务常用日志追踪方案：Sleuth + Zipkin + ELK

在微服务架构中，一个用户请求往往需要经过多个服务的协同处理。为了有效追踪请求的完整调用链路，需要一套完整的日志追踪方案。Sleuth Zipkin ELK 组合提供了完整的解决方案 Sleuth：生成和传播追踪IDZipkin：收集、存储和可视化…...

编程日记 2026/2/3 5:29:41

API是什么意思？如何实现开放API？

目录一、API 是什么 （一）API 的定义 （二）API 的作用二、API 的类型 （一）Web API 1. RESTful API 2. SOAP API （二）操作系统 API （三）数据库 API …...

编程日记 2026/2/1 4:26:17

12.6Swing控件4 JSplitPane JTabbedPane

JSplitPane JSplitPane 是 Java Swing 中用于创建分隔面板的组件，支持两个可调整大小组件的容器。它允许用户通过拖动分隔条来调整两个组件的相对大小，适合用于需要动态调整视图比例的场景。常用方法： setLeftComponent(Component comp)&a…...

编程日记 2026/1/30 1:31:31

Python训练第四十六天

DAY 46 通道注意力(SE注意力) 知识点回顾： 不同CNN层的特征图：不同通道的特征图什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。通道注意力：模型的定义和插入的位置通…...

编程日记 2026/2/6 6:11:56

C++编程——关于比较器的使用

注： 简单记录一下C里比较器的构建，常用于自定义 sort() 函数和优先队列的改写优先级。简单构建比较器： sort() 函数： vector<int> arr;//(a, b) -> true : a < b //升序排列 bool compare(int a, int b) {retur…...

编程日记 2025/12/23 4:32:04

第2天：认识LSTM

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊目标具体实现 （一）环境语言环境：Python 3.10 编译器: PyCharm 框架: pytorch （二）具体步骤…...

编程日记 2026/2/1 5:36:18

自动化提示生成框架（AutoPrompt）

自动化提示生成框架（AutoPrompt）一、核心创新点自动化提示生成框架（AutoPrompt）创新本质：提出基于梯度引导搜索的自动化提示生成方法，替代人工设计模板的传统模式。技术路径：将提示视为可训练的离散token序列，通过优化提示向量（prompt embedding）搜索语义空间。利…...

编程日记 2026/2/1 3:27:34

两轮自平衡机器人建模、LQR控制与仿真分析

以下是一个针对两轮自平衡机器人（平衡车）的完整建模、控制设计与仿真分析报告，包含详细的理论推导、控制算法实现及Python仿真代码。两轮自平衡机器人建模、LQR控制与仿真分析 1. 引言两轮自平衡机器人是一种典型的欠驱动、非线性、不稳定系统，其动力学特性与倒立摆高度…...

编程日记 2026/1/7 10:59:08

在NLP文本处理中，将字符映射到阿拉伯数字（构建词汇表vocab）的核心目的和意义

一、词汇表的核心作用 ‌数值化表示‌ 将离散的文本字符转换为连续的数值索引，使计算机能够处理非结构化的语言数据57。例如： "中国" → 2"a" → 5 ‌统一输入格式‌ 不同长度的文本通过填充/截断转换为固定长度的数字序列&#xf…...

编程日记 2025/11/15 18:16:32

中国首套1公里高分辨率大气湿度指数数据集（2003~2020）

时间分辨率：月空间分辨率：100m - 1km共享方式：开放获取数据大小：34.79 GB数据时间范围：2003-01-01 — 2020-12-31元数据更新时间：2023-07-26 数据集摘要中国首套1公里高分辨率大气湿度指数数据集&#xf…...

编程日记 2026/2/2 5:57:07

计算机视觉顶刊《International Journal of Computer Vision》2025年5月前沿热点可视化分析

追踪计算机视觉领域的前沿热点是把握技术发展方向、推动创新落地的关键，分析这些热点，不仅能洞察技术趋势，更能为科研选题和工程实践提供重要参考。本文对计算机视觉顶刊《International Journal of Computer Vision》2025年5月前沿热点进行了…...

编程日记 2026/2/2 6:17:26

python学习打卡day45

DAY 45 Tensorboard使用介绍知识点回顾： tensorboard的发展历史和原理tensorboard的常见操作tensorboard在cifar上的实战：MLP和CNN模型效果展示如下，很适合拿去组会汇报撑页数： 作业：对resnet18在cifar10上采用微调策…...

编程日记 2026/2/1 14:32:58

JAVA元编程

一、引言：元编程的本质与 Java 实现元编程（Metaprogramming）是一种 “操纵程序的程序” 的编程范式，其核心思想是通过代码动态操作代码本身。在 Java 中，元编程主要通过 ** 反射（Reflection）、…...

编程日记 2026/1/13 9:58:50

Verilog编程技巧01——如何编写三段式状态机

前言 Verilog编程技巧系列文章将聚焦于介绍Verilog的各种编程范式或者说技巧，编程技巧和编程规范有部分重合，但并非完全一样。规范更注重编码的格式，像变量命名、缩进、注释风格等，而编程技巧则更偏重更直观易读、更便于维护、综合…...

编程日记 2026/2/4 14:42:03

智启未来：当知识库遇见莫奈的调色盘——API工作流重构企业服务美学

目录引言一、初识蓝耘元生代MaaS平台 1.1 平台架构 1.2 平台的优势 1.3 应用场景二、手把手教你如何在蓝耘进行注册 （1）输入手机号，将验证码正确填入即可快速完成注册 （2）进入下面的页面表示已经成功注册&…...

编程日记 2026/2/1 14:32:57

java教程笔记（十一）-泛型

Java 泛型（Generics）是 Java 5 引入的重要特性之一，它允许在定义类、接口和方法时使用类型参数。泛型的核心思想是将类型由具体的数据类型推迟到使用时再确定，从而提升代码的复用性和类型安全性。 1.泛型的基本概念 1. 什么是泛…...

编程日记 2025/10/13 12:35:24

JUnit 和 Mockito 的详细说明及示例，涵盖核心概念、常用注解、测试场景和实战案例。

一、JUnit 详解 1. JUnit 核心概念测试类：以 Test 结尾的类（或通过 Test 注解标记的方法）。断言（Assertions）：验证预期结果与实际结果是否一致（如 assertEquals()&#xff0…...

编程日记 2025/12/11 7:37:27

【Go语言基础【7】】条件语句

文章目录零、概述一、if 条件语句1. 单条件模型2. 多条件模型（else if）3. 条件嵌套与优化二、switch 条件判断1. 基本用法2. fallthrough 穿透执行3. break 终止执行零、概述语句类型适用场景核心特点if-else单条件或简单多条件判断逻辑清晰&#x…...

编程日记 2026/1/14 22:18:04

【Python 算法零基础 4.排序 ⑪ 十大排序算法总结】

目录一、选择排序回顾二、冒泡排序回顾三、插入排序回顾四、计数排序回顾五、归并排序回顾六、快速排序回顾七、桶排序回顾八、基数排序九、堆排序十、希尔排序十一、十大排序算法对比十二、各算法详解与应用场景 1. 选择排序（Selection Sort&#xff…...

编程日记 2025/7/19 11:26:29

解决神经网络输出尺寸过小的实战方案

训练CIFAR10分类模型时出现报错：RuntimeError: Given input size: (256x1x1). Calculated output size: (256x0x0). Output size is too small。该问题由网络结构设计缺陷导致图像尺寸过度缩小引发。核心原因分析网络结构缺陷原始模型采用六层卷积层&#xff0c…...

编程日记 2025/11/5 1:07:14

1. 自定义多线程程序： import concurrent.futures import threadingclass CustomThreadPool:def __init__(self, max_workers):self.max_workers max_workersself.pool concurrent.futures.ThreadPoolExecutor(max_workers)self.running_num 0self.semaphore t…...

编程日记 2026/2/4 14:54:31

如何在 Windows 11 中永久更改默认浏览器：阻止 Edge 占据主导地位

在 Windows 11 中更改默认浏览器对于新手或技术不太熟练的用户来说可能会令人沮丧。为什么要在 Windows 11 中更改默认浏览器？这是一个重要的问题：你为什么要从 Microsoft Edge 切换过来？生态系统集成：如果你已经在广泛使用 Google 服务，Chrome 可以提供无缝集成。同…...

编程日记 2026/2/1 14:33:01

量子比特实现方式

经典计算机是通过电子电路运转起来的。使用硅制半导体制成的名为晶体管的小元件发挥了开关的作用，将其与金属布线组合起来即可实现逻辑门，再将逻辑门集成起来就能制造出经典计算机。量子计算机的制造过程则要复杂许多，因为量子计算机既需要量…...

编程日记 2026/2/1 17:13:55

智慧水务发展迅猛：从物联网架构到AIoT系统的跨越式升级

AI大模型引领智慧水务迈入新纪元 2025年5月25日，水利部自主研发的“水利标准AI大模型”正式发布，它标志着水务行业智能化进程的重大突破。该模型集成1800余项水利标准、500余项法规及海量科研数据，支持立项、编制、审查等全流程智能管理&…...

编程日记 2026/2/5 19:02:03

1、cpp实现Python的print函数

实现一 #include <iostream> #include <list> #include <string>using namespace std;// 定义一个空的print函数，作为递归终止条件 void print(){// };// 可变参数模板函数，用于递归输出传入的参数 template <typename T, typenam…...

编程日记 2025/12/1 0:46:38