当前位置：首页 > news >正文

yelp数据集上识别潜在的热门商家

news 2026/5/19 15:37:07

yelp数据集是研究B2C业态的一个很好的数据集，要识别潜在的热门商家是一个多维度的分析过程，涉及用户行为、商家特征和社区结构等多个因素。从yelp数据集里我们可以挖掘到下面信息有助于识别热门商家

用户评分和评论分析

评分均值: 商家的平均评分是反映其受欢迎程度的重要指标。较高的平均评分通常意味着顾客满意度高，从而可能成为热门商家。
评论数量: 评论数量可以反映商家的活跃度和用户的参与程度。评论数量多的商家更可能受到广泛关注。

用户活跃度

用户评分行为: 分析活跃用户（频繁评分的用户）对商家的评分，可以识别出哪些商家在用户群体中更受欢迎。
用户影响力: 一些用户的评分会对其他用户的选择产生较大影响（例如，社交媒体影响者）。识别这些高影响力用户对商家的评分可以帮助识别潜在热门商家。

社交网络分析

用户与商家的关系网络: 使用图神经网络等算法分析用户与商家之间的关系。商家与许多用户有互动，且用户在网络中有较高影响力的商家，可能会被视为热门商家。
社区发现: 通过分析用户和商家之间的关系网络，识别出相似用户群体，进而识别出在这些群体中受欢迎的商家。

多维度评价

综合评价: 结合多个指标（如评分、评论数、用户活跃度、地理位置等），使用加权方法或多指标决策模型来综合评估商家的受欢迎程度。

使用的文件

yelp_academic_dataset_business.json:
- 包含商家的基本信息，如商家 ID、名称、类别、位置等。
yelp_academic_dataset_review.json:
- 包含用户对商家的评论及评分，可以用来分析商家的受欢迎程度和用户的行为。
yelp_academic_dataset_user.json:
- 包含用户的基本信息，比如用户 ID、注册时间、评价数量等，可以用来分析用户的活跃度和影响力。

通过图神经网络（GNN）来识别商家的影响力：

先加载必要的库并读取数据文件：

import pandas as pd
import json# 读取数据
with open('yelp_academic_dataset_business.json', 'r') as f:businesses = pd.DataFrame([json.loads(line) for line in f])with open('yelp_academic_dataset_review.json', 'r') as f:reviews = pd.DataFrame([json.loads(line) for line in f])with open('yelp_academic_dataset_user.json', 'r') as f:users = pd.DataFrame([json.loads(line) for line in f])

清洗数据以提取有用的信息：

# 过滤出需要的商家和用户数据
businesses = businesses[['business_id', 'name', 'categories', 'city', 'state', 'review_count', 'stars']]
reviews = reviews[['user_id', 'business_id', 'stars']]
users = users[['user_id', 'review_count', 'average_stars']]# 处理类别数据
businesses['categories'] = businesses['categories'].str.split(', ').apply(lambda x: x[0] if x else None)

构建商家和用户之间的图，节点为商家和用户，边为用户对商家的评分。

    edges = []for _, row in reviews.iterrows():if row['user_id'] in node_mapping and row['business_id'] in node_mapping:edges.append([node_mapping[row['user_id']], node_mapping[row['business_id']]])edge_index = torch.tensor(edges, dtype=torch.long).t().contiguous()return node_mapping, edge_index, total_nodes

我们可以通过以下方式计算商家的影响力：

用户评分的平均值: 表示商家的受欢迎程度。
评论数: 提供商家影响力的直观指标。

business_reviews = reviews.groupby('business_id').agg({'stars': ['mean', 'count']
}).reset_index()
business_reviews.columns = ['business_id', 'average_rating', 'review_count']# 合并商家信息和评论信息
merged_data = businesses.merge(business_reviews, on='business_id', how='left')# 3. 目标变量定义
# 定义热门商家的标准
merged_data['is_popular'] = ((merged_data['average_rating'] > 4.0) &(merged_data['review_count'] > 10)).astype(int)

使用 GNN 进一步分析商家的影响力，可以构建 GNN 模型并训练。以下是 GNN 模型的基本示例，使用 PyTorch Geometric：

class GNNModel(torch.nn.Module):def __init__(self, num_node_features):super(GNNModel, self).__init__()self.conv1 = GCNConv(num_node_features, 64)self.conv2 = GCNConv(64, 32)self.conv3 = GCNConv(32, 16)self.fc = torch.nn.Linear(16, 1)self.dropout = torch.nn.Dropout(0.3)def forward(self, x, edge_index):x = F.relu(self.conv1(x, edge_index))x = self.dropout(x)x = F.relu(self.conv2(x, edge_index))x = self.dropout(x)x = F.relu(self.conv3(x, edge_index))x = self.fc(x)return x

使用模型的输出嵌入来分析商家之间的相似度，识别潜在的热门商家。

print("Making predictions...")model.eval()with torch.no_grad():predictions = torch.sigmoid(model(data.x.to(device), data.edge_index.to(device))).cpu()# 将预测结果添加到数据框merged_data['predicted_popularity'] = 0.0for _, row in merged_data.iterrows():if row['business_id'] in node_mapping:idx = node_mapping[row['business_id']]merged_data.loc[row.name, 'predicted_popularity'] = predictions[idx].item()# 输出潜在热门商家potential_hot = merged_data[(merged_data['predicted_popularity'] > 0.5) &(merged_data['is_popular'] == 0)].sort_values('predicted_popularity', ascending=False)print("\nPotential Hot Businesses:")print(potential_hot[['name', 'average_rating', 'review_count', 'predicted_popularity']].head())

使用上面定义流程跑一下训练, 报错了

Traceback (most recent call last):
File "/opt/miniconda3/envs/lora/lib/python3.10/site-packages/pandas/core/indexes/base.py", line 3805, in get_loc
return self._engine.get_loc(casted_key)
File "index.pyx", line 167, in pandas._libs.index.IndexEngine.get_loc
File "index.pyx", line 196, in pandas._libs.index.IndexEngine.get_loc
File "pandas/_libs/hashtable_class_helper.pxi", line 7081, in pandas._libs.hashtable.PyObjectHashTable.get_item
File "pandas/_libs/hashtable_class_helper.pxi", line 7089, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'review_count'

把print('merged_data', merged_data) 加上再试下

[150346 rows x 16 columns]
Index(['business_id', 'name', 'address', 'city', 'state', 'postal_code',
'latitude', 'longitude', 'stars', 'review_count_x', 'is_open',
'attributes', 'categories', 'hours', 'average_rating',
'review_count_y'],
dtype='object')

review_count 列被重命名为 review_count_x 和 review_count_y。这通常是因为在合并过程中，两个 DataFrame 中都存在 review_count 列。为了继续进行需要选择合适的列来作为评论数量的依据。选择 review_count_x 或 review_count_y: 通常，review_count_x 是从 businesses DataFrame 中来的，而 review_count_y 是从 business_reviews DataFrame 中来的。

代码修改下

import torch
import pandas as pd
import numpy as np
import torch.nn.functional as F
from torch_geometric.data import Data
from torch_geometric.nn import GCNConv
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split# 1. 数据加载
def load_data():businesses = pd.read_json('yelp_academic_dataset_business.json', lines=True)reviews = pd.read_json('yelp_academic_dataset_review.json', lines=True)users = pd.read_json('yelp_academic_dataset_user.json', lines=True)return businesses, reviews, users# 2. 数据预处理
def preprocess_data(businesses, reviews):# 聚合评论数据business_reviews = reviews.groupby('business_id').agg({'stars': ['mean', 'count'],'useful': 'sum','funny': 'sum','cool': 'sum'}).reset_index()# 修复列名business_reviews.columns = ['business_id', 'average_rating', 'review_count','total_useful', 'total_funny', 'total_cool']# 合并商家信息# 删除businesses中的review_count列（如果存在）if 'review_count' in businesses.columns:businesses = businesses.drop('review_count', axis=1)# 合并商家信息merged_data = businesses.merge(business_reviews, on='business_id', how='left')# 填充缺失值merged_data = merged_data.fillna(0)return merged_data# 3. 特征工程
def engineer_features(merged_data):# 确保使用正确的列名创建特征merged_data['engagement_score'] = (merged_data['total_useful'] +merged_data['total_funny'] +merged_data['total_cool']) / (merged_data['review_count'] + 1)  # 加1避免除零# 定义热门商家merged_data['is_popular'] = ((merged_data['average_rating'] >= 4.0) &(merged_data['review_count'] >= merged_data['review_count'].quantile(0.75))).astype(int)return merged_data# 4. 图构建
def build_graph(merged_data, reviews):# 创建节点映射business_ids = merged_data['business_id'].unique()user_ids = reviews['user_id'].unique()# 修改索引映射，确保从0开始node_mapping = {user_id: i for i, user_id in enumerate(user_ids)}# 商家节点的索引接续用户节点的索引business_start_idx = len(user_ids)node_mapping.update({business_id: i + business_start_idx for i, business_id in enumerate(business_ids)})# 获取节点总数total_nodes = len(user_ids) + len(business_ids)# 创建边edges = []for _, row in reviews.iterrows():if row['user_id'] in node_mapping and row['business_id'] in node_mapping:edges.append([node_mapping[row['user_id']], node_mapping[row['business_id']]])edge_index = torch.tensor(edges, dtype=torch.long).t().contiguous()return node_mapping, edge_index, total_nodesdef prepare_node_features(merged_data, node_mapping, num_user_nodes, total_nodes):feature_cols = ['average_rating', 'review_count', 'engagement_score']# 确保所有特征列都是数值类型for col in feature_cols:merged_data[col] = merged_data[col].astype(float)# 标准化特征scaler = StandardScaler()merged_data[feature_cols] = scaler.fit_transform(merged_data[feature_cols])# 创建特征矩阵，使用总节点数num_features = len(feature_cols)x = torch.zeros(total_nodes, num_features, dtype=torch.float)# 用户节点特征（使用平均值）mean_values = merged_data[feature_cols].mean().values.astype(np.float32)x[:num_user_nodes] = torch.tensor(mean_values, dtype=torch.float)# 商家节点特征for _, row in merged_data.iterrows():if row['business_id'] in node_mapping:idx = node_mapping[row['business_id']]feature_values = row[feature_cols].values.astype(np.float32)if not np.isfinite(feature_values).all():print(f"警告: 发现无效值 {feature_values}")feature_values = np.nan_to_num(feature_values, 0)x[idx] = torch.tensor(feature_values, dtype=torch.float)return xdef main():print("Starting the program...")# 设置设备device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')print(f"Using device: {device}")# 加载数据print("Loading data...")businesses, reviews, users = load_data()# 预处理数据print("Preprocessing data...")merged_data = preprocess_data(businesses, reviews)merged_data = engineer_features(merged_data)# 构建图print("Building graph...")node_mapping, edge_index, total_nodes = build_graph(merged_data, reviews)num_user_nodes = len(reviews['user_id'].unique())# 打印节点信息print(f"Total nodes: {total_nodes}")print(f"User nodes: {num_user_nodes}")print(f"Business nodes: {total_nodes - num_user_nodes}")print(f"Max node index in mapping: {max(node_mapping.values())}")# 准备特征print("Preparing node features...")x = prepare_node_features(merged_data, node_mapping, num_user_nodes, total_nodes)# 准备标签print("Preparing labels...")labels = torch.zeros(total_nodes)business_mask = torch.zeros(total_nodes, dtype=torch.bool)for _, row in merged_data.iterrows():if row['business_id'] in node_mapping:idx = node_mapping[row['business_id']]labels[idx] = row['is_popular']business_mask[idx] = True# 创建图数据对象data = Data(x=x, edge_index=edge_index)# 初始化模型print("Initializing model...")model = GNNModel(num_node_features=x.size(1)).to(device)# 训练模型print("Training model...")train_model(model, data, labels, business_mask, device)# 预测print("Making predictions...")model.eval()with torch.no_grad():predictions = torch.sigmoid(model(data.x.to(device), data.edge_index.to(device))).cpu()# 将预测结果添加到数据框merged_data['predicted_popularity'] = 0.0for _, row in merged_data.iterrows():if row['business_id'] in node_mapping:idx = node_mapping[row['business_id']]merged_data.loc[row.name, 'predicted_popularity'] = predictions[idx].item()# 输出潜在热门商家potential_hot = merged_data[(merged_data['predicted_popularity'] > 0.5) &(merged_data['is_popular'] == 0)].sort_values('predicted_popularity', ascending=False)print("\nPotential Hot Businesses:")print(potential_hot[['name', 'average_rating', 'review_count', 'predicted_popularity']].head())# 6. GNN模型定义
class GNNModel(torch.nn.Module):def __init__(self, num_node_features):super(GNNModel, self).__init__()self.conv1 = GCNConv(num_node_features, 64)self.conv2 = GCNConv(64, 32)self.conv3 = GCNConv(32, 16)self.fc = torch.nn.Linear(16, 1)self.dropout = torch.nn.Dropout(0.3)def forward(self, x, edge_index):x = F.relu(self.conv1(x, edge_index))x = self.dropout(x)x = F.relu(self.conv2(x, edge_index))x = self.dropout(x)x = F.relu(self.conv3(x, edge_index))x = self.fc(x)return x# 7. 训练函数
def train_model(model, data, labels, business_mask, device, epochs=100):optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)criterion = torch.nn.BCEWithLogitsLoss()model.train()for epoch in range(epochs):optimizer.zero_grad()out = model(data.x.to(device), data.edge_index.to(device))loss = criterion(out[business_mask], labels[business_mask].unsqueeze(1).to(device))loss.backward()optimizer.step()print(f'Epoch [{epoch + 1}/{epochs}], Loss: {loss.item():.4f}')if __name__ == "__main__":main()

开始正式训练，先按照epoch=100做迭代训练测试，loss向收敛方向滑动

识别出热门店铺

Potential Hot Businesses:
name average_rating review_count predicted_popularity
100024 Mother's Restaurant -0.154731 41.821089 0.999941
31033 Royal House 0.207003 40.953749 0.999933
113983 Pat's King of Steaks -0.361171 34.103369 0.999805
64541 Felix's Restaurant & Oyster Bar 0.389155 32.023360 0.999725
42331 Gumbo Shop 0.340872 31.517411 0.999701

yelp数据集上识别潜在的热门商家

yelp数据集是研究B2C业态的一个很好的数据集，要识别潜在的热门商家是一个多维度的分析过程，涉及用户行为、商家特征和社区结构等多个因素。从yelp数据集里我们可以挖掘到下面信息有助于识别热门商家用户评分和评论分析评分均值: 商家的平均评分是反映其…...

编程日记 2024/11/8 21:07:10

【Linux】进程信号全攻略（一）

🌈 个人主页：Zfox_ 🔥 系列专栏：Linux 目录一：🔥 信号的概念二：🔥 信号产生的方式 🦋 使用键盘🦋 系统调用函数🦋 软件条件🦋 进程异…...

编程日记 2024/11/8 21:05:08

linux文件重命名

Linux文件重命名文件名显示异常问题出在哪里批量改名扩展文件名显示异常跑测CTS，linux环境看跑测结果log file显示没问题，倘若windows下看log file名却显示异常，不太方便操作。问题出在哪里 linux环境下文件名可以显示正常&#xff0…...

编程日记 2024/11/8 21:03:05

如何选择适合的AWS EC2实例类型

在云计算的世界中，Amazon Web Services（AWS）提供了丰富的服务，其中Elastic Compute Cloud（EC2）是最受欢迎的服务之一。选择合适的EC2实例类型对于确保应用程序的性能和成本效益至关重要。我们九河云通过本文…...

编程日记 2024/11/8 21:02:04

【Uniapp】Uniapp Android原生插件开发指北

前言在uniapp开发中当HBuilderX中提供的能力无法满足App功能需求，需要通过使用Andorid/iOS原生开发实现时，或者是第三方公司提供的是Android的库，这时候可使用App离线SDK开发原生插件来扩展原生能力。插件类型有两种，Module模…...

编程日记 2024/11/8 20:59:00

【随手笔记】FLASH-W25Q16（三）

#include "bsp_w25q16.h"/*内部函数声明区*/ static HAL_StatusTypeDef bsp_w25q_Transmit(uint8_t * T_pData, uint16_t T_Size); static HAL_StatusTypeDef bsp_w25q_Receive(uint8_t * R_pData, uint16_t R_Size);/*内部函数定义区*//* 函数参数：1、T_…...

编程日记 2024/11/8 20:57:59

2024软件测试面试热点问题

🍅 点击文末小卡片 ，免费获取软件测试全套资料，资料在手，涨薪更快大厂面试热点问题 1、测试人员需要何时参加需求分析？ 如果条件循序原则上来说是越早介入需求分析越好因为测试人员对需求理解越深刻对测试工…...

编程日记 2024/11/8 20:55:57

【JAVA】java 企业微信信息推送

前言 JAVA中将信息推送到企业微信 // 企微消息推送messageprivate String getMessage(String name, String problemType, String pushResults, Long orderId,java.util.Date submitTime, java.util.Date payTime) {String message "对接方：<font color\…...

编程日记 2024/11/8 20:53:55

介绍一下数组(c基础)(smart 版)

c初期，记住规则，用规则。我只是介绍规则。（有详细版，这适合smart人看） 数组（同类型） int arr[n] {} ; int 是元素类型。 int arr[n] {} ; arr为标识符。 {} 集合，元素有次…...

编程日记 2024/11/8 20:52:54

Java项目实战II基于Spring Boot的个人云盘管理系统设计与实现（开发文档+数据库+源码）

目录一、前言二、技术介绍三、系统实现四、文档参考五、核心代码六、源码获取全栈码农以及毕业设计实战开发，CSDN平台Java领域新星创作者，专注于大学生项目实战开发、讲解和毕业答疑辅导。一、前言基于Spring Boot的个人云盘管理系统设计…...

编程日记 2024/11/8 20:51:52

探索数据科学与大数据技术专业本科生的广阔就业前景

随着信息技术的不断发展，数据科学与大数据技术已经成为各大行业的关键推动力。在这样一个数据驱动的时代，越来越多的企业依赖数据来驱动决策、优化运营和创造价值。因此，数据科学与大数据技术专业的本科生在就业市场上具有广阔的前景和多样的…...

编程日记 2024/11/8 20:50:51

微服务架构面试内容整理-Zuul

Zuul 是由 Netflix 开发的一个边缘服务（API 网关），用于动态路由、监控、认证、以及对微服务架构中的请求进行过滤。它在微服务架构中扮演着重要的角色，提供了一种集中管理和控制服务访问的方式。以下是 Zuul 的主要特点、工作原理和使用场景：主要特点 1. 动态路由： Zuu…...

编程日记 2024/11/8 20:49:50

解决Knife4j 接口界面UI中文乱码问题

1、查看乱码情况 2、修改编码设置 3、删除 target 文件项目重新启动被坑死了...

编程日记 2024/11/8 20:47:49

微服务架构面试内容整理-Sleuth

Spring Cloud Sleuth 是一个分布式追踪工具，用于监控微服务系统中请求的传播情况。它通过在微服务之间传递追踪信息，帮助开发者理解系统的行为，快速定位性能瓶颈和问题。以下是 Sleuth 的主要特点、工作原理和使用场景： 主要特点 …...

编程日记 2024/11/8 20:44:46

Go语言的接口示例

Go语言的接口（interface）是一种轻量级的多态性实现方式，是构建高扩展性、高复用性代码的利器。Go语言的接口非常灵活，不要求显式的实现声明，只要一个类型实现了接口规定的方法，它就可以被视为该接口的实现者。在本篇博客中，我们将通过多个实际示例，探讨Go语言接口的使用…...

编程日记 2024/11/8 20:41:43

【Apache ECharts】＜农作物病害发生防治面积＞

在vs Code里打开， 实现 1. 首先引入 echarts.min.js 资源 2. 在body部分设一个 div，设置 id 为 main 3. 设置 script 3.1 基于准备好的dom，初始化echarts实例 var myChart echarts.init(document.getElementById(main)); 3.2 指定图表的…...

编程日记 2024/11/8 20:40:42

基于vue3实现的聊天机器人前端（附代码）

<template><div class"container"><header><h1>跟它说说话吧！</h1><p>一个活泼的伙伴，为你提供情感支持！</p></header><div c…...

编程日记 2024/11/8 20:39:41

DICOM标准：深入详解DICOM医学影像中的传输语法

引言 DICOM（数字成像和通信医学）标准在医学影像数据交换中扮演着至关重要的角色。其中，*传输语法（Transfer Syntax）是DICOM标准中定义数据编码和传输方式的核心部分。理解传输语法对于确保不同设备和系统之间的互操作性…...

编程日记 2024/11/8 20:38:40

sql server 文件备份恢复

数据库介绍文件组 PRIMARY 文件 lys D:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\MSSQL\DATA\lys.mdf lys_02 D:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\MSSQL\DATA\lys_02.ndf文件组 sec 有2个表（sec_1,sec_2） 文件 …...

编程日记 2024/11/8 20:36:38

Gradle命令编译Android Studio工程项目并签名

文章目录 gradlew命令gradlew编译debug apkgradlew编译release apkapksigner签名apkgradlew注意事项 gradlew命令 gradlew 是一个脚本文件，它允许你在没有全局安装 Gradle 的情况下运行 Gradle 构建。这个脚本在多平台上可用，对于 Windows 系统来说是 g…...

编程日记 2024/11/8 20:35:38

如何实现Galgame与漫画的实时多语言翻译？MisakaTranslator技术解析

如何实现Galgame与漫画的实时多语言翻译？MisakaTranslator技术解析【免费下载链接】MisakaTranslator 御坂翻译器—Galgame/文字游戏/漫画多语种实时机翻工具项目地址: https://gitcode.com/gh_mirrors/mi/MisakaTranslator 御坂翻译器（MisakaT…...

编程新知 2026/5/19 14:29:35

35岁程序员的AI转型指南：收藏这3条入局路径，打造不可替代能力！

本文分析了AI时代程序员面临的挑战与机遇，指出35岁程序员真正的危机是缺乏“不可替代”的能力。文章提出了AI时代程序员的3条入局路径：AI原有技术栈、AI工程化方向、AI垂直行业，并强调了实践和项目的重要性，避免技术自嗨和只学不做…...

编程新知 2026/5/19 13:27:57

FanControl终极指南：5步打造Windows电脑静音散热系统

FanControl终极指南：5步打造Windows电脑静音散热系统【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/…...

编程新知 2026/5/19 12:42:26

3步掌握CSDN博客下载器：革命性批量下载与智能离线阅读终极方案

3步掌握CSDN博客下载器：革命性批量下载与智能离线阅读终极方案【免费下载链接】CSDNBlogDownloader 项目地址: https://gitcode.com/gh_mirrors/cs/CSDNBlogDownloader 在信息时代，技术博客是我们获取知识的重要窗口，但网络内容的不…...

编程新知 2026/5/19 12:17:00

Linux字符设备驱动框架：基于pinctrl/gpio子系统的GPIO控制实践

1. 项目概述：从“点灯”到“驱动框架”的认知跃迁在嵌入式Linux开发领域，点亮一个LED灯，常常是工程师们的“Hello World”。新手阶段，我们可能直接在驱动代码里写死寄存器地址，用 ioremap 和 writel 函数进行操控…...

编程新知 2026/5/19 12:10:07

如何快速获取网易云和QQ音乐的精准LRC歌词？这款免费工具帮你一键搞定！

如何快速获取网易云和QQ音乐的精准LRC歌词？这款免费工具帮你一键搞定！ 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为音乐播放器缺少歌词而…...

编程新知 2026/5/19 12:10:07