毕业设计:日志记录编写(3/17起更新中)
目录
- 3/17
- 1.配置阿里云python加速镜像:
- 2. 安装python3.9版本
- 3. 爬虫技术选择
- 4. 数据抓取和整理
- 5. 难点和挑战
- 3/24
- 1.数据库建表信息
- 2.后续进度安排
- 3. 数据处理和分析
3/17
当前周期目标:构建基本的python环境:运行爬虫程序
1.配置阿里云python加速镜像:
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
安装chrome驱动到python安装目录下

2. 安装python3.9版本

3. 爬虫技术选择
爬虫技术是采集数据的主要手段之一。以下是一些常用的爬虫技术:
Requests + Beautiful Soup: 对于静态网页,使用 Python 的 Requests 库获取网页源代码,然后使用 Beautiful Soup 解析数据。
Scrapy: 对于动态网页或需要大规模数据采集的情况,可以考虑使用 Scrapy 框架,它提供了强大的爬虫功能和数据处理能力。
Selenium: 如果需要模拟用户操作,比如登录或者触发 JavaScript 事件,可以使用 Selenium 这样的工具。
4. 数据抓取和整理
针对短视频平台的数据采集,你可能需要考虑以下内容:
视频信息: 包括标题、描述、发布时间、观看次数、点赞数、评论数等。
评论信息: 获取视频的评论内容、评论者的信息(如用户名、头像、粉丝数等)以及评论时间等。
用户信息: 可能需要获取用户的基本信息和行为数据,比如关注数、粉丝数、发布的视频数量等。
5. 难点和挑战
反爬虫机制: 很多网站会有反爬虫机制,你可能需要应对验证码、IP 封锁等问题。
数据量和频率限制: 确保你的爬虫不会给目标网站造成过大的负担,遵守网站的访问频率限制。
数据存储和处理: 采集到的数据可能会很庞大,你需要考虑如何高效地存储和处理这些数据,以及如何建立合适的数据库结构。
3/24
周期目标:编写运行爬虫程序,拿到抖音用户和评论数据,并持久化存入MySQL:
1.数据库建表信息
创作者视频信息表设计:
CREATE TABLE douyin_aweme (id INT PRIMARY KEY AUTO_INCREMENT, -- 自增IDuser_id VARCHAR(64), -- 用户IDsec_uid VARCHAR(128), -- 用户sec_uidshort_user_id VARCHAR(64), -- 用户短IDuser_unique_id VARCHAR(64), -- 用户唯一IDnickname VARCHAR(64), -- 用户昵称avatar VARCHAR(255), -- 用户头像地址user_signature VARCHAR(500), -- 用户签名ip_location VARCHAR(255), -- 评论时的IP地址add_ts BIGINT, -- 记录添加时间戳last_modify_ts BIGINT, -- 记录最后修改时间戳aweme_id VARCHAR(64), -- 视频IDaweme_type VARCHAR(16), -- 视频类型title VARCHAR(500), -- 视频标题`desc` TEXT, -- 视频描述create_time BIGINT, -- 视频发布时间戳liked_count VARCHAR(16), -- 视频点赞数comment_count VARCHAR(16), -- 视频评论数share_count VARCHAR(16), -- 视频分享数collected_count VARCHAR(16), -- 视频收藏数aweme_url VARCHAR(255) -- 视频详情页URL
);
普通用户评论信息表设计:
CREATE TABLE douyin_aweme_comment (id INT PRIMARY KEY AUTO_INCREMENT, -- 自增IDuser_id VARCHAR(64), -- 用户IDsec_uid VARCHAR(128), -- 用户sec_uidshort_user_id VARCHAR(64), -- 用户短IDuser_unique_id VARCHAR(64), -- 用户唯一IDnickname VARCHAR(64), -- 用户昵称avatar VARCHAR(255), -- 用户头像地址user_signature VARCHAR(500), -- 用户签名ip_location VARCHAR(255), -- 评论时的IP地址add_ts BIGINT, -- 记录添加时间戳last_modify_ts BIGINT, -- 记录最后修改时间戳comment_id VARCHAR(64), -- 评论IDaweme_id VARCHAR(64), -- 视频IDcontent TEXT, -- 评论内容create_time BIGINT, -- 评论时间戳sub_comment_count VARCHAR(16) -- 评论回复数
);
2.后续进度安排
1.编写后端程序,进行分模块管理
2.将目前拿到的实验数据(视频信息38条,用户评论信息1000条)进行数据清洗
3.构思后端逻辑
4.前端UI设计



3. 数据处理和分析
采集到的数据可能需要进行清洗、去重、分析等处理,以便后续的应用。你可以考虑使用 Pandas、NumPy、或者其他数据处理工具进行数据分析和挖掘。
相关文章:
毕业设计:日志记录编写(3/17起更新中)
目录 3/171.配置阿里云python加速镜像:2. 安装python3.9版本3. 爬虫技术选择4. 数据抓取和整理5. 难点和挑战 3/241.数据库建表信息2.后续进度安排3. 数据处理和分析 3/17 当前周期目标:构建基本的python环境:运行爬虫程序 1.配置阿里云pytho…...
(一)基于IDEA的JAVA基础7
关系运算符 运算符 含义 范例 结果 等于 12 false ! 不等于 1!2 true > 大于 1>2 false < 小于 …...
MySQL数据库概念及MySQL的安装
文章目录 MySQL数据库一、数据库基本概念1、数据2、数据表3、数据库4、数据库管理系统(DBMS)4.1 数据库的建立和维护功能4.2 数据库的定义功能4.3 数据库的操纵功能4.4 数据库的运行管理功能4.5 数据库的通信功能(数据库与外界对接࿰…...
redis实际应用场景及并发问题的解决
业务场景 接下来要模拟的业务场景: 每当被普通攻击的时候,有千分之三的概率掉落金币,每回合最多爆出两个金币。 1.每个回合只有15秒。 2.每次普通攻击的时间间隔是0.5s 3.这个服务是一个集群(这个要求暂时不实现) 编写接口&…...
考研数学|汤家凤《1800》基础部分什么时候做完?
从我个人的经验来看,做完汤家凤1800的基础部分在第一轮复习中并不是必须的,但是可以作为一个有效的复习工具。 我认为汤家凤1800的基础部分确实涵盖了考研高数的基础知识点,并且题目难度适中,适合用来巩固基础。在第一轮复习中&a…...
JS的设计模式(23种)
JavaScript设计模式是指在JavaScript编程中普遍应用的一系列经过验证的最佳实践和可重用的解决方案模板,它们用来解决在软件设计中频繁出现的问题,如对象的创建、职责分配、对象间通信以及系统架构等。 设计模式并不特指某个具体的代码片段,…...
[自研开源] MyData v0.7.5 更新日志
开源地址:gitee | github 详细介绍:MyData 基于 Web API 的数据集成平台 部署文档:用 Docker 部署 MyData 使用手册:MyData 使用手册 试用体验:https://demo.mydata.work 交流Q群:430089673 介绍 MyData …...
3月份的倒数第二个周末有感
坐在图书馆的那一刻,忽然感觉时间的节奏开始放缓。今天周末因为我们两都有任务需要完成,所以就选了嘉定图书馆,不得不说嘉定新城远香湖附近的图书馆真的很有感觉。然我不经意回想起学校的时光,那是多么美好且短暂的时光。凝视着窗…...
Java 变得越来越像 Rust
Java 变得越来越像 Rust 介绍 随着编程的增强和复杂性越来越流行,许多编程语言也相互效仿。 Java 也不例外。 尽管社区内部存在问题,Rust 仍逐年赢得了开发人员的喜爱。并且有充分的理由:由于编译器,Rust 使开发人员能够避免整…...
通过git bash 或命令行ssh访问服务器 sftp上传下载文件
上传下载文件 sftp -P 端口 appywIP 示例:sftp -P 10022 appyw25.222.133.222 然后输入密码即可 ls 查看文件 lls 查看本地文件 cd 跳转 lcd 本地跳转 get ... 下载文件 put 本地文件名 远程文件夹 //上传文件 put -r 本地文件夹 远程文件夹 //上传文件夹服务器…...
27 OpenCV 凸包
文章目录 概念Graham扫描算法convexHull 凸包函数示例 概念 什么是凸包(Convex Hull),在一个多变形边缘或者内部任意两个点的连线都包含在多边形边界或者内部。 正式定义: 包含点集合S中所有点的最小凸多边形称为凸包 Graham扫描算法 首先选择Y方向最低…...
【GPT概念04】仅解码器(only decode)模型的解码策略
一、说明 在我之前的博客中,我们研究了关于生成式预训练转换器的整个概述,以及一篇关于生成式预训练转换器(GPT)的博客——预训练、微调和不同的用例应用。现在让我们看看所有仅解码器模型的解码策略是什么。 二、解码策略 在之前…...
蔚来-安全开发一面/二面
基本不怎么会渗透测试,本科期间有过大数据隐私保护(密码)的项目,硕士期间有个华为合作的项目一篇在投的ai安全论文 一面(45min) 1.介绍自己 2.介绍一下实习 3.场景题轰炸,主要针对实习中的场景,主要考察…...
Redis Cluster集群模式容器化部署
Redis Cluster集群模式容器化部署 安装Docker和docker-compose准备docker-compose文件准备Redis配置文件Linux内核参数优化启停Redis实例Redis集群搭建 环境准备: IP版本角色端口172.x.x.11RHEL 7.9master6379172.x.x.12RHEL 7.9master6379172.x.x.13RHEL 7.9maste…...
网络原理(6)——IP协议
目录 一、网段划分 现在的网络划分: 1、一般情况下的家庭网络环境 2、IP地址 3、子网掩码 4、网关 以前的网络划分: 二、特殊IP 1、环回 IP 2、主机号为全 0 的IP 3、广播地址IP 三、路由选择(路线规划) 一、网段划分…...
淘宝商品详情API接口:快速获取商品信息的高效工具
淘宝商品详情API接口:快速获取商品信息的高效工具 请求示例,API接口接入Anzexi58 在信息化、数字化的今天,数据已成为商业决策的重要依据。对于电商行业而言,快速准确地获取商品信息对于商家和消费者都至关重要。淘宝作为中国最大…...
一分钟学习Markdown语法
title: 一分钟学习Markdown语法 date: 2024/3/24 19:33:29 updated: 2024/3/24 19:33:29 tags: MD语法文本样式列表结构链接插入图片展示练习实践链接问题 欢迎来到Markdown语法的世界!Markdown是一种简单而直观的标记语言,让文本排版变得轻松有趣。接下…...
Power Apps 学习笔记 -- OrganizationRequestCollection
文章目录 1. OrganizationRequestCollection 简介2. OrganizationRequestCollection2.1 OrganizationRequest 使用2.2 OrganizationRequestCollection 使用 1. OrganizationRequestCollection 简介 OrganizationRequestCollection 链接 : OrganizationRequestCollection Orga…...
python绘图matplotlib——使用记录1
本博文来自于网络收集,如有侵权请联系删除 使用matplotlib绘图 1 常用函数汇总1.1 plot1.2 legend1.3 scatter1.4 xlim1.5 xlabel1.6 grid1.7 axhline1.7 axvspan1.8 annotate1.9 text1.10 title 2 常见图形绘制2.1 bar——柱状图2.2 barh——条形图2.3 hist——直…...
Spring Data访问Elasticsearch----创建存储库实例
Spring Data访问Elasticsearch----创建存储库实例 一、Java配置二、XML配置三、使用过滤器四、独立使用 本文介绍如何为已定义的存储库接口创建实例和bean定义。 一、Java配置 在Java配置类上使用特定于存储的EnableElasticsearchRepositories注解来定义用于存储库激活的配置。…...
2026最权威的五大降AI率网站推荐
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 使AIGC检测率降低的关键之处在于把机器生成的规律性特征给消除,首先,…...
终极指南:如何使用HunterPie游戏界面增强工具提升《怪物猎人:世界》体验
终极指南:如何使用HunterPie游戏界面增强工具提升《怪物猎人:世界》体验 【免费下载链接】HunterPie-legacy A complete, modern and clean overlay with Discord Rich Presence integration for Monster Hunter: World. 项目地址: https://gitcode.co…...
JavaScript金融计算中的精度陷阱与decimal.js实战指南
1. 为什么金融计算需要decimal.js? 如果你在JavaScript中执行过0.1 0.2这样的计算,可能会惊讶地发现结果不是0.3,而是0.30000000000000004。这种精度问题在金融系统中简直是灾难——想象一下银行系统因为这种误差少算了一分钱,或…...
全球工业3D打印标杆:Stratasys全系列产品深度盘点
作为全球工业级3D打印与增材制造解决方案的领导者,Stratasys凭借FDM、PolyJet、SAF等核心专利技术,构建了覆盖入门级、工业级、生产级的全品类设备矩阵,以极致精度、超大尺寸、稳定可靠、材料多元的核心优势,成为航空航天、汽车、…...
如何构建一个高效的知识/信息资源管理体系?启雀的功能优势介绍
面对海量的数字信息,构建一个高效的知识/信息资源管理体系至关重要。这不仅能提升个人和团队的工作效率,还能将零散的信息转化为有价值的组织智慧。高效知识管理方法一个完整的知识管理流程通常包含收集、整理、沉淀和应用四个环节。你可以结合以下方法来…...
etcd 显示连接失败
文章目录一、查看服务运行情况二、查看具体日志1. 错误原因2. 解决方法方案 1:修改 etcd 配置文件方案 2:直接修改 systemd 服务文件方案 3:临时测试(不推荐生产环境)3. 验证是否解决4. 其他注意事项配置一致性&#x…...
小米智能家居如何通过Home Assistant实现统一控制?官方集成深度解析
小米智能家居如何通过Home Assistant实现统一控制?官方集成深度解析 【免费下载链接】ha_xiaomi_home Xiaomi Home Integration for Home Assistant 项目地址: https://gitcode.com/GitHub_Trending/ha/ha_xiaomi_home 在智能家居生态系统中,小米…...
避坑指南:CATIA通过Excel导入材料库时遇到的5个典型错误及解决方法
CATIA与Excel材料库导入实战:从数据规范到自动化避坑全指南 引言:为什么材料库导入总出问题? 在工业设计领域,CATIA作为主流三维建模软件,其材料库管理直接影响产品仿真精度与设计效率。许多工程师习惯用Excel整理材料…...
CUDA实战:如何用Swizzle技巧彻底解决MMA指令中的Bank Conflict问题
CUDA实战:如何用Swizzle技巧彻底解决MMA指令中的Bank Conflict问题 在Tensor Core编程中,共享内存的Bank Conflict问题一直是影响性能的关键瓶颈。本文将深入剖析ldmatrix指令与共享内存的交互机制,通过位运算级别的Swizzle技巧,在…...
yolov8 mobilev3轻量级 注意力机制感兴趣的话点“我想要”和我私聊吧~
yolov8 mobilev3轻量级 注意力机制 感兴趣的话点“我想要”和我私聊吧~...
