毕业设计:日志记录编写(3/17起更新中)
目录
- 3/17
- 1.配置阿里云python加速镜像:
- 2. 安装python3.9版本
- 3. 爬虫技术选择
- 4. 数据抓取和整理
- 5. 难点和挑战
- 3/24
- 1.数据库建表信息
- 2.后续进度安排
- 3. 数据处理和分析
3/17
当前周期目标:构建基本的python环境:运行爬虫程序
1.配置阿里云python加速镜像:
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
安装chrome驱动到python安装目录下

2. 安装python3.9版本

3. 爬虫技术选择
爬虫技术是采集数据的主要手段之一。以下是一些常用的爬虫技术:
Requests + Beautiful Soup: 对于静态网页,使用 Python 的 Requests 库获取网页源代码,然后使用 Beautiful Soup 解析数据。
Scrapy: 对于动态网页或需要大规模数据采集的情况,可以考虑使用 Scrapy 框架,它提供了强大的爬虫功能和数据处理能力。
Selenium: 如果需要模拟用户操作,比如登录或者触发 JavaScript 事件,可以使用 Selenium 这样的工具。
4. 数据抓取和整理
针对短视频平台的数据采集,你可能需要考虑以下内容:
视频信息: 包括标题、描述、发布时间、观看次数、点赞数、评论数等。
评论信息: 获取视频的评论内容、评论者的信息(如用户名、头像、粉丝数等)以及评论时间等。
用户信息: 可能需要获取用户的基本信息和行为数据,比如关注数、粉丝数、发布的视频数量等。
5. 难点和挑战
反爬虫机制: 很多网站会有反爬虫机制,你可能需要应对验证码、IP 封锁等问题。
数据量和频率限制: 确保你的爬虫不会给目标网站造成过大的负担,遵守网站的访问频率限制。
数据存储和处理: 采集到的数据可能会很庞大,你需要考虑如何高效地存储和处理这些数据,以及如何建立合适的数据库结构。
3/24
周期目标:编写运行爬虫程序,拿到抖音用户和评论数据,并持久化存入MySQL:
1.数据库建表信息
创作者视频信息表设计:
CREATE TABLE douyin_aweme (id INT PRIMARY KEY AUTO_INCREMENT, -- 自增IDuser_id VARCHAR(64), -- 用户IDsec_uid VARCHAR(128), -- 用户sec_uidshort_user_id VARCHAR(64), -- 用户短IDuser_unique_id VARCHAR(64), -- 用户唯一IDnickname VARCHAR(64), -- 用户昵称avatar VARCHAR(255), -- 用户头像地址user_signature VARCHAR(500), -- 用户签名ip_location VARCHAR(255), -- 评论时的IP地址add_ts BIGINT, -- 记录添加时间戳last_modify_ts BIGINT, -- 记录最后修改时间戳aweme_id VARCHAR(64), -- 视频IDaweme_type VARCHAR(16), -- 视频类型title VARCHAR(500), -- 视频标题`desc` TEXT, -- 视频描述create_time BIGINT, -- 视频发布时间戳liked_count VARCHAR(16), -- 视频点赞数comment_count VARCHAR(16), -- 视频评论数share_count VARCHAR(16), -- 视频分享数collected_count VARCHAR(16), -- 视频收藏数aweme_url VARCHAR(255) -- 视频详情页URL
);
普通用户评论信息表设计:
CREATE TABLE douyin_aweme_comment (id INT PRIMARY KEY AUTO_INCREMENT, -- 自增IDuser_id VARCHAR(64), -- 用户IDsec_uid VARCHAR(128), -- 用户sec_uidshort_user_id VARCHAR(64), -- 用户短IDuser_unique_id VARCHAR(64), -- 用户唯一IDnickname VARCHAR(64), -- 用户昵称avatar VARCHAR(255), -- 用户头像地址user_signature VARCHAR(500), -- 用户签名ip_location VARCHAR(255), -- 评论时的IP地址add_ts BIGINT, -- 记录添加时间戳last_modify_ts BIGINT, -- 记录最后修改时间戳comment_id VARCHAR(64), -- 评论IDaweme_id VARCHAR(64), -- 视频IDcontent TEXT, -- 评论内容create_time BIGINT, -- 评论时间戳sub_comment_count VARCHAR(16) -- 评论回复数
);
2.后续进度安排
1.编写后端程序,进行分模块管理
2.将目前拿到的实验数据(视频信息38条,用户评论信息1000条)进行数据清洗
3.构思后端逻辑
4.前端UI设计



3. 数据处理和分析
采集到的数据可能需要进行清洗、去重、分析等处理,以便后续的应用。你可以考虑使用 Pandas、NumPy、或者其他数据处理工具进行数据分析和挖掘。
相关文章:
毕业设计:日志记录编写(3/17起更新中)
目录 3/171.配置阿里云python加速镜像:2. 安装python3.9版本3. 爬虫技术选择4. 数据抓取和整理5. 难点和挑战 3/241.数据库建表信息2.后续进度安排3. 数据处理和分析 3/17 当前周期目标:构建基本的python环境:运行爬虫程序 1.配置阿里云pytho…...
(一)基于IDEA的JAVA基础7
关系运算符 运算符 含义 范例 结果 等于 12 false ! 不等于 1!2 true > 大于 1>2 false < 小于 …...
MySQL数据库概念及MySQL的安装
文章目录 MySQL数据库一、数据库基本概念1、数据2、数据表3、数据库4、数据库管理系统(DBMS)4.1 数据库的建立和维护功能4.2 数据库的定义功能4.3 数据库的操纵功能4.4 数据库的运行管理功能4.5 数据库的通信功能(数据库与外界对接࿰…...
redis实际应用场景及并发问题的解决
业务场景 接下来要模拟的业务场景: 每当被普通攻击的时候,有千分之三的概率掉落金币,每回合最多爆出两个金币。 1.每个回合只有15秒。 2.每次普通攻击的时间间隔是0.5s 3.这个服务是一个集群(这个要求暂时不实现) 编写接口&…...
考研数学|汤家凤《1800》基础部分什么时候做完?
从我个人的经验来看,做完汤家凤1800的基础部分在第一轮复习中并不是必须的,但是可以作为一个有效的复习工具。 我认为汤家凤1800的基础部分确实涵盖了考研高数的基础知识点,并且题目难度适中,适合用来巩固基础。在第一轮复习中&a…...
JS的设计模式(23种)
JavaScript设计模式是指在JavaScript编程中普遍应用的一系列经过验证的最佳实践和可重用的解决方案模板,它们用来解决在软件设计中频繁出现的问题,如对象的创建、职责分配、对象间通信以及系统架构等。 设计模式并不特指某个具体的代码片段,…...
[自研开源] MyData v0.7.5 更新日志
开源地址:gitee | github 详细介绍:MyData 基于 Web API 的数据集成平台 部署文档:用 Docker 部署 MyData 使用手册:MyData 使用手册 试用体验:https://demo.mydata.work 交流Q群:430089673 介绍 MyData …...
3月份的倒数第二个周末有感
坐在图书馆的那一刻,忽然感觉时间的节奏开始放缓。今天周末因为我们两都有任务需要完成,所以就选了嘉定图书馆,不得不说嘉定新城远香湖附近的图书馆真的很有感觉。然我不经意回想起学校的时光,那是多么美好且短暂的时光。凝视着窗…...
Java 变得越来越像 Rust
Java 变得越来越像 Rust 介绍 随着编程的增强和复杂性越来越流行,许多编程语言也相互效仿。 Java 也不例外。 尽管社区内部存在问题,Rust 仍逐年赢得了开发人员的喜爱。并且有充分的理由:由于编译器,Rust 使开发人员能够避免整…...
通过git bash 或命令行ssh访问服务器 sftp上传下载文件
上传下载文件 sftp -P 端口 appywIP 示例:sftp -P 10022 appyw25.222.133.222 然后输入密码即可 ls 查看文件 lls 查看本地文件 cd 跳转 lcd 本地跳转 get ... 下载文件 put 本地文件名 远程文件夹 //上传文件 put -r 本地文件夹 远程文件夹 //上传文件夹服务器…...
27 OpenCV 凸包
文章目录 概念Graham扫描算法convexHull 凸包函数示例 概念 什么是凸包(Convex Hull),在一个多变形边缘或者内部任意两个点的连线都包含在多边形边界或者内部。 正式定义: 包含点集合S中所有点的最小凸多边形称为凸包 Graham扫描算法 首先选择Y方向最低…...
【GPT概念04】仅解码器(only decode)模型的解码策略
一、说明 在我之前的博客中,我们研究了关于生成式预训练转换器的整个概述,以及一篇关于生成式预训练转换器(GPT)的博客——预训练、微调和不同的用例应用。现在让我们看看所有仅解码器模型的解码策略是什么。 二、解码策略 在之前…...
蔚来-安全开发一面/二面
基本不怎么会渗透测试,本科期间有过大数据隐私保护(密码)的项目,硕士期间有个华为合作的项目一篇在投的ai安全论文 一面(45min) 1.介绍自己 2.介绍一下实习 3.场景题轰炸,主要针对实习中的场景,主要考察…...
Redis Cluster集群模式容器化部署
Redis Cluster集群模式容器化部署 安装Docker和docker-compose准备docker-compose文件准备Redis配置文件Linux内核参数优化启停Redis实例Redis集群搭建 环境准备: IP版本角色端口172.x.x.11RHEL 7.9master6379172.x.x.12RHEL 7.9master6379172.x.x.13RHEL 7.9maste…...
网络原理(6)——IP协议
目录 一、网段划分 现在的网络划分: 1、一般情况下的家庭网络环境 2、IP地址 3、子网掩码 4、网关 以前的网络划分: 二、特殊IP 1、环回 IP 2、主机号为全 0 的IP 3、广播地址IP 三、路由选择(路线规划) 一、网段划分…...
淘宝商品详情API接口:快速获取商品信息的高效工具
淘宝商品详情API接口:快速获取商品信息的高效工具 请求示例,API接口接入Anzexi58 在信息化、数字化的今天,数据已成为商业决策的重要依据。对于电商行业而言,快速准确地获取商品信息对于商家和消费者都至关重要。淘宝作为中国最大…...
一分钟学习Markdown语法
title: 一分钟学习Markdown语法 date: 2024/3/24 19:33:29 updated: 2024/3/24 19:33:29 tags: MD语法文本样式列表结构链接插入图片展示练习实践链接问题 欢迎来到Markdown语法的世界!Markdown是一种简单而直观的标记语言,让文本排版变得轻松有趣。接下…...
Power Apps 学习笔记 -- OrganizationRequestCollection
文章目录 1. OrganizationRequestCollection 简介2. OrganizationRequestCollection2.1 OrganizationRequest 使用2.2 OrganizationRequestCollection 使用 1. OrganizationRequestCollection 简介 OrganizationRequestCollection 链接 : OrganizationRequestCollection Orga…...
python绘图matplotlib——使用记录1
本博文来自于网络收集,如有侵权请联系删除 使用matplotlib绘图 1 常用函数汇总1.1 plot1.2 legend1.3 scatter1.4 xlim1.5 xlabel1.6 grid1.7 axhline1.7 axvspan1.8 annotate1.9 text1.10 title 2 常见图形绘制2.1 bar——柱状图2.2 barh——条形图2.3 hist——直…...
Spring Data访问Elasticsearch----创建存储库实例
Spring Data访问Elasticsearch----创建存储库实例 一、Java配置二、XML配置三、使用过滤器四、独立使用 本文介绍如何为已定义的存储库接口创建实例和bean定义。 一、Java配置 在Java配置类上使用特定于存储的EnableElasticsearchRepositories注解来定义用于存储库激活的配置。…...
C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...
uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖
在前面的练习中,每个页面需要使用ref,onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入,需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...
Swift 协议扩展精进之路:解决 CoreData 托管实体子类的类型不匹配问题(下)
概述 在 Swift 开发语言中,各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。 不过,在涉及到多个子类派生于基类进行多态模拟的场景下,…...
【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密
在实际项目中,用户注册、登录、修改密码等操作,都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输,在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...
如何在看板中有效管理突发紧急任务
在看板中有效管理突发紧急任务需要:设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP(Work-in-Progress)弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中,设立专门的紧急任务通道尤为重要,这能…...
EtherNet/IP转DeviceNet协议网关详解
一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...
管理学院权限管理系统开发总结
文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...
基于IDIG-GAN的小样本电机轴承故障诊断
目录 🔍 核心问题 一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) 梯度归一化(Gradient Normalization) (2) 判别器梯度间隙正则化(Discriminator Gradient Gap Regularization) (3) 自注意力机制(Self-Attention) 3. 完整损失函数 二…...
【 java 虚拟机知识 第一篇 】
目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...
一些实用的chrome扩展0x01
简介 浏览器扩展程序有助于自动化任务、查找隐藏的漏洞、隐藏自身痕迹。以下列出了一些必备扩展程序,无论是测试应用程序、搜寻漏洞还是收集情报,它们都能提升工作流程。 FoxyProxy 代理管理工具,此扩展简化了使用代理(如 Burp…...
