毕业设计:日志记录编写(3/17起更新中)
目录
- 3/17
- 1.配置阿里云python加速镜像:
- 2. 安装python3.9版本
- 3. 爬虫技术选择
- 4. 数据抓取和整理
- 5. 难点和挑战
- 3/24
- 1.数据库建表信息
- 2.后续进度安排
- 3. 数据处理和分析
3/17
当前周期目标:构建基本的python环境:运行爬虫程序
1.配置阿里云python加速镜像:
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
安装chrome驱动到python安装目录下
2. 安装python3.9版本
3. 爬虫技术选择
爬虫技术是采集数据的主要手段之一。以下是一些常用的爬虫技术:
Requests + Beautiful Soup: 对于静态网页,使用 Python 的 Requests 库获取网页源代码,然后使用 Beautiful Soup 解析数据。
Scrapy: 对于动态网页或需要大规模数据采集的情况,可以考虑使用 Scrapy 框架,它提供了强大的爬虫功能和数据处理能力。
Selenium: 如果需要模拟用户操作,比如登录或者触发 JavaScript 事件,可以使用 Selenium 这样的工具。
4. 数据抓取和整理
针对短视频平台的数据采集,你可能需要考虑以下内容:
视频信息: 包括标题、描述、发布时间、观看次数、点赞数、评论数等。
评论信息: 获取视频的评论内容、评论者的信息(如用户名、头像、粉丝数等)以及评论时间等。
用户信息: 可能需要获取用户的基本信息和行为数据,比如关注数、粉丝数、发布的视频数量等。
5. 难点和挑战
反爬虫机制: 很多网站会有反爬虫机制,你可能需要应对验证码、IP 封锁等问题。
数据量和频率限制: 确保你的爬虫不会给目标网站造成过大的负担,遵守网站的访问频率限制。
数据存储和处理: 采集到的数据可能会很庞大,你需要考虑如何高效地存储和处理这些数据,以及如何建立合适的数据库结构。
3/24
周期目标:编写运行爬虫程序,拿到抖音用户和评论数据,并持久化存入MySQL:
1.数据库建表信息
创作者视频信息表设计:
CREATE TABLE douyin_aweme (id INT PRIMARY KEY AUTO_INCREMENT, -- 自增IDuser_id VARCHAR(64), -- 用户IDsec_uid VARCHAR(128), -- 用户sec_uidshort_user_id VARCHAR(64), -- 用户短IDuser_unique_id VARCHAR(64), -- 用户唯一IDnickname VARCHAR(64), -- 用户昵称avatar VARCHAR(255), -- 用户头像地址user_signature VARCHAR(500), -- 用户签名ip_location VARCHAR(255), -- 评论时的IP地址add_ts BIGINT, -- 记录添加时间戳last_modify_ts BIGINT, -- 记录最后修改时间戳aweme_id VARCHAR(64), -- 视频IDaweme_type VARCHAR(16), -- 视频类型title VARCHAR(500), -- 视频标题`desc` TEXT, -- 视频描述create_time BIGINT, -- 视频发布时间戳liked_count VARCHAR(16), -- 视频点赞数comment_count VARCHAR(16), -- 视频评论数share_count VARCHAR(16), -- 视频分享数collected_count VARCHAR(16), -- 视频收藏数aweme_url VARCHAR(255) -- 视频详情页URL
);
普通用户评论信息表设计:
CREATE TABLE douyin_aweme_comment (id INT PRIMARY KEY AUTO_INCREMENT, -- 自增IDuser_id VARCHAR(64), -- 用户IDsec_uid VARCHAR(128), -- 用户sec_uidshort_user_id VARCHAR(64), -- 用户短IDuser_unique_id VARCHAR(64), -- 用户唯一IDnickname VARCHAR(64), -- 用户昵称avatar VARCHAR(255), -- 用户头像地址user_signature VARCHAR(500), -- 用户签名ip_location VARCHAR(255), -- 评论时的IP地址add_ts BIGINT, -- 记录添加时间戳last_modify_ts BIGINT, -- 记录最后修改时间戳comment_id VARCHAR(64), -- 评论IDaweme_id VARCHAR(64), -- 视频IDcontent TEXT, -- 评论内容create_time BIGINT, -- 评论时间戳sub_comment_count VARCHAR(16) -- 评论回复数
);
2.后续进度安排
1.编写后端程序,进行分模块管理
2.将目前拿到的实验数据(视频信息38条,用户评论信息1000条)进行数据清洗
3.构思后端逻辑
4.前端UI设计
3. 数据处理和分析
采集到的数据可能需要进行清洗、去重、分析等处理,以便后续的应用。你可以考虑使用 Pandas、NumPy、或者其他数据处理工具进行数据分析和挖掘。
相关文章:

毕业设计:日志记录编写(3/17起更新中)
目录 3/171.配置阿里云python加速镜像:2. 安装python3.9版本3. 爬虫技术选择4. 数据抓取和整理5. 难点和挑战 3/241.数据库建表信息2.后续进度安排3. 数据处理和分析 3/17 当前周期目标:构建基本的python环境:运行爬虫程序 1.配置阿里云pytho…...

(一)基于IDEA的JAVA基础7
关系运算符 运算符 含义 范例 结果 等于 12 false ! 不等于 1!2 true > 大于 1>2 false < 小于 …...

MySQL数据库概念及MySQL的安装
文章目录 MySQL数据库一、数据库基本概念1、数据2、数据表3、数据库4、数据库管理系统(DBMS)4.1 数据库的建立和维护功能4.2 数据库的定义功能4.3 数据库的操纵功能4.4 数据库的运行管理功能4.5 数据库的通信功能(数据库与外界对接࿰…...

redis实际应用场景及并发问题的解决
业务场景 接下来要模拟的业务场景: 每当被普通攻击的时候,有千分之三的概率掉落金币,每回合最多爆出两个金币。 1.每个回合只有15秒。 2.每次普通攻击的时间间隔是0.5s 3.这个服务是一个集群(这个要求暂时不实现) 编写接口&…...

考研数学|汤家凤《1800》基础部分什么时候做完?
从我个人的经验来看,做完汤家凤1800的基础部分在第一轮复习中并不是必须的,但是可以作为一个有效的复习工具。 我认为汤家凤1800的基础部分确实涵盖了考研高数的基础知识点,并且题目难度适中,适合用来巩固基础。在第一轮复习中&a…...
JS的设计模式(23种)
JavaScript设计模式是指在JavaScript编程中普遍应用的一系列经过验证的最佳实践和可重用的解决方案模板,它们用来解决在软件设计中频繁出现的问题,如对象的创建、职责分配、对象间通信以及系统架构等。 设计模式并不特指某个具体的代码片段,…...

[自研开源] MyData v0.7.5 更新日志
开源地址:gitee | github 详细介绍:MyData 基于 Web API 的数据集成平台 部署文档:用 Docker 部署 MyData 使用手册:MyData 使用手册 试用体验:https://demo.mydata.work 交流Q群:430089673 介绍 MyData …...

3月份的倒数第二个周末有感
坐在图书馆的那一刻,忽然感觉时间的节奏开始放缓。今天周末因为我们两都有任务需要完成,所以就选了嘉定图书馆,不得不说嘉定新城远香湖附近的图书馆真的很有感觉。然我不经意回想起学校的时光,那是多么美好且短暂的时光。凝视着窗…...
Java 变得越来越像 Rust
Java 变得越来越像 Rust 介绍 随着编程的增强和复杂性越来越流行,许多编程语言也相互效仿。 Java 也不例外。 尽管社区内部存在问题,Rust 仍逐年赢得了开发人员的喜爱。并且有充分的理由:由于编译器,Rust 使开发人员能够避免整…...
通过git bash 或命令行ssh访问服务器 sftp上传下载文件
上传下载文件 sftp -P 端口 appywIP 示例:sftp -P 10022 appyw25.222.133.222 然后输入密码即可 ls 查看文件 lls 查看本地文件 cd 跳转 lcd 本地跳转 get ... 下载文件 put 本地文件名 远程文件夹 //上传文件 put -r 本地文件夹 远程文件夹 //上传文件夹服务器…...

27 OpenCV 凸包
文章目录 概念Graham扫描算法convexHull 凸包函数示例 概念 什么是凸包(Convex Hull),在一个多变形边缘或者内部任意两个点的连线都包含在多边形边界或者内部。 正式定义: 包含点集合S中所有点的最小凸多边形称为凸包 Graham扫描算法 首先选择Y方向最低…...

【GPT概念04】仅解码器(only decode)模型的解码策略
一、说明 在我之前的博客中,我们研究了关于生成式预训练转换器的整个概述,以及一篇关于生成式预训练转换器(GPT)的博客——预训练、微调和不同的用例应用。现在让我们看看所有仅解码器模型的解码策略是什么。 二、解码策略 在之前…...
蔚来-安全开发一面/二面
基本不怎么会渗透测试,本科期间有过大数据隐私保护(密码)的项目,硕士期间有个华为合作的项目一篇在投的ai安全论文 一面(45min) 1.介绍自己 2.介绍一下实习 3.场景题轰炸,主要针对实习中的场景,主要考察…...
Redis Cluster集群模式容器化部署
Redis Cluster集群模式容器化部署 安装Docker和docker-compose准备docker-compose文件准备Redis配置文件Linux内核参数优化启停Redis实例Redis集群搭建 环境准备: IP版本角色端口172.x.x.11RHEL 7.9master6379172.x.x.12RHEL 7.9master6379172.x.x.13RHEL 7.9maste…...

网络原理(6)——IP协议
目录 一、网段划分 现在的网络划分: 1、一般情况下的家庭网络环境 2、IP地址 3、子网掩码 4、网关 以前的网络划分: 二、特殊IP 1、环回 IP 2、主机号为全 0 的IP 3、广播地址IP 三、路由选择(路线规划) 一、网段划分…...

淘宝商品详情API接口:快速获取商品信息的高效工具
淘宝商品详情API接口:快速获取商品信息的高效工具 请求示例,API接口接入Anzexi58 在信息化、数字化的今天,数据已成为商业决策的重要依据。对于电商行业而言,快速准确地获取商品信息对于商家和消费者都至关重要。淘宝作为中国最大…...

一分钟学习Markdown语法
title: 一分钟学习Markdown语法 date: 2024/3/24 19:33:29 updated: 2024/3/24 19:33:29 tags: MD语法文本样式列表结构链接插入图片展示练习实践链接问题 欢迎来到Markdown语法的世界!Markdown是一种简单而直观的标记语言,让文本排版变得轻松有趣。接下…...
Power Apps 学习笔记 -- OrganizationRequestCollection
文章目录 1. OrganizationRequestCollection 简介2. OrganizationRequestCollection2.1 OrganizationRequest 使用2.2 OrganizationRequestCollection 使用 1. OrganizationRequestCollection 简介 OrganizationRequestCollection 链接 : OrganizationRequestCollection Orga…...

python绘图matplotlib——使用记录1
本博文来自于网络收集,如有侵权请联系删除 使用matplotlib绘图 1 常用函数汇总1.1 plot1.2 legend1.3 scatter1.4 xlim1.5 xlabel1.6 grid1.7 axhline1.7 axvspan1.8 annotate1.9 text1.10 title 2 常见图形绘制2.1 bar——柱状图2.2 barh——条形图2.3 hist——直…...
Spring Data访问Elasticsearch----创建存储库实例
Spring Data访问Elasticsearch----创建存储库实例 一、Java配置二、XML配置三、使用过滤器四、独立使用 本文介绍如何为已定义的存储库接口创建实例和bean定义。 一、Java配置 在Java配置类上使用特定于存储的EnableElasticsearchRepositories注解来定义用于存储库激活的配置。…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战
前言 现在我们有个如下的需求,设计一个邮件发奖的小系统, 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式(Decorator Pattern)允许向一个现有的对象添加新的功能,同时又不改变其…...
React Native 开发环境搭建(全平台详解)
React Native 开发环境搭建(全平台详解) 在开始使用 React Native 开发移动应用之前,正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南,涵盖 macOS 和 Windows 平台的配置步骤,如何在 Android 和 iOS…...
模型参数、模型存储精度、参数与显存
模型参数量衡量单位 M:百万(Million) B:十亿(Billion) 1 B 1000 M 1B 1000M 1B1000M 参数存储精度 模型参数是固定的,但是一个参数所表示多少字节不一定,需要看这个参数以什么…...

Swift 协议扩展精进之路:解决 CoreData 托管实体子类的类型不匹配问题(下)
概述 在 Swift 开发语言中,各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。 不过,在涉及到多个子类派生于基类进行多态模拟的场景下,…...
Qwen3-Embedding-0.6B深度解析:多语言语义检索的轻量级利器
第一章 引言:语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进 在人工智能领域,文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量,支撑着搜索引擎、推荐系统、…...

基于Docker Compose部署Java微服务项目
一. 创建根项目 根项目(父项目)主要用于依赖管理 一些需要注意的点: 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件,否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

04-初识css
一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

Ascend NPU上适配Step-Audio模型
1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤)&#x…...

Redis数据倾斜问题解决
Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中,部分节点存储的数据量或访问量远高于其他节点,导致这些节点负载过高,影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...
C++八股 —— 单例模式
文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性…...