当前位置: 首页 > news >正文

我和爬虫的故事

文章目录

  • 爬虫简介
  • 个人经历
  • 未来
  • 总结

爬虫简介

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

个人经历

  • 本人有幸在大二时接触到爬虫(非计算机专业),于是开始走向 自学Python,放弃Python,再学Python,再次放弃,继续学

到这时已经很迷茫了,因为一来就接触语言,很模糊,不知道该学啥,学来有什么用,所以徘徊,我大概学了四遍python基础(完整看完过 小甲鱼(零基础到飞机大战设计)、慕课的python两门课程、黑马培训的python课),才对python有了一点掌握和了解,当然期间接触到了c和java的学习

  • 辅修计算机学位(c,java,前端设计,java后端,计算机网络,数据结构,mysql,操作系统等等课程)。

其实上课和枯燥,学校主要还是教授以前端和后端为主,我并不感冒这些课程,所以学的时候也是三天打鱼两天晒网。课程都是以最低标准去完成要求,越学习,越觉得无趣,后来还是拾起了python。

  • 实习,太幸运太幸运了,没有这一段,就没有现在的我,通过在计算机学院的朋友(杨兄),又推荐了计算机学院的就业指导老师,推荐了一份在重庆一家公司做(兼职实习生),后来成为正式实习生,最后经过试用期,转正成为正式员工

最近看到一种观点,大学只有三年学习时间,最后一年是找工作和写论文的,很庆幸当时的我笨鸟先飞,在大三下学期就开始去找实习工作,因为我已经有了点基础(不知天高地厚),但是不知道现在岗位需要什么样的人,所以就开始刷招聘软件,疯狂去争取面试,(期间发生了很多摧毁我信心的,差点还被骗进培训班,2w包就业的那种,贷款上班,o(╥﹏╥)o),最后是杨兄帮我找到就业指导老师,刚好有一家公司的管理来我们学校找兼职实习生(不需要基础),于是很幸运很幸运,再晚几天找老师可能就错过了。在这里遇到了,可以说是从0到1的 李师傅带上岸的,敢相信,当时 只会 requests.get,连post都不会,我真的哭死,后来在李师傅和其他小伙伴的带领下,开始 base64加密、cookie加密、js逆向、混淆、正则匹配、mysql的实际运用、服务器的使用等等,后来又有婷姐教了很多后端的知识,字符匹配,代码的规范等待,真的在这里学到的太多太多了。我在这里学到这么多,为什么离职?(重庆的就业环境太差了,想挑战自己,想去外面看一看,因为我还有小弟这里面,具体就不到那么具体了,不能动摇军心,但是我对前公司都是抱感激的态度,而我更想一个白眼狼,养大了就跑,我都替公司感到不值,如果能重来,我还是会选这家公司)

  • 第一次跳槽,在去年年底,正好赶上新公司(现在的公司,定位:广东东莞)缺人,工资开到前公司的一倍,心动不如行动,星期天就提离职,星期四早上走完流程,星期四晚上已经在新公司宿舍了,星期五就已经在工位上开始工作,一直工作到现在。

和前公司提离职时,我还没说我已经确定下来工作了,只是想快点交接完工作,主要还是和李师傅和婷姐,我有提前跟他们说,所以交接很快,在3天内就做完了交接,最后离职。我承认我有赌的成分,我也对未知也有恐惧,但是奈何新公司给的太多(当时),换算下来比在重庆的待遇翻了一倍还多。新公司为小型的科技公司,所以很多都是需要独立完成,我在这里学的东西还是很有限的,自能靠自学,前任同事留下来的代码,可以毫不夸张的说一个星期看完了,但是留下来的代码没有规范化的书写,所以我也不打算重构,只是面试往里面塞,诠释了“能跑就行”,再不行,就我跑!!!

(2024.05.13)

未来

(2024.05.13)

  • 未知

其实我很想穿越到未来看我到底过得怎么样,我是以放弃结尾还是小有成就。

  • 短期目标

找到一家新公司,给的足够多,赚点存款 or 找到一个好的项目,带回重庆发展。两条线路并行

  • 长期目标

找到合适自己的项目,花几年经营,然后躺平赚被动收入;
or
有某项了不起的能力,能够回重庆当管理层;
or
就看我的朋友有没有发财的,养我了。

总结

(2024.05.13)

  • 搞清楚兴趣;学习

兴趣是最好的老师,我是因为喜欢逆向,所以才能走到现在这一步,并不是喜欢写程序,前端和后端明明有更好的选择,但是我还是选择了离我最遥远的python-爬虫,并在这条路上越走越远。

  • 需要正向反馈;

在一定程度上,如果从一件事情上没有任何反馈,就没有动力;我的动力来源于能够靠这个赚到$了,为什么我放弃了python两次,因为在学python基础的时候,就像我一个人走在条无尽的黑路上,我不知道能得到什么反馈;但是自从我学会了爬虫,能够独自赚钱了,我发现我只能做几十到一两百的单子,但是技术越高,能得到的越多,这是我学技术这么拼命的一个很重要的原因。这个反馈不一定是要是钱,也可以是其他的奖励,但是一定要有,否则一个人太难了。

  • 学习

其他行业不清楚,但是爬虫行业,必须得跟上技术的脚步,因为反爬是在最近几年才兴起的,而且有更多更难的,是爆发式的增长,这个行业也是 一个人与整个团队的斗智斗勇,我太喜欢这种感觉了,这也是我的兴趣点,所以喜欢这个行业,我不是证明我比一个安全团队更厉害,只是享受在破解后的那一刻“爽”。


ps: 其实这是一篇为了凑发布量的一篇文章,我也不知道为啥要写这个,还憋了1个小时,写了2k+字,真是睡不着觉,后面我也会不定期更新这篇文章,保证文章不改的同时,向里面添加新的内容,欢迎关注,也期待听到其他人的故事。

欢迎交流:

vx: lyj_txd
qq: 1416279170

相关文章:

我和爬虫的故事

文章目录 爬虫简介个人经历未来总结 爬虫简介 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外…...

常用的简单友好的工单系统(免费)- WGCAT

最近在项目中,有工单系统的需求场景,所以想寻找一款轻量简单的运维工单软件,主要用来记录和处理工作中的一些故障、维护,主要用来记录设备的维护状态,包括服务器、主机、交换机那些 WGCAT,是一款简单轻量的…...

使用Pycharm编写Python程序时对基本类结构中方法的重写的两种初步操作方式

使用Pycharm编写Python程序时对基本类结构中方法的重写的两种初步操作方式 Python和其他一些高级面向对象的编程语言中,子类可继承父类中的方法,而不需要重新编写相同的方法。但有时子类并不想原封不动地继承父类的方法,而是想作一定的修改&…...

HTTP URL 详解

概述 URL 提供了一种定位因特网上任意资源的手段&#xff0c;大多数 URL 语法都由以下九个结构的通用格式组成&#xff1a; <scheme>://<user>:<password><host>:<port>/<path>;<params>?<query>#<frag> 方案&#…...

Python 原生爬虫

Python 描述代码 描述 爬网站的页面配合正则表达式设置定时任务 仅学习参考&#xff0c;切勿使用其他用途 代码 import re import schedule import timefrom urllib.request import urlopenclass Spider:def __init__(self):# 初始化代码...pass# self.start_schedule()# 需要…...

数据结构---经典链表OJ

乐观学习&#xff0c;乐观生活&#xff0c;才能不断前进啊&#xff01;&#xff01;&#xff01; 我的主页&#xff1a;optimistic_chen 我的专栏&#xff1a;c语言 点击主页&#xff1a;optimistic_chen和专栏&#xff1a;c语言&#xff0c; 创作不易&#xff0c;大佬们点赞鼓…...

HTML_CSS学习:CSS像素与颜色

一、像素 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>像素</title> </head><style>.atguigu1{/*单位可以是cm&#xff0c;但不能是m,dm*/width: 1cm;height: 1cm;background-c…...

华为交换机配置导出备份python脚本

一、脚本编写思路 &#xff08;一&#xff09;针对设备型号 主要针对华为&#xff08;Huawei&#xff09;和华三&#xff08;H3C&#xff09;交换机设备的配置备份 &#xff08;二&#xff09;导出前预处理 1.在配置导出前&#xff0c;自动打开crt软件或者MobaXterm软件&am…...

DS:时间复杂度和空间复杂度

欢迎各位来到 Harper.Lee 的学习世界&#xff01; 博主主页传送门&#xff1a;Harper.Lee的博客主页 想要一起进步的uu欢迎来后台找我哦&#xff01; 本片博客主要介绍的是数据结构中关于算法的时间复杂度和空间复杂度的概念。 一、算法 1.1 什么是算法&#xff1f; 算法(Alg…...

AI跟踪报道第41期-新加坡内哥谈技术-本周AI新闻:本周Al新闻: 准备好了吗?事情即将変得瘋狂

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…...

Go 之 interface接口理解

go语言并没有面向对象的相关概念&#xff0c;go语言提到的接口和java、c等语言提到的接口不同&#xff0c;它不会显示的说明实现了接口&#xff0c;没有继承、子类、implements关键词。go语言通过隐性的方式实现了接口功能&#xff0c;相对比较灵活。 interface是go语言的一大…...

简约在线生成短网址系统源码 短链防红域名系统 带后台

简约在线生成短网址系统源码 短链防红域名系统 带后台 安装教程&#xff1a;访问 http://你的域名/install 进行安装 源码免费下载地址抄笔记 (chaobiji.cn)https://chaobiji.cn/...

设置默认表空间和重命名

目录 设置默认表空间 创建的临时表空间 tspace4 修改为默认临时表空间 创建的永久性表空间 tspace3 修改为默认永久表空间 重命名表空间 将表空间 tspace3 修改为 tspace3_1 Oracle从入门到总裁:​​​​​​https://blog.csdn.net/weixin_67859959/article/details/13520…...

Hive大表join大表如何调优

目录 一、调优思路1、SQL优化1.1 大小表join1.2 大大表join 2、insert into替换union all3、排序order by换位sort by4、并行执行5、数据倾斜优化6、小文件优化 二、实战2.1 场景2.2 限制所需的字段&#xff0c;间接mapjoin2.2 解决异常值倾斜&#xff0c;如NULL加随机数打散2.…...

SAF文件选择、谷歌PhotoPicker图片视频选择与真实路径转换

一、构建选择文件与回调方法 //文件选择回调ActivityResultLauncher<String[]> pickFile registerForActivityResult(new ActivityResultContracts.OpenDocument(), uri->{if (uri ! null) {Log.e("cxy", "返回的uri:" uri);Log.e("cxy&q…...

java可变参数

前言 我们虽然能够用重载实现&#xff0c;但多个参数无法弹性匹配 代码 class mycalculator{//下面的四个calculate方法构成了重载//计算2个数的和&#xff0c;3个数的和&#xff0c;4&#xff0c;5&#xff0c;6个数的和// public void calculate(int n1){// System.out.…...

Flutter 中的 Expanded 小部件:全面指南

Flutter 中的 Expanded 小部件&#xff1a;全面指南 在 Flutter 中&#xff0c;Expanded 是一个用于控制子控件占据可用空间的布局小部件&#xff0c;通常与 Row、Column 或 Flex 等父级布局小部件一起使用。Expanded 允许你创建灵活的布局&#xff0c;其中子控件可以按照指定…...

[Kubernetes] KubeKey 部署 K8s v1.28.8

文章目录 1.K8s 部署方式2.操作系统基础配置3.安装部署 K8s4.验证 K8s 集群5.部署测试资源 1.K8s 部署方式 kubeadm: kubekey, sealos, kubespray二进制: kubeaszrancher 2.操作系统基础配置 主机名内网IP外网IPmaster192.168.66.2139.198.9.7node1192.168.66.3139.198.40.17…...

C# 与 Qt 的对比分析

C# 与 Qt 的对比分析 目录 C# 与 Qt 的对比分析 1. 语言特性 2. 开发环境 3. 框架和库 4. 用户界面设计 5. 企业级应用 6. 性能考量 在软件开发领域&#xff0c;C# 和 Qt 是两种常用的技术栈&#xff0c;它们分别在.NET平台和跨平台桌面应用开发中占据重要位置。本文将深…...

MapReduce | 二次排序

1.需求 主播数据--按照观众人数降序排序&#xff0c;如果观众人数相同&#xff0c;按照直播时长降序 # 案例数据 用户id 观众人数 直播时长 团团 300 1000 小黑 200 2000 哦吼 400 7000 卢本伟 100 6000 八戒 250 5000 悟空 100 4000 唐僧 100 3000 # 期望结果 哦吼 4…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题&#xff1a; 下面创建一个简单的Flask RESTful API示例。首先&#xff0c;我们需要创建环境&#xff0c;安装必要的依赖&#xff0c;然后…...

IGP(Interior Gateway Protocol,内部网关协议)

IGP&#xff08;Interior Gateway Protocol&#xff0c;内部网关协议&#xff09; 是一种用于在一个自治系统&#xff08;AS&#xff09;内部传递路由信息的路由协议&#xff0c;主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要&#xff1a;设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP&#xff08;Work-in-Progress&#xff09;弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中&#xff0c;设立专门的紧急任务通道尤为重要&#xff0c;这能…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明

AI 领域的快速发展正在催生一个新时代&#xff0c;智能代理&#xff08;agents&#xff09;不再是孤立的个体&#xff0c;而是能够像一个数字团队一样协作。然而&#xff0c;当前 AI 生态系统的碎片化阻碍了这一愿景的实现&#xff0c;导致了“AI 巴别塔问题”——不同代理之间…...

鱼香ros docker配置镜像报错:https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题 一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题&#xff1a;docker pull 失败 网络不同&#xff0c;需要使用镜像源 按照如下步骤操作 sudo vi /etc/docker/dae…...

高防服务器能够抵御哪些网络攻击呢?

高防服务器作为一种有着高度防御能力的服务器&#xff0c;可以帮助网站应对分布式拒绝服务攻击&#xff0c;有效识别和清理一些恶意的网络流量&#xff0c;为用户提供安全且稳定的网络环境&#xff0c;那么&#xff0c;高防服务器一般都可以抵御哪些网络攻击呢&#xff1f;下面…...

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景 随着大语言模型(LLM)的广泛应用,开发者常面临多个挑战: 各大模型(OpenAI、Claude、Gemini、Ollama)接口风格不统一;缺乏一个统一平台进行模型调用与测试;本地模型 Ollama 的集成与前…...

Java编程之桥接模式

定义 桥接模式&#xff08;Bridge Pattern&#xff09;属于结构型设计模式&#xff0c;它的核心意图是将抽象部分与实现部分分离&#xff0c;使它们可以独立地变化。这种模式通过组合关系来替代继承关系&#xff0c;从而降低了抽象和实现这两个可变维度之间的耦合度。 用例子…...

学习一下用鸿蒙​​DevEco Studio HarmonyOS5实现百度地图

在鸿蒙&#xff08;HarmonyOS5&#xff09;中集成百度地图&#xff0c;可以通过以下步骤和技术方案实现。结合鸿蒙的分布式能力和百度地图的API&#xff0c;可以构建跨设备的定位、导航和地图展示功能。 ​​1. 鸿蒙环境准备​​ ​​开发工具​​&#xff1a;下载安装 ​​De…...

小木的算法日记-多叉树的递归/层序遍历

&#x1f332; 从二叉树到森林&#xff1a;一文彻底搞懂多叉树遍历的艺术 &#x1f680; 引言 你好&#xff0c;未来的算法大神&#xff01; 在数据结构的世界里&#xff0c;“树”无疑是最核心、最迷人的概念之一。我们中的大多数人都是从 二叉树 开始入门的&#xff0c;它…...