头条百度批量采集软件说明文档
旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。
1、主界面

2、头条作者采集
网址文件选择txt ,使用选择按钮选择,不要手动复制路径进去
保存目录选择一个文件夹
保存的格式有:
url:网址放在一个txt中去)、txt:一篇文章一个txt,图片自动下载到images目录下面、docx:保存成word、保存成html、数据存储成csv只存网址
最小阅读量:小于这个阅读量的文章不采集
翻页数量:作者列表的下拉次数
字数限制:文章内容低于这个数值不采集
时间限制:一定要按照给的示例进行填写,年-月-日 时:分:秒 个位数的数字补零,比如2025-01-02 03:04:12 这里面的01 02 03 04都补零了
下载图片的宽高限制,可以是200,意思宽高小于200不保存,也可以填200,300 宽小于200高小于300不下载
延迟时间:采集一篇之后的暂停时间
屏蔽图片:0不屏蔽图片下载,1屏蔽图片下载(意思就是不下载图片了)
裁剪像素:下载图片的时候,从底部往上裁剪图片像素,设置30-50即可
图文同目录:只对txt采集模式有效,设置1,txt保存的时候会保存到文章图片目录下面,0就是常规模式
屏蔽词:一行一个,文章中包含里面的关键词不采集,不要有空行
头条cookie:我提供的cookie有效尽量不要换,换了可能采集不到
强制监控采集:无限循环作者列表进行采集,慎用,可能会被反爬
采集头条文章/微头条文章,这里不做说明了。

2、头条链接采集
这里是我们整理好头条网址或者微头条网址,放到txt中,软件调用进行采集,比如:有些客户可以从易撰这种网站下载爆文网址,那么可以用这个功能,把文章和图片下载到本地。
这里要说明一点,如果是我们下载的微头条网址中,不带/w/我们需要把下载的网址改动一下,比如我们从易撰下载下来的微头条网址是https://www.toutiao.com/item/123/,我们需要改成https://www.toutiao.com/w/123/这种个样式的,把item改成w,这样软件才能识别。
网址文件:调用txt文件,使用选择按钮进行选择
保存目录:使用选择按钮,选择一个保存目录
保存txt:把数据保存成txt
保存docx:把数据保存成docx
裁剪像素:和上面的原理一样,裁剪图片。
txt图文同目录:只针对txt数据,把txt保存到文章图片目录下面去
采集模式:爬虫模式是直接爬取源码,网页模式是驱动谷歌浏览器进行采集,使用网页模式爬取的时候,一定要使用自己头条账号的cookie,很多链接只有登录才会看的到,否则会出现一个头条的登录页面。

3、头条热点采集
采集最新热点资讯关键词,注意使用频次,不要太快。
保存关键词:保存热点关键词
保存txt:根据热点关键词采集相关文章保存txt
保存docx:根据热点关键词采集相关文章保存成docx
文章下载数量:一个关键词采集相关文章的数量
时间间隔:采集一篇之后的暂停时间

4、按照百家作者采集
UK文件存放是百家作者的UK id,打开百家作者主页,右键查看源代码,ctrl+f 搜索 uk ,匹配上的第一个字段值,就是百家作者的uk id,一行一个,放到txt中,使用选择按钮调用该文件。
百家的一些设置项目和头条作者的基本是一致的,其中有一个不同是:生成竖图,这个地方是为了发布百家的时候方便调用竖图缩略图设置的,这个功能是从作者百家号发布软件迁移过来的,可以选择生成,也可以选择不生成,自定义即可。
标题禁止包含关键词:一行一个,标题中包含这些关键词,就不采集该文章。
百度cookie:使用自己百度账号的cookie 即可。

5、百家链接采集
把整理好的百家号文章链接,百度动态文章链接,整理好,放到txt中让软件调用,软件就可以自动以采集了,设置选项和头条按照链接采集的基本一致。
采集模式也是两种 ,爬虫模式、网页模式
6、软件下载链接:
百度网盘下载链接: https://pan.baidu.com/s/1C9nt4NHr49jzSY-J6pF0ZQ?pwd=e2cb 提取码: e2cb
蓝奏云下载地址:https://wwyl.lanzouv.com/b0r9o03qf密码:4zdg
相关文章:
头条百度批量采集软件说明文档
旧版说明文档《头条号文章批量采集软件4.0版本说明文档!头条/微头条文章批量采集》 头条的采集软件已经更新了好多个版本了,一直没有做详细的介绍文档,最近更新了一些功能进去,一块来写一下说明文档。 1、主界面 2、头条作者采集…...
36.日常算法
1.最小栈 题目来源 设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素val推入堆栈。 void pop() 删除堆栈顶部的元素。 int top() 获取堆…...
计算机考研复试上机04
目录 6、向量 1)完数与盈数(清华大学复试上机题) 7、队列 1)约瑟夫问题 No. 2 8、栈 1)简单计算器(浙江大学复试上机题) 2)堆栈的使用(吉林大学复试上机题…...
【面试】面试常见的智力题
引言 在技术面试中,除了考察编程能力和算法知识外,智力题也是常见的考察方式。智力题不仅能够测试候选人的逻辑思维能力,还能反映其解决问题的创造力和应变能力。本文将整理一些常见的面试智力题,并详细分析解题思路,…...
【动态规划】风扫枯杨,满地堆黄叶 - 9. 完全背包问题
本篇博客给大家带来的是完全背包问题之动态规划解法技巧. 🐎文章专栏: 动态规划 🚀若有问题 评论区见 ❤ 欢迎大家点赞 评论 收藏 分享 如果你不知道分享给谁,那就分享给薯条. 你们的支持是我不断创作的动力 . 王子,公主请阅🚀 要开心要快乐顺…...
BGP基础协议详解
BGP基础协议详解 一、BGP在企业中的应用二、BGP概述2.1 BGP的特点2.2 基本配置演示2.3 抓包观察2.4 BGP的特征三、BGP对等体关系四、bgp报文4.1 BGP五种报文类型(重点)4.2 BGP报文格式-报文头格式4.3 Open报文格式4.4 Update报文格式4.5 Notification报文格式4.6 Route-refre…...
LeetCode刷题---数组---840
矩阵中的幻方 https://leetcode.cn/problems/magic-squares-in-grid/submissions/598584907/ 题目: 3 x 3 的幻方是一个填充有 从 1 到 9 的不同数字的 3 x 3 矩阵,其中每行,每列以及两条对角线上的各数之和都相等。 给定一个由整数组成…...
Visual Studio踩过的坑
统计Unity项目代码行数 编辑-查找和替换-在文件中查找 查找内容输入 b*[^:b#/].*$ 勾选“使用正则表达式” 文件类型留空 也有网友做了指定,供参考 !*\bin\*;!*\obj\*;!*\.*\*!*.meta;!*.prefab;!*.unity 打开Unity的项目 注意:只是看࿰…...
【深度学习入门实战】基于Keras的手写数字识别实战(附完整可视化分析)
本人主页:机器学习司猫白 ok,话不多说,我们进入正题吧 项目概述 本案例使用经典的MNIST手写数字数据集,通过Keras构建全连接神经网络,实现0-9数字的分类识别。文章将包含: 关键概念图解完整实现代码训练过程可视化模型效果深度分析环境准备 import numpy as np impo…...
SkyWalking 10.1.0 实战:从零构建全链路监控,解锁微服务性能优化新境界
文章目录 前言一、集成SkyWalking二、SkyWalking使用三、SkyWalking性能剖析四、SkyWalking 告警推送4.1 配置告警规则4.2 配置告警通知地址4.3 下发告警信息4.4 测试告警4.5 慢SQL查询 总结 前言 在传统监控系统中,我们通过进程监控和日志分析来发现系统问题&…...
计算机毕业设计——Springboot的旅游管理
🎉**欢迎来到琛哥的技术世界!**🎉 📘 博主小档案: 琛哥,一名来自世界500强的资深程序猿,毕业于国内知名985高校。 🔧 技术专长: 琛哥在深度学习任务中展现出卓越的能力&a…...
【通俗易懂说模型】反向传播(附多元分类与Softmax函数)
🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀深度学习_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前言 2. …...
Kickstart自动化安装过程中自动选择较小的磁盘安装操作系统
Kickstart自动化安装过程中自动选择较小的磁盘安装操作系统 需求 在实际生成操作过程中,一般会遇到物理服务器存在多块盘的情况。 安装过程中,磁盘的标签是随机分配的,并不是空间较小的盘,就会使用较小的磁盘标签 而需求往往需要…...
128,【1】buuctf [极客大挑战 2019]PHP
进入靶场 提示了备份文件 抓包,扫描 扫描出了两个有反应的 访问index.php没反应,但www.zip成功下载了文件 index.php里得到如下有用信息 <?phpinclude class.php;$select $_GET[select];$resunserialize($select);?> 所以我们要通过GET 方…...
3.3 学习UVM中的uvm_driver 类分为几步?
文章目录 前言1. 定义2. 核心功能3. 适用场景4. 使用方法5. 完整代码示例5.1 事务类定义5.2 Driver 类定义5.3 Sequencer 类定义5.4 测试平台 6. 代码说明7. 总结 前言 以下是关于 UVM 中 uvm_driver 的详细解释、核心功能、适用场景、使用方法以及一个完整的代码示例ÿ…...
系统思考—双环学习
前几天,一个企业高管向我提到:“我们调整了N次方案,市场策略、团队激励、管理制度,能改的全改了,怎么还是不见起色?” 这让我想到典型的单环学习,简单来说就是:发现问题 → 采取行动…...
QTreeView和QTableView单元格添加超链接
QTreeView和QTableView单元格添加超链接的方法类似,本文仅以QTreeView为例。 在QTableView仿Excel表头排序和筛选中已经实现了超链接的添加,但是需要借助delegate,这里介绍一种更简单的方式,无需借助delegate。 一.效果 二.实现 QHTreeView.h #ifndef QHTREEVIEW_H #def…...
elastic search 的 highlight
Elasticsearch 的 highlight 功能用于在搜索结果中突出显示匹配的文本片段。这对于用户界面上的搜索结果展示非常有用,因为它可以帮助用户快速定位到他们搜索的关键词。 1. 基本用法 在 Elasticsearch 中,highlight 功能通常在查询中使用,并…...
【MySQL篇】行格式详解
MySQL行格式详解 文章目录 MySQL行格式详解🎉 什么是行格式🐱👤 如何查看行格式🐱🚀 InnoDB 行格式有哪些?🐱🏍 Compact 行格式🚩 额外信息🚀 变长字段…...
嵌入式知识点总结 操作系统 专题提升(五)-内存
针对于嵌入式软件杂乱的知识点总结起来,提供给读者学习复习对下述内容的强化。 目录 1.在1G内存的计算机能否malloc(1.2G)?为什么? 2.malloc能申请多大的空间? 3.内存管理有哪几种方式? 4.什…...
动手学深度学习---深层神经网络
目录 一、神经网络1.1、模型训练1.2、损失函数1.2.1、分类:hinge loss/合页损失/支持向量机损失1.2.2、分类:交叉熵损失(softmax分类器)1.2.2.1 二分类交叉熵损失1.2.2.2 多分类交叉熵损失 1.2.3、回归:误差平方和(SSE)…...
第9章 城市基础设施更新工程 9.1 道路改造施工
9.1 道路改造施工 9.1.1 道路改造施工内容 沥青、水泥混凝土、砌块路面及人行步道、绿化照明、附属设施、交通标志。沥青路面材料的再生利用。 9.1.2 道路改造施工技术 1.沥青路面病害及微表处理 1.病害处理 裂缝处理 10mm以内 专用灌缝材料、热沥青灌缝、缝内潮湿时采用…...
java基础6(黑马)
一、static 1.static修饰成员变量 static:叫静态,可以修饰成员变量、成员方法。 成员变量按照有无static,分两种。 类变量:有static修饰,属于类,在计算机中只有一份,会被类的全部对象共享。…...
Transformer 详解:了解 GPT、BERT 和 T5 背后的模型
目录 什么是 Transformer? Transformer如何工作? Transformer 为何有用? 常见问题解答:机器学习中的 Transformer 在技术领域,突破通常来自于修复损坏的东西。制造第一架飞机的人研究过鸟类。莱特兄弟观察了秃鹫如何在气流中保持平衡,意识到稳定性比动力更重要。…...
Ollama命令使用指南
Ollama 命令使用指南 Ollama 命令使用指南1. Ollama 命令概览2. Ollama 命令详解2.1 启动 Ollama2.2 创建模型2.3 查看模型信息2.4 运行模型2.5 停止运行的模型2.6 从注册表拉取模型2.7 推送模型到注册表2.8 列出本地模型2.9 查看正在运行的模型2.10 复制模型2.11 删除模型 3. …...
【Prometheus】MySQL主从搭建,以及如何通过prometheus监控MySQL运行状态
✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...
上传文件防木马函数
项目环境:TP6、TP5 问题:解决旧项目中上传上来的文件校验不严格。导致会有木马文件入侵的情况发生。除了上篇博文中提及的限制上传文件存储的目录不可执行php文件外。仍需在入口处严格检验上传文件的类型,排除php类可执行文件上传。 解决&a…...
百问网imx6ullpro调试记录(linux+qt)
调试记录 文章目录 调试记录进展1.开发板相关1.1百问网乌班图密码 1.2 换设备开发环境搭建串口调试网络互通nfs文件系统挂载 1.3网络问题1.4系统启动1.5进程操作 2.QT2.1tslib1.获取源码2.安装依赖文件3.编译 2.2qt移植1.获取qt源码2.配置编译器3.编译 2.3拷贝到开发板1.拷贝2.…...
人脸识别与人脸检测技术
人脸识别技术,作为一种基于人的脸部特征信息进行身份识别的生物识别技术,近年来在人工智能和计算机视觉技术的推动下取得了显著进展。它利用摄像机或摄像头采集含有人脸的图像或视频流,自动在图像中检测和跟踪人脸,进而对检测到的人脸进行一系列计算和分别判断。这一技术不…...
前端性能分析常见内容
前端性能分析是前端开发中的重要部分,以下是对前端常考性能分析题目的详解: 一、性能指标 前端性能优化的核心目标是提升用户体验,常见的性能指标包括: 加载时间(Load Time):指从用户发出请求…...
