当前位置: 首页 > article >正文

揭秘DeepSeek千万级语料构建全流程:从原始网页采集到高质量token化,97.3%过滤率背后的硬核实践

更多请点击 https://intelliparadigm.com第一章DeepSeek训练数据准备DeepSeek系列大模型的训练质量高度依赖于数据的规模、多样性与清洗精度。训练数据并非简单堆叠原始网页或文本而是经过多阶段筛选、去重、毒性过滤与格式标准化的结构化语料集合。数据来源构成DeepSeek官方披露的训练数据主要来自以下几类高质量公开资源Common Crawl经严格语言识别与HTML清洗后的英文/中文子集Wikipedia多语言版本含完整修订历史与跨语言对齐处理GitHub开源代码库仅限MIT/Apache-2.0等宽松许可证项目经代码-注释对齐与执行环境验证专业领域语料如arXiv论文、Stack Exchange问答、教科书PDF OCR后校正文本关键预处理步骤数据清洗采用流水线式处理典型命令如下# 使用deduplicate-lines工具进行行级去重保留首次出现 cat raw_corpus.txt | sort -S 4G | uniq deduped_corpus.txt # 应用fasttext语言检测器过滤非目标语种以中文为例 cat deduped_corpus.txt | fasttext predict lid.176.bin - | \ awk $2 __label__zh {print $1} zh_only_corpus.txt该流程确保每条样本满足语言一致性、低重复率与高信息密度要求。数据质量评估指标下表列出了各阶段核心评估维度及阈值要求评估维度工具/方法合格阈值重复率n-gram, n8datasketch.MinHashLSH 0.5%毒性文本比例Detoxify (multilingual) 自定义规则 0.02%平均句子长度字符spaCy jieba 分词统计12–85中英混合合理区间文档分块与序列化最终语料按固定上下文窗口切分为tokenized序列并以二进制格式持久化# 使用transformers.AutoTokenizer进行统一编码 from transformers import AutoTokenizer tokenizer AutoTokenizer.from_pretrained(deepseek-ai/deepseek-coder-1.3b-base) encoded tokenizer( text, truncationTrue, max_length2048, return_tensorspt, paddingFalse, add_special_tokensTrue ) # 输出为memory-mapped .bin 文件供训练器直接加载第二章原始网页采集与去重体系构建2.1 基于分布式爬虫架构的大规模网页发现与抓取实践核心组件协同流程调度中心 → 分发器 → 多节点Fetcher → 结构化存储任务分片策略基于URL哈希值路由至指定Worker节点支持动态扩缩容自动重平衡未完成任务去重与指纹生成// 使用SimHash BloomFilter两级去重 func genFingerprint(body []byte) uint64 { hash : simhash.FromBytes(body) // 文本语义敏感容忍HTML噪声 return hash.Truncate(64) // 截断为64位整型便于Redis Bitset操作 }该函数通过SimHash提取网页内容语义指纹64位截断兼顾精度与内存效率配合Redis Bitmap实现亿级URL毫秒级判重。性能对比万URL/分钟架构类型吞吐量失败率单机队列1.28.7%分布式16节点42.50.3%2.2 多粒度URL去重与内容指纹哈希SimHash MinHash工程实现双层哈希协同设计采用 SimHash 捕获全局语义相似性MinHash 聚焦局部片段重复率二者互补降低误判率。Go 实现核心哈希流水线func ComputeFingerprints(html string) (sim uint64, min []uint64) { tokens : Preprocess(HTMLToText(html)) // 清洗分词 sim simhash.Compute(tokens, 64) // 64位SimHash抗编辑扰动 min minhash.Compute(tokens, 128, NewMurmur3()) // 128个最小哈希值Murmur3种子一致 return }Preprocess执行去停用词、标准化Unicodesimhash.Compute使用加权位累加支持词频权重minhash.Compute通过随机排列哈希取最小值模拟Jaccard相似度。性能对比10万URL样本方法内存占用查重吞吐召回率MD5全量1.2 GB8.3k/s92.1%SimHashMinHash386 MB24.7k/s98.6%2.3 动态渲染页面处理Headless Chromium集群调度与资源隔离策略容器化资源隔离模型采用 cgroups v2 namespaces 实现进程级资源围栏每个 Chromium 实例独占 CPU 配额与内存上限# 启动时绑定资源限制 docker run --cpus1.5 --memory2g \ --memory-reservation1g \ --pids-limit120 \ chromium-headless:124该配置确保单实例最多使用 1.5 核 CPU 与 2GB 内存同时预留 1GB 保障基础渲染能力PID 限制防止进程泄漏。集群调度决策矩阵负载指标阈值调度动作CPU 使用率85% 持续 30s迁移至低负载节点内存 RSS1.8GB触发 GC 并限流新任务2.4 反爬对抗机制设计请求指纹模拟、频控熔断与代理池智能轮转请求指纹动态生成通过组合浏览器指纹关键维度User-Agent、Accept-Language、Sec-Ch-Ua 等构建高仿真请求头规避静态 UA 检测。func genFingerprint() http.Header { ua : randomUA() headers : http.Header{} headers.Set(User-Agent, ua) headers.Set(Accept-Language, zh-CN,zh;q0.9) headers.Set(Sec-Ch-Ua, Chromium;v124, Google Chrome;v124, Not-A.Brand;v99) return headers }该函数确保每次请求携带差异化但合规的指纹字段randomUA()从预置主流浏览器 UA 池中随机选取Sec-Ch-Ua与 UA 版本严格对齐防止指纹逻辑矛盾被识别。频控熔断策略单 IP 每分钟请求数 ≥ 30 → 触发临时限流连续 5 次响应状态码为 429/403 → 自动熔断 5 分钟代理池智能轮转策略触发条件权重衰减低延迟优先RTT 300ms×0.95/次成功高可用优先成功率 98%×0.98/次失败2.5 跨语言站点识别与区域化采集策略TLDHTTP头HTML lang属性联合判定三重信号协同判定逻辑优先级依次为顶级域名TLD→ HTTPAccept-Language头 → HTMLhtml langzh-CN属性。任一信号缺失时降级采用下一级。判定权重配置表信号源可信度典型值示例TLD高地理强约束.de, .jp, .caHTTP Accept-Language中客户端偏好fr-FR;q0.9, en;q0.8HTML lang低易被静态模板固化langen-USGo语言判定函数片段func detectLocale(tld string, headers http.Header, htmlLang string) string { if localeByTLD[tld] ! { return localeByTLD[tld] } // 如 .cn → zh-CN if langs : headers.Get(Accept-Language); langs ! { return parseQValue(langs).First() // 解析 quality-weighted list } return htmlLang // fallback }该函数实现三级短路判定TLD映射表查表O(1)HTTP头解析支持q-value加权排序最终回退至HTML lang属性。参数htmlLang需经标准化如转小写、截断子标签。第三章多层级噪声过滤与质量初筛3.1 基于规则引擎的低质内容快速剔除广告/导航/弹窗文本模式匹配实践核心匹配策略采用正则驱动的轻量级规则引擎针对网页正文提取后的纯文本片段进行实时扫描。重点识别高频低质模式如“立即下载”“扫码关注”“点击跳转”“×关闭窗口”等语义簇。典型规则定义示例// 广告类关键词组合支持模糊边界与常见变体 var adPatterns []*regexp.Regexp{ regexp.MustCompile((?i)\b(立即|马上|限时|免费|领[取券]|扫码|关注.*?公众号|下载.*?APP)\b), regexp.MustCompile((?i)(?该代码定义三组正则规则第一组覆盖促销动词名词组合(?i)启用大小写不敏感第二组捕获隐式诱导跳转行为通过否定前缀(? 规避误判第三组匹配常见弹窗关闭符号及上下文\s*适配空格噪声。规则命中统计表规则类型样本覆盖率误删率导航链接文本92.3%1.7%浮层广告文案88.6%2.4%底部版权栏干扰76.1%0.9%3.2 语言纯净度检测字符集分布统计 N-gram熵值阈值动态校准字符频次归一化统计对输入文本按 Unicode 块分组统计剔除控制符与标点后归一化为概率分布 $P(c)$from collections import Counter import unicodedata def char_dist(text): chars [c for c in text if unicodedata.category(c) in (Ll, Lu, Lt, Lm, Lo)] cnt Counter(chars) total sum(cnt.values()) return {c: v/total for c, v in cnt.items()}该函数过滤非字母字符避免空格、数字干扰语言特征归一化保障后续 KL 散度计算数值稳定。N-gram 熵动态阈值基于滑动窗口计算二元组bigram信息熵并采用 IQR 法自适应设定异常阈值语种平均 H₂ (bit)动态阈值上限中文8.2110.47英文4.035.893.3 语义完整性验证段落连贯性评分模型BERTScore微调版在线推理部署模型轻量化与ONNX导出为满足低延迟在线服务需求将PyTorch微调后的BERTScore变体导出为ONNX格式固定输入序列长度为128并启用torch.onnx.export的dynamic_axes优化长尾分布torch.onnx.export( model, (input_ids, attention_mask), bertscore_v2.onnx, input_names[input_ids, attention_mask], output_names[scores], dynamic_axes{ input_ids: {0: batch, 1: seq}, attention_mask: {0: batch, 1: seq}, scores: {0: batch} }, opset_version15 )该导出配置支持动态batch与可变序列长度避免padding冗余opset_version15确保兼容TensorRT 8.6及Triton 23.06。推理服务编排采用NVIDIA Triton Inference Server统一托管ONNX模型配置并发实例数为4每实例绑定1GB显存限制启用动态批处理max_queue_delay_microseconds1000平衡吞吐与延迟实时评分性能对比模型版本P95延迟(ms)QPS显存占用(MiB)原始BERTScorePyTorch182472140ONNXTriton本节方案43196892第四章高质量token化与结构化标注流水线4.1 面向LLM预训练优化的Tokenizer定制Unicode规范化标点细粒度拆分中文子词增强Unicode规范化策略采用NFCNormalization Form C统一组合字符消除等价但编码不同的字形歧义。例如“café”与“cafe\u0301”经NFC后归一为同一序列。标点细粒度拆分示例# 中文引号、顿号、连接号独立成token import re text 他说“测试—验证” tokens re.split(r([“”‘’《》、…—–—·]), text) # → [他说, “, 测试, —, 验证, ”]该正则确保所有中文标点原子化提升LLM对语义边界的学习能力。中文子词增强对比原始分词增强后TransformerTransformer人工智能人工智能人工智能4.2 文档级结构还原HTML DOM树解析→语义块切分→标题/正文/列表层级标注DOM树解析与语义块识别基于浏览器标准DOM API遍历节点并过滤出具有语义的块级元素h1–h6、p、ul、ol、blockquote等忽略装饰性div与内联容器。const blocks Array.from(doc.body.children) .filter(el [H1,H2,H3,H4,H5,H6,P,UL,OL,BLOCKQUOTE].includes(el.tagName));该代码提取直接子元素中具备文档语义的节点Array.from()确保兼容性filter()依据W3C语义化规范筛选排除span、div等非结构化容器。层级关系标注策略标题节点自动继承其后最近同级块的“隶属深度”列表项li递归向上查找最近ul/ol标注嵌套层级节点类型标注字段示例值h2level2ulnestingLevel14.3 领域感知token质量评估领域词典覆盖度 信息熵密度 上下文窗口内重复率三维度打分评估维度设计原理三维度协同刻画token在垂直场景中的语义价值领域词典覆盖度反映专业性信息熵密度衡量信息新鲜度上下文重复率抑制冗余噪声。核心计算逻辑def token_score(token, domain_dict, window_tokens, entropy_map): cover 1.0 if token in domain_dict else 0.3 entropy entropy_map.get(token, 0.1) repeat_ratio window_tokens.count(token) / len(window_tokens) return 0.4 * cover 0.4 * entropy - 0.2 * repeat_ratio参数说明domain_dict为医学/金融等垂直领域词典entropy_map由滑动窗口内token频率分布计算得到repeat_ratio阈值设为0.15超限则显著降权。维度权重与归一化维度权重取值范围归一化方式领域词典覆盖度0.4[0.3, 1.0]二元增强映射信息熵密度0.4[0.1, 2.5]Min-Max缩放至[0.1,1.0]上下文重复率-0.2[0.0, 1.0]线性衰减0.15时负向强化4.4 分布式token化流水线设计Ray Actor模型实现CPU/GPU混合负载均衡与状态一致性保障Actor职责划分与资源绑定通过 Ray 的 ray.remote(num_cpus2, num_gpus0.5) 显式声明资源需求使 CPU 密集型 tokenizer 与 GPU 加速的 embedding 模块隔离部署ray.remote(num_cpus2, num_gpus0) class TokenizerActor: def __init__(self): self.tokenizer AutoTokenizer.from_pretrained(bert-base-uncased) def tokenize(self, texts): return self.tokenizer(texts, truncationTrue, paddingTrue)该配置确保 tokenizer 不抢占 GPU 资源num_gpus0 防止调度器误分配显存提升 CPU 核心利用率。跨Actor状态一致性机制采用 Ray 内置的 ray.util.placement_group 绑定相关 Actor 到同一物理节点并通过共享内存ray.put() ray.get()传递 tokenized batch 的元数据哈希组件状态同步方式一致性保障TokenizerActor输出 batch_id token_count幂等重试 版本号校验EmbeddingActor消费前校验 batch_id 匹配本地缓存 TTL 10s第五章总结与展望在真实生产环境中某中型电商平台将本方案落地后API 响应延迟降低 42%错误率从 0.87% 下降至 0.13%。关键路径的可观测性覆盖率达 100%SRE 团队平均故障定位时间MTTD缩短至 92 秒。可观测性能力演进路线阶段一接入 OpenTelemetry SDK统一 trace/span 上报格式阶段二基于 Prometheus Grafana 构建服务级 SLO 看板P95 延迟、错误率、饱和度阶段三通过 eBPF 实时采集内核级指标补充传统 agent 无法捕获的连接重传、TIME_WAIT 激增等信号典型故障自愈策略示例func handleHighErrorRate(ctx context.Context, svc string) error { // 触发条件过去5分钟HTTP 5xx占比 5% if errRate : getErrorRate(svc, 5*time.Minute); errRate 0.05 { // 自动执行滚动重启异常实例 临时降级非核心依赖 if err : rolloutRestart(ctx, svc, error-burst); err ! nil { return err } setDependencyFallback(ctx, svc, payment, mock) } return nil }云原生治理组件兼容性矩阵组件Kubernetes v1.26EKS 1.28ACK 1.27OpenPolicyAgent✅ 官方支持✅ 兼容⚠️ 需 patch admission webhookKyverno✅ 支持✅ 支持✅ 支持未来重点验证方向[Service Mesh] Istio 1.22 WebAssembly Filter 性能压测QPS/内存占用/冷启动延迟[AI Ops] 基于 Llama-3-8B 微调的日志根因分析模型在 200GB/day 日志流中实现实时 top-3 原因推荐[边缘计算] K3s eKuiper 联合部署方案在 5G 工业网关上的资源占用基准测试CPU ≤ 350m, RAM ≤ 480MB

相关文章:

揭秘DeepSeek千万级语料构建全流程:从原始网页采集到高质量token化,97.3%过滤率背后的硬核实践

更多请点击: https://intelliparadigm.com 第一章:DeepSeek训练数据准备 DeepSeek系列大模型的训练质量高度依赖于数据的规模、多样性与清洗精度。训练数据并非简单堆叠原始网页或文本,而是经过多阶段筛选、去重、毒性过滤与格式标准化的结构…...

今天不用就过期:Gemini深度研究模式2024Q3权限变更预警——3类高价值功能即将对免费用户关闭

更多请点击: https://intelliparadigm.com 第一章:Gemini深度研究模式的核心价值与权限变更全景 Gemini深度研究模式(Deep Research Mode)是Google面向专业研究者与开发者推出的增强型推理能力范式,其核心价值在于将多…...

为什么你的ChatGPT演讲稿总被说“像机器人”?深度拆解人类共情节奏建模与提示词嵌入技术

更多请点击: https://intelliparadigm.com 第一章:为什么你的ChatGPT演讲稿总被说“像机器人”? 当你精心调用 ChatGPT 生成一篇 800 字的 TED 风格演讲稿,满怀期待地朗读给同事听,却收到一句扎心反馈:“很…...

现在不看就晚了:DeepSeek官方尚未文档化的量化后端适配漏洞(影响v3.1.0~v3.2.2所有Llama架构分支)

更多请点击: https://kaifayun.com 第一章:DeepSeek量化部署方案的背景与风险警示 近年来,随着大语言模型参数规模持续扩大,推理延迟与显存占用成为边缘设备与中等算力服务器落地的关键瓶颈。DeepSeek系列模型(如Deep…...

Sora 2输出黑边/裁切异常?GPU解码器与渲染管线冲突导致的16:9→4:3畸变真相(NVIDIA/AMD/Apple芯片差异对照表)

更多请点击: https://codechina.net 第一章:Sora 2视频后期处理技巧 Sora 2作为新一代AI视频生成与编辑平台,其内置的后期处理模块支持高精度帧级调控、语义驱动的局部重绘及时间一致性增强。掌握其核心处理技巧,可显著提升输出视…...

如何解锁索尼相机的隐藏功能:OpenMemories-Tweak完整指南

如何解锁索尼相机的隐藏功能:OpenMemories-Tweak完整指南 【免费下载链接】OpenMemories-Tweak Unlock your Sony cameras settings 项目地址: https://gitcode.com/gh_mirrors/op/OpenMemories-Tweak 你是否曾想过,你的索尼相机可能隐藏着更多潜…...

ChatGPT生成内容同质化困局破局术:用故事化表达重构人机协作范式(仅限首批200位读者获取的叙事权重矩阵)

更多请点击: https://codechina.net 第一章:叙事权重矩阵的底层逻辑与人机协作范式跃迁 叙事权重矩阵并非传统意义上的数值张量,而是一种动态语义映射结构,它将人类叙事意图、上下文可信度、模型生成置信度及跨模态对齐信号统一编…...

Arkime全流量分析平台企业级部署与深度调优实战

1. 这不是又一个SIEM,而是一台“网络时间机器”你有没有遇到过这样的场景:凌晨三点,安全告警平台突然炸出十几条“横向移动”高危告警,但日志里只有一行模糊的401 Unauthorized,源IP是内网段,目标端口是338…...

DLSS Swapper深度解析:如何实现跨平台游戏DLSS版本智能管理

DLSS Swapper深度解析:如何实现跨平台游戏DLSS版本智能管理 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 在NVIDIA DLSS技术成为现代PC游戏性能优化的关键要素后,玩家面临一个实际的技术挑战&…...

ChatGPT记忆功能安全风险预警,3大数据泄露漏洞已验证(附GDPR/等保2.0合规配置清单)

更多请点击: https://codechina.net 第一章:ChatGPT记忆功能怎么用 ChatGPT 的记忆功能(Memory)是 OpenAI 为 Plus 用户提供的个性化上下文增强能力,它允许模型在跨会话中记住用户提供的关键信息,并在后续…...

【无功优化】基于改进教与学算法的配电网无功优化【IEEE33节点】附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

基于神经网络的带输出三相逆变器模型预测控制LC滤波器附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

【优化调度】基于改进遗传算法求解带时间窗约束多卫星任务规划附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

【风电功率预测】【多变量输入单步预测】基于VMD-TCN-BiGRU的风电功率预测研究附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。 🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &…...

踩坑无数!终于捋顺Git基础核心工作流(新手必看)

我刚学Git那会,一直有个超级大的疑惑憋在心里:为什么保存代码非要分 git add 和 git commit 两步? 当时网上教程清一色直接甩命令,我照着敲了无数次,只会机械复制粘贴,完全不懂底层逻辑。自己本地瞎写代码还…...

如何在Mac上免费运行Windows游戏与应用:Whisky完整指南

如何在Mac上免费运行Windows游戏与应用:Whisky完整指南 【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 还在为Mac无法运行Windows专属软件而烦恼吗?Whisky为你…...

如何用NightX Client打造终极Minecraft 1.8.9体验?完整功能解析+新手教程 [特殊字符]

如何用NightX Client打造终极Minecraft 1.8.9体验?完整功能解析新手教程 🚀 【免费下载链接】NightX-Client Minecraft Forge 1.8.9 hacked client, Based on LiquidBounce 项目地址: https://gitcode.com/gh_mirrors/ni/NightX-Client NightX Cl…...

保姆级教程:在Ubuntu 22.04上搞定rMATS 4.1.2安装,附赠conda环境配置与常见报错解决

从零搭建rMATS分析环境:Ubuntu 22.04实战指南与避坑手册当实验室新购置的Ubuntu服务器静静躺在角落,而导师那句"下周组会汇报可变剪切分析结果"还在耳边回响时,作为生物信息学新手的你,是否感到一阵恐慌?别担…...

卖轴承怎么找客户?下游工厂在哪里

卖轴承找客户,本质是找用轴承的下游工厂,核心难点是拿到这些下游厂的名单和联系人。轴承是机械传动的通用基础件,消耗量大、采购频繁,但下游行业分散、各自聚集在不同产业带,如果没有系统盘过下游版图,销售…...

日志留存不合规?审计追溯难定位?DeepSeek 3.2+审计日志的4层加密+时间戳锚定机制,立即规避等保2.0扣分风险

更多请点击: https://intelliparadigm.com 第一章:DeepSeek审计日志功能全景概览 DeepSeek审计日志是企业级AI平台中保障合规性、可追溯性与安全治理的核心能力。它系统性地记录模型调用、权限变更、配置更新、数据访问等关键行为,支持毫秒级…...

【信息科学与工程学】计算机科学与自动化 ——第六十五篇 虚拟化/MIG 系列02

编号 类型 领域 虚拟化/MIG模式 算法名称 算法逐步推理思考的数学方程式及参数/常量/向量/常数/数字/数值列表 算法的时序数学方程式 关联知识 401 性能优化 GPU虚拟化+容器 MIG+容器 基于GPU内存带宽隔离的容器化AI训练任务调度算法 1. 带宽模型:每个MIG实例带宽…...

保姆级教程:用向日葵远程在Windows系统上安装Vector CANape 21.0.10(附Demo工程位置详解)

Vector CANape 21.0.10安装全流程与实战技巧作为一名长期从事汽车电子测试的工程师,我深知Vector CANape在ECU标定与诊断领域的重要性。本文将从一个技术实践者的角度,详细解析如何高效完成CANape 21.0.10的安装部署,特别是针对远程协作安装场…...

AI写作辅助平台8款AI写作辅助软件梯队榜,毕业护航!

论文选题毫无头绪,文献检索耗时费力,格式排版反复修改? 查重率居高不下,写作思路始终不畅,时间紧迫却无从下手? 面对繁杂的学术任务,你是否也感到力不从心? 别担心!AI论文…...

权威测评!2026年顶尖AI论文写作软件榜单,高质初稿轻松写

2026 年实测 10 款主流 AI 论文工具,千笔AI以全流程覆盖 语义级降重 免费查重领跑综合榜;ThouPen 稳坐留学生毕业全流程工具头把交椅;免费工具中DeepSeek Scholar、豆包学术版表现亮眼,30 分钟即可生成万字高质量初稿&#xff0…...

用过才敢说!2026年最值得信赖的专业AI论文网站

2026年AI论文写作工具已从“内容生成”进化为“学术全流程智能助手”,核心差异体现在文献真实性、格式合规性、长文本逻辑、查重降重、AIGC合规五大维度。本次测评覆盖6款主流工具,涵盖中文/英文、全流程/专项、免费/付费场景,让你快速锁定最…...

英文会议翻译 app

一个针对开会读取大家说话的内容,过滤掉中文,只对英文的录音进行翻译,翻译的内容实时显示在屏幕上,除非点击停止,否则一直这样动态听并翻译成中文 显示在屏幕上的app,并直接安装在我手机上,并写一篇公众文章…...

英语 听力 重读软件app

写一个可以读取一个pdf,或者doc 的apk。并语音播放出来。可以用语音指令或者某些在界面上的按键来控制,重复上一句,或者重复上一段,或者重复上5句,重复上10句,重复上3句。重复整个段落,重复整个章节。还有一…...

如何免费解锁Wand专业版功能:Wand-Enhancer完整使用指南

如何免费解锁Wand专业版功能:Wand-Enhancer完整使用指南 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为Wand(原WeMod&…...

如何利用AI工具变现:一个老程序员的真实观察

凌晨两点,你又刷到一个"AI月入5万"的短视频。 关了手机,睡不着了。 明天还要上班。 这种焦虑感,我太熟悉了。 作为一个写了12年代码的老程序员,这两年被问到最多的问题就是:"有什么真正能用的AI变现方法?" 今天不画饼,说点真话。 先说结论 AI…...

Claude在国内用不了?我挨个试了一遍

你有没有这种感觉—— 每次看到Claude又出新版本,心里痒痒的。别人都在讨论Sonnet多好用、Opus推理多强,你打开官网,要么打不开,要么要翻墙,要么要国外手机号验证。 好不容易折腾注册上了,用了两周,某天突然收到封号邮件。 烦不烦? 说实话,作为一个重度AI用户,我…...