当前位置: 首页 > article >正文

白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?

大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。

在开始写之前,先说个抱歉。

上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的,最开始上来确实是的。但这几天我去看,有些联网搜索默认是开启了,所以说下抱歉,如图。

白杨SEO的关注朋友,也可以去打开看看是不是这样?可以给我留言。

有些朋友可能会说,DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI大模型默认开不开启联网搜索有什么差别呢?

白杨SEO想说,这个差别大着呢。

我们做AI搜索优化,或者说叫GEO,如果不是联网搜索的情况下,我们很难快速优化进AI大模型结果里。因为AI大模型训练间隔比较久,而且费用也不便宜,要想了解实时性的东西,所以他们只要有,都加上了联网搜索功能。

而对于AI大模型的用户而言,他不可能在提问之前,先去打开联网搜索之类(只有少部分专业的人会去这么做)。

就像我们说做百度、抖音或微信搜一搜关键词搜索排名一样,用户默认会看全部排名,很少去点具体某个垂直下面结果一样,如图:

哈哈哈,看上图,才发现,微信搜一搜直接也把【AI搜索】放在TAG上了,你们看下有没有?

好,我们继续。

正因为大模型如果从原来不是默认开启联网搜索到现在默认开启,那么我们做AISEO即AI搜索优化,不管是做品牌曝光还是引流量还是营销,都有机会了是不是?当然,比如像通义现在还是默认没开启哈~

为什么今天想到分享要说下DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪这个事呢?

一是因为之前我在另外公号分享过《豆包、kimi、deepseek、百度文心一言、腾讯元宝等大模型它们生成内容的引用来源是哪?》这篇后很多人说感兴趣。

二是因为这次去上海做AI搜索优化(GEO)线下培训分享时,有分享了主流的DeepSeek、豆包、Kimi、百度文心一言的内容信息采集来源占比图,当然这只是某个行业的个例,其它可以再测。如图,

我在想不管是做AI搜索优化这行的转行的SEO或者其它行业同行,又或者是想做AI搜索优化的企业,他们是不是都想知道呢,这样更好做好AI搜索优化(GEO)。

所以,除了DeepSeek、豆包、Kimi、百度文心一言,我还加了腾讯元宝,通义(原通义千问,改名缩短了,PC和APP一致),智谱(智谱清言简称),天工(AI搜索引擎工具)等AI生成内容的。

好,我们就一个一个来说一下。

1、DeepSeek AI生成内容信息采集主要来源及占比参考

DeepSeek AI生成内容信息采集主要来源,按照DeepSeek自己的说法是开源数据(MIT协议允许自由使用)、强化学习生成数据、少量标注数据。

你可能没懂,简单说就是互联网上的内容以及它自己再生成的,以及非常少的标注的。但我们能优化的是开源数据。这个主要来源,来自白杨SEO朋友公司客户案例统计如图(他们的业务介绍PPT)

从上图看到主要来源是媒体,这个媒体主要指四大门户以及各种地方网站那种新闻媒体哈。占比第二的UGC平台比如知乎等也很大。第三则是搜索词官网或垂直网站。至于电商这个说一下,因为是行业不同,有些没有这个哈。

所以我们得出结论,要做好DeepSeek的AI搜索优化,主要做好媒体、UGC为主就可以了,当然官网也要发。具体怎么布局SEO搜索关键词之类,看我公众号历史文章有写哈,后续也会慢慢分享出来,不在本文讨论。

2、豆包 AI生成内容信息采集主要来源及占比参考

如图,豆包主要信息采集来源是字节系自己产品(抖音短视频,抖音百科,头条等),另外就是新闻媒体上发的,第三则是官网及其它。占比如图,这里不再详说了。这个也是某个行业哈,其它你可以搜索自己试试。

3、Kimi AI生成内容信息采集主要来源及占比参考

如图,KIMI有意思,70%的内容来源UGC,尤其你看那个知乎占比很大啊,哈哈哈。

为什么呢,你像kimi这类AI大模型平台,跟deepseek一样,他们是没有像百度、腾讯,抖音有自己内容生态源哈。话说回来,知乎也是一个知识宝库呢,哈哈哈。

虽然知乎也有自己的AI大模型【知乎直答】如图,但它的影响力,就如知乎在当下互联网的现状一样,有心无力的,可能比某度还尴尬,唉。

4、百度AI搜索、文心一言 AI生成内容信息采集主要来源及占比参考

百度AI搜索、文心一言,其实这是两个渠道。文心一言是百度AI大模型产品,有网页版,也有APP,APP叫文小言。而百度AI搜索是百度搜索里面AI搜索。虽然跟文心一言模型一致,同时还结合了deepseek的哈,如图。

所以参考百度文心一言的,其实是一样的。主要内容及来源占比如图,参考

所以如果我们要做百度AI搜索或文心一言,主要做百度产品,比如百家号,百科,以及像新媒发软文,以及垂直官网等就可以了。

5、腾讯元宝 AI生成内容信息采集主要来源及占比参考

腾讯元宝AI生成内容信息采集主要来源就是微信生态内容,如公众号文章,视频号内容等,再加上其它新闻媒体,网站内容等,如图。

如果说占比的话,公众号文章占比应该要到50%左右哈。

如果想知道在元宝或微信搜一搜里这个词流量大概有多少,可以看微信指数或腾讯广告里数据,相关看这两篇:

白杨SEO:想做微信搜一搜精准流量,你真正看懂微信指数了吗?

白杨SEO:工具推荐第十七期—搜一搜关键词搜索流量查询工具腾讯广告

6、通义(通义千问)、夸克AI生成内容信息采集主要来源及占比参考

如图,通义AI生成内容信息采集主要来源是各大新闻媒体平台(包含自媒体)比如网易号,腾讯企鹅号,搜狐网,新浪财经等,这类占比60%以上,其它就是官网之类。

当然,如果你搜索不同的词,比如电商类的之类,会来自一些垂直网站,比如站长之家,什么值得买等。当然,大多数还是阿里生态内数据,最近主要在增加这块,比如夸克搜索等。

当然,夸克那个AI跟通义逻辑一样,大家也要重点关注哦,它可能是国内目前AI搜索领域访问量TOP哦,如图。

7、智谱清言 AI生成内容信息采集主要来源及占比参考

智谱数据来源开源模型(如ChatGLM)、合作企业数据(如金融、政务领域)。占比推测:开源数据占40%,合作数据占50%等。如图,

除了合作的以外,另外就是一些第三方自媒体平台。因为智谱在国内AI大模型C端用户认知里不大,所以很多企业没有关注,正常。比如拿你来说,你手机里有下这个APP吗?

8、天工AI AI生成内容信息采集主要来源及占比参考

这个天工AI也是一样,白杨SEO里很多粉丝朋友可能第一次听说它吧?哈哈哈。它默认是联网的哈,如图。

话说它这整个智能体,没有积分还用不了,当然新用户还会送,这样它这个和之前爆火的manus有点像,不再是纯聊天大模型,更像是可以做任务的智能体了,你简单理解就是比大模型还进一步了。

当然这个渠道,以及智能体这种,我们后面再先。如果感兴趣看我之前写过《白杨SEO:一文告诉你智能体Agent是什么、有哪些、用在哪里、哪个好用及搭建流程【收藏】》参考。

今天这篇又快三千字了,希望看完对你做AI搜索优化或者GEO优化有一定帮助。如果你觉得这个分享有价值,请继续关注我,或者分享需要朋友,谢谢。

作者介绍:

白杨SEO,专注SEO研究十年+,全网SEO流量实战派,ai搜索优化研究者。前某公司市场总监,现自由职业,企业顾问。

相关文章:

白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?

大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。 在开始写之前,先说个抱歉。 上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的,最开始上来确实是的。…...

显示docker桌面,vnc远程连接docker

目录 相关概念: 实现步骤: 1.启动docker容器 2.安装x11 3.Docker 容器中安装一个完整的图形桌面(XFCE)和 VNC 远程桌面服务器(TightVNC) 4.配置vncservice 5.本地安装VNC Viewer连接VNC Viewer下载地…...

Web 端顶级视效实现:山海鲸端渲染底层原理与发布模式详解

大家好,欢迎大家回到山海鲸的渲染模式系列教程。昨天,我们看了一下山海鲸支持的3种渲染模式的整体概览。今天,我们就来看一下山海鲸支持的最基础的渲染模式,也就是端渲染的渲染设置。 1. 山海鲸的端渲染 我们说到端渲染&#xf…...

腾讯云国际站性能调优

全球化业务扩张中,云端性能直接决定用户体验与商业成败。腾讯云国际站通过资源适配、网络优化与存储革新,为企业提供全链路调优方案。 ​​资源精准适配​​ 实例选型需与业务场景深度耦合,计算优化型实例加速AI训练效率3倍,内存…...

深入解析操作系统内核与用户空间以及内核态与用户态转换

用户空间和内核空间的划分是现代操作系统的基础,对应用程序网络模型的设计和优化有着深远的影响。 内核空间与用户空间的分工 现代操作系统为了保证系统的稳定性和安全性,将虚拟内存空间划分为用户空间和内核空间。 一、用户空间 用户空间是用户程序…...

每日一题洛谷P8662 [蓝桥杯 2018 省 AB] 全球变暖c++

P8662 [蓝桥杯 2018 省 AB] 全球变暖 - 洛谷 (luogu.com.cn) DFS #include<iostream> using namespace std; int n, res; char a[1005][1005]; bool vis[1005][1005]; bool flag; int dx[4] { 0,0,1,-1 }; int dy[4] { 1,-1,0,0 }; void dfs(int x, int y) {vis[x][y]…...

【JVM】初识JVM 从字节码文件到类的生命周期

初识JVM JVM&#xff08;Java Virtual Machine&#xff09;即 Java 虚拟机&#xff0c;是 Java 技术的核心组件之一。JVM的本质就是运行在计算机上的一个程序&#xff0c;通过软件模拟实现了一台抽象的计算机的功能。JVM是Java程序的运行环境&#xff0c;负责加载字节码文件&a…...

多级体验体系构建:基于开源AI智能客服与AI智能名片的S2B2C商城小程序体验升级路径研究

摘要&#xff1a;在体验经济时代&#xff0c;传统企业单一的总部体验模式难以覆盖全链路用户需求。本文针对B端与C端体验深度差异&#xff0c;提出“一级总部体验—二级区域体验—三级终端体验”的分层架构&#xff0c;并引入“开源AI智能客服”与“AI智能名片”技术&#xff0…...

每日算法 -【Swift 算法】字符串转整数算法题详解:myAtoi 实现与正则表达式对比

Swift 字符串转整数算法题详解&#xff1a;myAtoi 实现与正则表达式对比 &#x1f9e9; 题目背景 LeetCode 上的经典算法题 8. String to Integer (atoi) 是一道考察字符串解析与边界处理的题目。这道题虽看似简单&#xff0c;但处理细节相当复杂。我们将使用 Swift 语言实现…...

记录一个难崩的bug

1.后端配置了 Filter 过滤器&#xff0c;如果再配置了Configuration ,那么会出现冲突吗&#xff1f; 过滤器与Configuration类本身无直接冲突&#xff0c;但需注意注册机制、执行顺序和依赖管理。通过显式控制过滤器的注册方式和优先级&#xff0c;结合Spring Security的链式配…...

Git切换历史版本及Gitee云绑定

1、git介绍 Git是目前世界上最先进的分布式版本控制系统 Linux <- BitKeeper&#xff08;不是开源的&#xff0c;但免费的&#xff0c;后来要收费&#xff09; Linus Torvalds(林纳斯托瓦兹) 两周时间吧&#xff0c;弄了个 Git&#xff1b;大约一个月就把Linux代码从BitK…...

智能外呼系统中 NLP 意图理解的工作原理与技术实现

智能外呼系统通过整合语音识别&#xff08;ASR&#xff09;、自然语言处理&#xff08;NLP&#xff09;和语音合成&#xff08;TTS&#xff09;等技术&#xff0c;实现了自动化的电话交互。其中&#xff0c;NLP 意图理解是核心模块&#xff0c;负责解析用户话语中的语义和意图&…...

服务器的IP是什么东西?

一、什么是服务器的IP地址&#xff1f; 服务器的IP地址是互联网协议&#xff08;Internet Protocol&#xff09;的缩写&#xff0c;是服务器在网络中的唯一数字标识符。它类似于现实生活中的门牌号&#xff0c;用于标识服务器在网络中的位置&#xff0c;使其他设备能够通过它与…...

[问题解决]:Unable to find image ‘containrrr/watchtower:latest‘ locally

一&#xff0c;问题 在使用docker安装部署新应用的时候&#xff0c;报错&#xff1a;Unable to find image containrrr/watchtower:latest locally 分析认为是当前docker的资源库里找不到这个软件的镜像&#xff0c;需要配置一个包含这个软件镜像的新的资源库。 二&#xff0…...

【文件上传】阿里云对象存储服务实现文件上传

一、基础 上传到本地&#xff1a; package org.example.controller;import lombok.extern.slf4j.Slf4j; import org.example.pojo.Result; import org.springframework.web.bind.annotation.PostMapping; import org.springframework.web.bind.annotation.RequestMapping; imp…...

IPv6代理如何引领下一代网络未来

随着互联网技术的不断发展&#xff0c;IPv6逐渐成为下一代网络协议的核心&#xff0c;替代IPv4已是大势所趋。IPv6代理作为IPv6网络环境下的重要工具&#xff0c;为用户提供了更高效、更安全的网络解决方案。 IPv6代理的定义 IPv6代理是在IPv6网络环境中为处理IPv4转换和其他网…...

Linux——数据链路层

1. 认识以太网 认知&#xff1a;以太网是用于局域网数据通信的协议标准&#xff0c;定义了同一局域网内通过电缆/无线怎么在设备之间传输数据帧。 注&#xff1a;整个网络世界可以具象看出由许许多多的局域网组成&#xff0c; • 家庭中的设备A and 家庭中的设备B and 家庭路由…...

ubuntu 22.04 安装下载

ubuntu 22.04下载安装及相关配置_ubuntu22.04下载-CSDN博客...

深度学习面试八股简略速览

在准备深度学习面试时&#xff0c;你可能会感到有些不知所措。毕竟&#xff0c;深度学习是一个庞大且不断发展的领域&#xff0c;涉及众多复杂的技术和概念。但别担心&#xff0c;本文将为你提供一份全面的指南&#xff0c;从基础理论到实际应用&#xff0c;帮助你在面试中脱颖…...

【深度学习-pytorch篇】1. Pytorch矩阵操作与DataSet创建

Pytorch矩阵操作与DataSet创建 1. Python 环境配置 1.1 安装 Anaconda 推荐使用 Anaconda 来管理 Python 环境&#xff0c;访问官网下载安装&#xff1a; https://www.anaconda.com/download/success 1.2 安装 PyTorch 请根据自己的系统平台&#xff08;Windows/Linux/ma…...

游戏引擎学习第310天:利用网格划分完成排序加速优化

回顾并为今天的内容做个铺垫 昨天我们完成了一个用于排序的空间划分系统&#xff0c;但还没有机会真正利用它。昨天的工作刚好在结束时才完成&#xff0c;所以今天我们打算正式使用这个空间划分来加速排序。 现在我们在渲染代码中&#xff0c;可以看到在代码底部隐藏着一个“…...

数据结构 - 树的遍历

一、二叉树的遍历 对于二叉树&#xff0c;常用的遍历方式包括&#xff1a;先序遍历、中序遍历、后序遍历和层次遍历 。 1、先序遍历&#xff08;PreOrder&#xff09; 先序遍历的操作过程如下&#xff1a; 若二叉树为空&#xff0c;则什么也不做&#xff1b;否则&#xff0…...

时序模型介绍

一.整体介绍 1.单变量 vs 多变量时序数据 单变量就是只根据时间预测&#xff0c;多变量还要考虑用户 2.为什么不能用机器学习预测&#xff1a; a.时间不是影响标签的关键因素 b.时间与标签之间的联系过于弱/过于复杂&#xff0c;因此时序模型依赖于时间与时间的相关性来进行预…...

Java面试实战:从Spring到大数据的全栈挑战

Java面试实战&#xff1a;从Spring到大数据的全栈挑战 在某家知名互联网大厂&#xff0c;严肃的面试官正在面试一位名叫谢飞机的程序员。谢飞机以其搞笑的回答和对Java技术栈的独特见解而闻名。 第一轮&#xff1a;Spring与微服务的探索 面试官&#xff1a;“请你谈谈Spring…...

解决idea与springboot版本问题

遇到以下问题&#xff1a; 1、springboot3.2.0与jdk1.8 提示这个包org.springframework.web.bind.annotation不存在&#xff0c;但是pom已经引入了spring-boot-starter-web 2、Error:Cannot determine path to tools.jar library for 17 (D:/jdk17) 3、Error:(3, 28) java: …...

【第4章 图像与视频】4.4 离屏 canvas

文章目录 前言为什么要使用 offscreenCanvas为什么要使用 OffscreenCanvas如何使用 OffscreenCanvas第一种使用方式第二种使用方式 计算时长超过多长时间适合用Web Worker 前言 在 Canvas 开发中&#xff0c;我们经常需要处理复杂的图形和动画&#xff0c;这些操作可能会影响页…...

[AXI]如何验证AXI5原子操作

如何验证 AXI5 原子操作 摘要&#xff1a;在 UVM (Universal Verification Methodology) 验证环境中&#xff0c;验证 AXI5 协议的原子操作 (Atomic Operations) 是一项重要的任务&#xff0c;特别是在验证支持高并发和数据一致性的 SoC (System on Chip) 设计时。AXI5 引入了原…...

尚硅谷redis7 74-85 redis集群分片之集群是什么

74 redis集群分片之集群是什么 如果主机宕机&#xff0c;那么写操作就被暂时中断&#xff0c;后面就要由哨兵进行投票和选举。那么一瞬间若有大量的数据修改&#xff0c;由于写操作中断就会导致数据流失。 由于数据量过大,单个Master复制集难以承担,因此需要对多个复制集进行…...

Android获取设备信息

使用java: List<TableMessage> dataListnew ArrayList<TableMessage>();//获取设备信息Hashtable<String,String> ht MyDeviceInfo.getDeviceAllInfo2(LoginActivity.this);for (Map.Entry<String, String> entry : ht.entrySet()) {String key entry…...

WPF的基础控件:布局控件(StackPanel DockPanel)

布局控件&#xff08;StackPanel & DockPanel&#xff09; 1 StackPanel的Orientation属性2 DockPanel的LastChildFill3 嵌套布局示例4 性能优化建议5 常见问题排查 在WPF开发中&#xff0c;布局控件是构建用户界面的基石。StackPanel和DockPanel作为两种最基础的布局容器&…...