当前位置: 首页 > article >正文

GitTrends:谷歌趋势风格的GitHub生态系统视图

本文字数3202估计阅读时间9 分钟作者Lionel Palacin本文在公众号【ClickHouseInc】首发GitHub 不断生成议题issues、拉取请求pull requests和评论comments。这些被称为 GitHub 事件GitHub events。随着时间的推移这数十亿事件捕捉了技术的完整生命周期框架frameworks、库libraries和工具tools如何兴起和衰落。但捕捉这种庞大的数据流并将其转化为实时趋势分析器real-time trends analyzer却是一个挑战。GitTrends使这成为可能。它是一个新的开源open-source演示应用程序demo application功能类似于科技界的专业版 Google Trends让你能够实时搜索和比较超过100亿个 GitHub 事件中任何主题、技术或关键词的趋势。该应用现已上线网址为 https://gittrends.clickhouse.com。GitTrends 是一个公开演示应用旨在展示 ClickHouse 的全文搜索full-text search能力。它功能齐全但可能缺少一些功能或偶尔存在错误bug。如何使用 GitTrends在 GitTrends 中输入一个搜索词即可立即查看该词在每个 GitHub 仓库repository的议题issues、拉取请求pull requests和评论comments中被提及的次数。这为你提供了以下概览一项技术随时间推移的流行度、推动相关讨论的仓库、最活跃地讨论该技术的开发者以及该词出现的实际议题和拉取请求。但当你开始进行比较时GitTrends 的功能才真正变得有趣。比较技术采用tech adoption搜索和比较任何关键词的提及趋势这与 Google Trends 完全相同但其数据源是全球最相关的开源技术数据。例如你可以比较ClickHouse vs Druid以了解这两个分析型数据库analytics databases如何随时间推移此消彼长或者追踪Claude vs OpenAI观察人工智能AI格局如何在真实的开发者对话中发生转变。识别生态系统Ecosystems识别围绕任何话题推动讨论的顶级仓库。ClickHouse 的讨论主要集中在其自身生态系统内还是正在拓展到数据工程data engineering和可观测性observability项目中OpenAI 是否在广泛的仓库中被提及而 Claude 则仅集中在少数几个仓库中了解一项技术主要活跃在哪些领域其重要性不亚于了解它有多流行。深入探究来源Drill into the Source从宏观趋势深入了解其背后的实际讨论。选择任意一个仓库repository探索其具体活动最活跃的贡献者以及推动该趋势的最常被提及的议题issues和拉取请求PRs。规模化全文搜索GitTrends 基于一个简单的理念构建在近 100 亿条 GitHub 事件中实时搜索任意词条且无需进行数据转换。你无需查询预先计算好的结果而是直接索引原始文本并在查询时进行搜索。这正是 ClickHouse 最近发布的新全文搜索full-text search功能所能提供的核心优势。只需在文本列上构建文本索引text index即可使用全文搜索功能。ClickHouse 之所以在这里表现得特别强大是因为全文搜索功能full-text search和聚合功能集成在同一个引擎中。单个查询就能一次性完成原始文本的搜索和结果的聚合无需跨系统连接无需数据迁移且没有额外的延迟开销。正是这种结合让用户体验到的是即时响应而非仅仅是速度快。GitHub 事件数据集包含近 100 亿行议题issues、拉取请求pull requests和评论comments是一次刻意为之的压力测试。即便如此GitTrends 依然能对所有这些数据提供快速搜索。为了凸显新全文搜索索引的性能优势GitTrends 内置了实时查询性能对比功能。进行任意搜索时你可以在全文搜索full-text search、布隆过滤器bloom filter和全表扫描full table scan之间进行切换并实时观察它们之间的性能差异。这最直观地展示了在海量数据规模下选择正确的索引能带来怎样的优势。探究内部机制GitTrends 是完全开放的其设计便于从各个层面进行探索和分析。数据是如何摄取的我们一直在摄取 GitHub 事件数据集并在我们的 SQL Playground 中公开它供所有人通过 SQL 进行探索。我们还在这个页面上记录了多个示例查询和分析方法。用于将数据加载到 ClickHouse 的摄取脚本可在此处查看。请注意GitHub 从2025年10月起对 Events API 有效载荷payload引入了更改。因此某些字段与早期数据有所不同这可能会影响分析并使在完整历史数据上进行趋势检测的准确性降低。更多详情可查阅 GitHub 更新日志。每个图表背后运行着什么 SQL 查询GitTrends 中的每个图表都由真实的查询驱动。点击任何图表上的 SQL 按钮即可在 SQL playground 中打开该查询你可以在其中检查、编辑并亲自运行它。SELECT toStartOfDay(created_at) AS bucket, count() AS count FROM github.github_events WHERE event_type IN (IssueCommentEvent,IssuesEvent,PullRequestEvent,PullRequestReviewCommentEvent,PullRequestReviewEvent) AND hasAllTokens(body, clickhouse) AND created_at (now() - toIntervalMonth(1)) AND 11 GROUP BY bucket ORDER BY bucket ASC SETTINGS enable_parallel_replicas 1, enable_full_text_index 1, use_skip_indexes 1, query_plan_direct_read_from_text_index 1, use_skip_indexes_on_data_read 1每种搜索类型包括全文搜索full-text search、布隆过滤器bloom filter和全表扫描full table scan都有其专属查询这样你就能清楚地看到底层机制的差异。应用程序是如何构建的想在本地运行 GitTrends 或将此方法应用于自己的数据集吗此演示的大部分内容是使用 Claude Code 开发的。完整的源代码和详细部署说明可在 GitHub 上找到。欢迎前往 https://gittrends.clickhouse.com 试用该演示并与我们分享您的宝贵反馈。征稿启示面向社区长期正文文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出图文并茂。质量合格的文章将会发布在本公众号优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至Tracy.Wangclickhouse.com

相关文章:

GitTrends:谷歌趋势风格的GitHub生态系统视图

本文字数:3202;估计阅读时间:9 分钟作者:Lionel Palacin本文在公众号【ClickHouseInc】首发GitHub 不断生成议题(issues)、拉取请求(pull requests)和评论(comments&…...

利用Taotoken为OpenClaw智能体配置可靠的模型供应后端

利用Taotoken为OpenClaw智能体配置可靠的模型供应后端 1. OpenClaw智能体与Taotoken的集成价值 OpenClaw作为智能体开发框架,其核心能力依赖于底层大模型服务的稳定供应。通过接入Taotoken平台,开发者可以获得多模型统一分发的优势,避免因单…...

城市智能化的底层基石:基于腾讯地图服务生态的移动定位与导航架构指引

跨维智能:基于腾讯地图生态的次生智能应用架构蓝图 摘要 在智能时代,地图服务已远超传统的信息展示工具。要构建真正具备商业价值的移动智能产品,必须将地理空间理解、行为决策、AI原生能力紧密结合。本文围绕腾讯地图的四大核心能力模块&…...

Python实现全站链接爬取工具-助力打造AI知识库

Python实现全站链接爬取工具:助力打造AI 知识库 标签:#Python #Playwright #爬虫 #AI知识库 日期:2026-05-01 摘要:本文介绍一个自己开发的基于 Playwright 的全站站内链接爬取工具,通过递归爬取 BeautifulSoup 解析实…...

Missy:构建安全可控的本地AI助手平台,从零部署到高级应用

1. 项目概述:一个为Linux而生的安全至上的AI助手如果你和我一样,对市面上那些“云优先”、数据去向不明的AI助手感到不安,同时又渴望一个能真正理解你的指令、帮你自动化处理本地任务的智能伙伴,那么你一定会对Missy感兴趣。Missy…...

2026最权威的五大AI科研平台推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 存在一类智能工具之为AI写作软件,它借助自然语言处理以及深度学习技术予以开发&a…...

Android AI聚合聊天应用RikkaHub:原生开发与架构设计全解析

1. 项目概述:一个原生Android LLM聚合聊天客户端 如果你和我一样,在手机上同时用着好几个AI助手——比如需要OpenAI的GPT-4o来处理复杂逻辑,用Claude来写长文,用DeepSeek来查代码,偶尔还想试试本地部署的Ollama模型——…...

从裸机到RT-Thread:RISC-V C驱动分层架构设计(HAL+MCU Abstraction Layer+Board Support Package三阶演进)

更多请点击: https://intelliparadigm.com 第一章:从裸机到RT-Thread:RISC-V C驱动分层架构设计(HALMCU Abstraction LayerBoard Support Package三阶演进) 在 RISC-V 嵌入式系统开发中,驱动架构的可移植性…...

CNKI查新(引文格式)导出数据合并剔重程序(Python代码)

起因:批量处理CNKI文献导出记录的重复问题 我在撰写学术论文时遇到了一个常见但令人困扰的技术问题。为了全面掌握研究领域的现状,我在中国知网(CNKI)上进行了系统的文献检索,并需要导出所有相关文献记录进行后续分析。 问题背景 CNKI的系统限制:CNKI平台对文献导出设置…...

别再用namespace凑合了!MCP 2026强制启用Cgroups v2 + PSI反馈控制后,租户资源争抢下降83%(实测数据)

更多请点击: https://intelliparadigm.com 第一章:MCP 2026多租户资源隔离演进背景与核心变革 随着云原生基础设施规模化部署,传统基于命名空间(Namespace)和 RBAC 的粗粒度租户隔离机制在混合关键业务场景中暴露出显…...

Python + PyAutoGUI 实现一键清理:从 OpenCV 图像识别到“按键精灵“的自动化之路

前言上篇文章说到我装了 148 个 Skills 到 CC Switch 里,想清理却发现根本没有批量删除功能。没办法,只能自己动手写脚本。这篇文章记录了我的自动化方案演进过程——从一开始想用 OpenCV 搞图像识别,到最后发现一个简单的 PyAutoGUI 脚本就能…...

【毕设】基于Spring Boot的社区团购系统的设计与实现

💟博主:程序员俊星:CSDN作者、博客专家、全栈领域优质创作者 💟专注于计算机毕业设计,大数据、深度学习、Java、小程序、python、安卓等技术领域 📲文章末尾获取源码数据库 🌈还有大家在毕设选题…...

用一块74LS00芯片,手把手教你搭建5种基础逻辑门电路(附Multisim仿真文件)

用一块74LS00芯片手把手搭建5种基础逻辑门电路 在电子工程和计算机科学的入门阶段,理解逻辑门的工作原理是掌握数字电路设计的基础。74LS00作为最常见的四路2输入与非门芯片,不仅价格低廉、易于获取,更是学习逻辑门搭建的理想起点。本文将带你…...

别再只写Actor Core了!LabVIEW Actor Framework中这7个可重写VI,你用对几个?

别再只写Actor Core了!LabVIEW Actor Framework中这7个可重写VI,你用对几个? 在LabVIEW Actor Framework(AF)的开发实践中,许多工程师习惯性地将注意力集中在Actor Core.vi的编写上,却忽略了其他…...

基于MCP协议的ZPL标签打印引擎:连接AI与工业打印的桥梁

1. 项目概述:一个专为MCP设计的ZPL引擎最近在折腾一些与工业打印、物流标签相关的自动化项目时,我遇到了一个挺有意思的库:cicicalex/zpl-engine-mcp。乍一看这个标题,它融合了几个关键元素:zpl、engine和mcp。对于不熟…...

隐式能量模型与均衡匹配:新一代生成建模技术解析

1. 项目概述"均衡匹配:基于隐式能量模型的生成建模新方法"是一项前沿的机器学习研究,它提出了一种全新的生成模型训练范式。这种方法通过建立隐式能量模型与数据分布之间的均衡关系,实现了更稳定、更高效的生成建模。我在实际研究中…...

volatile与信号

文章目录volatile 关键字与信号场景下的可见性问题编译器优化问题开启高优化后,程序可能无法退出高优化条件下程序不退出的原因volatile关键字编译器优化与寄存器缓存详解volatile 关键字与信号场景下的可见性问题 在讨论完信号捕捉、可重入函数等概念之后&#xf…...

如何快速解密游戏音频:acbDecrypter完整实战指南

如何快速解密游戏音频:acbDecrypter完整实战指南 【免费下载链接】acbDecrypter 项目地址: https://gitcode.com/gh_mirrors/ac/acbDecrypter 想要提取游戏中的背景音乐或角色语音,却被加密的音频文件难住了吗?acbDecrypter正是你需要…...

银河麒麟V10 SP1修改MAC地址踩坑记:为什么你的脚本开机不执行?

银河麒麟V10 SP1修改MAC地址的深度实践:从失效脚本到系统级解决方案 在国产操作系统逐步替代传统Linux发行版的浪潮中,银河麒麟V10 SP1以其出色的安全性和稳定性赢得了众多政企用户的青睐。然而,当一位习惯了Ubuntu操作习惯的运维工程师首次尝…...

终极指南:如何用抖音下载器轻松获取无水印视频和音乐

终极指南:如何用抖音下载器轻松获取无水印视频和音乐 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…...

从冰激凌到芯片制造:用Fluent融化凝固模型模拟5个意想不到的工业场景

从冰激凌到芯片制造:用Fluent融化凝固模型模拟5个意想不到的工业场景 当工程师们谈论Fluent的融化凝固模型时,脑海中浮现的往往是金属铸造车间里通红的钢水或铝液。但如果你认为这套工具只能解决传统制造业的问题,那就像用超级计算机只做加减…...

从‘虚轴’到‘实轴’:用倍福NC过程映像,在包装产线上实现凸轮同步的完整配置流程

从‘虚轴’到‘实轴’:倍福NC过程映像在包装产线凸轮同步中的实战解析 在高速包装产线上,铝箔药片装盒机的推入、封口、印刷等工序需要在传送带连续运动中完成,这对运动控制的同步精度提出了严苛要求。传统机械凸轮已难以满足柔性化生产需求…...

通过curl命令快速调试Taotoken大模型API接口与排查常见错误

通过curl命令快速调试Taotoken大模型API接口与排查常见错误 1. 准备工作 在开始使用curl命令调试Taotoken大模型API之前,需要确保已经完成以下准备工作。首先登录Taotoken控制台,在「API密钥」页面创建一个新的API Key。建议为调试用途单独创建一个Key…...

6大上海海鲜批发采购痛点解析:2025年直营模式与安全风控实战方案

在深入调研上海海鲜批发市场后发现,众多餐饮企业与中小供应商在采购环节普遍面临货源不稳、品控缺失、配送效率低、采购成本高、售后响应慢、线上线下脱节等六大核心痛点。这些问题直接制约着企业的经营稳定性与出品质量。为解答行业困惑,本文以FAQ架构&…...

华为暑期实习技术面复盘:手撕代码翻车后,我是如何靠八股文和项目讲解“救场”的?

华为技术面试突围战:当代码卡壳时如何用专业力扭转局面 去年夏天,我经历了一场堪称"过山车式"的华为技术面试——在手撕代码环节遭遇滑铁卢后,靠着对计算机基础的扎实理解和项目经验的深度拆解,最终赢得了面试官的认可。…...

别再只用WebRTC了!用LiveKit + Go快速搭建一个低延迟的Web音视频聊天室(附完整前后端代码)

用LiveKit与Go构建下一代Web音视频应用:从信令简化到生产部署 在实时音视频通信领域,WebRTC技术虽然强大,但其复杂的信令服务器和SFU(Selective Forwarding Unit)搭建过程常常让开发者望而却步。LiveKit作为新一代开源…...

B站视频下载终极指南:3步解锁大会员4K高清资源

B站视频下载终极指南:3步解锁大会员4K高清资源 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 你是否遇到过这样的困境&am…...

视觉提示技术在视频理解中的应用与优化

1. 视觉提示技术概述:从静态图像到动态视频的演进视觉提示(Visual Prompting)技术最初源于静态图像处理领域,其核心思想是通过对输入图像进行有目的的视觉修饰,引导模型关注特定区域或特征。这种技术在图像分类、目标检…...

c语言开发者如何通过curl快速调用taotoken聚合大模型api

C语言开发者如何通过curl快速调用Taotoken聚合大模型API 1. 准备工作 在开始调用Taotoken的API之前,您需要准备以下两项内容: 获取API Key:登录Taotoken控制台,在「API密钥」页面创建新的密钥并妥善保存。确定模型ID&#xff1…...

Taotoken 用量看板如何帮助项目精准控制 API 成本

Taotoken 用量看板如何帮助项目精准控制 API 成本 1. 用量看板的核心功能 Taotoken 控制台的用量看板为开发者提供了多维度的 API 调用数据可视化能力。通过聚合不同时间粒度(小时、天、周)的 token 消耗统计,项目负责人可以快速掌握整体支…...