Corsearch 用 ClickHouse 替换 MySQL 进行内容和品牌保护

本文字数:3357;估计阅读时间:9 分钟
作者:ClickHouse Team
本文在公众号【ClickHouseInc】首发

Chase Richards 自 2011 年在初创公司 Marketly 担任工程负责人,直到 2020 年公司被收购。他现在是品牌保护公司 Corsearch 的工程副总裁。他在最近的一次聚会上与我们分享了他使用 ClickHouse 的经验。
Corsearch 于 2018 年从 Wolters Kluwer 分离出来,成为一家专业公司。新公司通过多次收购迅速扩展,整合专业知识,成为品牌保护解决方案的领导者。Chase Richards 作为工程副总裁,在提升 Corsearch 的品牌保护解决方案方面发挥了关键作用,服务于全球的组织。专注于跟踪国际商标、检测冲突和侵权、打击假冒伪劣、保护内容免受盗版和网络侵权,这意味着需要从大量无害或授权数据中筛选出侵权行为和恶意行为者。早在 2017 年(仍在 Marketly 时),Chase 就面临一些挑战:
-
事务性数据库的限制——行数据库(如 MySQL)在应用于分析时限制了构建面向外部客户的交互式数据驱动用户界面的可扩展性和灵活性。
-
操作复杂性——使用多个数据库后端,包括 MySQL、BigQuery 和 MongoDB,以支持关键的面向客户的应用程序,这意味着花费更多时间进行维护而不是构建新功能。
采用 ClickHouse 进行反盗版
Corsearch 的主要客户报告产品之一是搜索引擎保护服务,支持反盗版和内容保护业务。Corsearch 每小时抓取数百万个搜索结果,寻找侵权内容。他们大量投资开发复杂的搜索引擎监控指标,借鉴了 SEO 和 SEM 的最佳实践,如排名跟踪和流量份额。他们专注于让用户界面对试图优化搜索引擎表现的营销团队来说既熟悉又有吸引力,只是把这个理念反过来应用。“我们告诉营销团队,盗版者实际上是在侵占他们的领地——搜索结果的位置,”Chase 说。Corsearch 为他们提供了可视化工具和手段来反击。
然而,报告界面需要对数百个指标进行实时分析,并且这种体验必须是互动的,否则营销团队会感到沮丧。这意味着所有活跃用户在最近和历史数据上的几十个并发查询必须在毫秒内完成。MySQL 数据库不适合处理有 10 多个可筛选维度的工作负载,并且基于时间序列数据进行日、周和月的分组。“我们开发了出色的指标并构建了前端。但我们运行在一组预聚合的 MySQL 表上,进行了大量表分区。操作复杂,但仍然无法扩展。”随着应用使用量增加,这个问题变得更加明显——查询变得越来越慢,用户开始离开应用。Chase 在聚会上说:“起初效果很好,但随着客户系统的不断增长——这对我们的初创企业来说是好消息——数据量也不断增加,而 MySQL 的索引限制和行技术让我们难以应对。”
“我们得到了一些令人瞠目的数据。仅压缩比就使得服务器管理和部署变得更加容易。”
切换到 ClickHouse 实时分析
更换数据库是由 Chase 推动的,他花了大量时间阅读社区内容,寻找新技术和优化性能的方法。他通过几篇 2017 年的 Percona 和 Cloudflare 博客发现了 ClickHouse:“我决定尝试 ClickHouse。很快就发现 ClickHouse 可能带来效率、可靠性和可扩展性的提升。”团队开始用敏捷、可扩展的解决方案替换笨重的 MySQL 系统,从而简化操作并提升客户体验。“我基于 ClickHouse 构建了一个即插即用的替代原型,使用与 MySQL 几乎相同的表结构,2019 年全面投入生产。”这个原型很快成为产品的新架构。“它至今仍在使用,仍然是流程的一部分。”
这不仅仅是让应用程序运行起来。ClickHouse 对时间序列数据的压缩率远超 MySQL(见下图),这减少了运行应用程序所需的服务器数量,简化了服务器管理。“我们得到了一些令人瞠目的数据。压缩比本身就使服务器管理和部署变得更加容易。”当然,ClickHouse 并没有停滞不前,每次发布都在改进数据压缩和性能。“ClickHouse 变得更好了。例如,低基数在性能和压缩比方面是一个巨大的飞跃,”Chase 解释道。

通过向量搜索加强反盗版工作
最近,Corsearch 在其现有的启发式欺诈检测方法中加入了基于向量的分析。Corsearch 使用语言模型的嵌入在网站内容之间创建语义相似性搜索,无论是跨网站还是跨时间,这有助于发现使用类似语言的已知盗版网站并识别网站内容的重大变化,通常表明它已关闭或被屏蔽(盗版生态系统中的常见现象)。“通过利用专家模型和嵌入,我们检测到网页内容的实质性变化,并识别出具有相似特征的页面之间的连接,”Chase 解释道。
Chase 和他的团队对 ClickHouse 与专用向量数据库进行了比较分析,发现尽管专用向量数据库在近似索引方面可能表现更好,但它们仍然是特殊用途的系统,需要特定的技能来采用和维护。相比之下,Corsearch 能够在 ClickHouse 中直接执行多维度限定的向量距离计算,并结合其他检测盗版的方法,借助 SQL 语法实现。因此,无需维护额外的基础设施或学习新的语言。
采用 ClickHouse 进行可观测性
在另一个重要用例中,Corsearch 使用 ClickHouse 监控其搜索引擎抓取设置。搜索引擎服务负责解析 Google、Yahoo 和 YouTube 等主要搜索引擎的结果,必须无缝运行。Chase 和他的团队没有使用现成的可观测性工具,而是开发了自定义埋点来跟踪搜索引擎操作,将遥测数据发送到 ClickHouse,并使用 Grafana 可视化结果并对潜在问题进行告警。最近,这种方法被称为基于 SQL 的可观测性,已经被 Uber、eBay 等技术领导者采用。
从架构上看,这个设计很简单,仅包含两个表。一个表用于通用指标系统,跟踪各种指标如队列深度。另一个表记录“工作原子单元”,用于跟踪抓取网页的尝试。这个基础设施能够轻松创建图表和时间序列指标。每列都可以成为独立的时间序列,确保数据可以随时恢复到原始形式。
“对于我的小团队来说,这非常有效,”Chase 在聚会上说道。虽然埋点是自定义的,但 Chase 承认,如果今天开始,他会优先考虑使用 OpenTelemetry,因为它正在成为标准。ClickHouse 在这个用例中也展示了其性能和资源效率优势:“该系统在磁盘上以不到 325 GB 的空间存储了四年内的 100 亿行数据,”Chase 分享道。

未来方向
ClickHouse 是 Corsearch 数据基础设施的关键元素,提供了业务核心的关键能力,整合了多个用例的分析数据管理,并简化了操作:“ClickHouse 在捕获网络流量数据方面发挥了重要作用,我们通过将复杂的数据管道整合到单一的 ClickHouse 集群中,提高了整体效率和性能。”
展望未来,Chase 计划进一步简化操作:“我很期待在我们的生产工作负载上尝试 ClickHouse Cloud。看到 ClickHouse 的云原生架构在那里的发展真的很酷,这提供了额外的差异化。”在聚会演讲之后,Corsearch 已经开始使用 ClickHouse Cloud 存储每天从数百万抓取图像中生成的嵌入,用于相似性搜索——这使团队能够利用该服务提供的低操作开销和无限存储,以及在相同数据集上实现更快的线性距离扫描。
征稿启示
面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com

联系我们
手机号:13910395701
邮箱:Tracy.Wang@clickhouse.com
满足您所有的在线分析列式数据库管理需求
相关文章:
Corsearch 用 ClickHouse 替换 MySQL 进行内容和品牌保护
本文字数:3357;估计阅读时间:9 分钟 作者:ClickHouse Team 本文在公众号【ClickHouseInc】首发 Chase Richards 自 2011 年在初创公司 Marketly 担任工程负责人,直到 2020 年公司被收购。他现在是品牌保护公司 Corsear…...
常见的应急救援设备有哪些_鼎跃安全
在我们的生活中,应急事件的发生常常是突如其来的,它们对人民的生命财产安全构成重大威胁,同时也对社会稳定提出严峻挑战。在这样的紧急情况下,迅速开展有效的救援工作显得尤为重要。而在整个救援过程中,应急设备的使用…...
Vue 项目部署后首页白屏问题排查与解决
引言 在部署 Vue.js 项目时,有时会遇到首页加载后出现白屏的情况,这可能是由于多种原因造成的。本文将介绍一些常见的排查方法和解决方案,帮助开发者快速定位问题并解决。 1. 常见原因分析 首页白屏的问题可能由以下几个方面的原因导致&am…...
STM32 定时器移相任意角度和占空比,频率可调
由于使用了中断修改翻转的CCR值,对于频率超250K以上不太适用. void Motor1_Init(Motor MotorChValue) { GPIO_InitTypeDef GPIO_InitStructure;TIM_TimeBaseInitTypeDef TIM_TimeBaseStructure;TIM_OCInitTypeDef TIM_OCInitStructure;NVIC_InitTypeDef NVIC_Ini…...
C++ 与其他编程语言区别_C++11/14/17新特性总结
C11 decltype类型推导 decltype不依赖于初始化,根据表达式类推导类型 auto b :根据右边a的初始值来推导出变量的类型,然后将该初始值赋给bdecltype 则是根据a表达式来推导类型,变量的初始值与表达式的值无关表达式类型注意点&…...
玩转云服务:Google Cloud谷歌云永久免费云服务器「白嫖」 指南
前几天,和大家分享了: 玩转云服务:Oracle Cloud甲骨文永久免费云服务器注册及配置指南 相信很多同学都卡在了这一步: 可用性域 AD-1 中配置 VM.Standard.E2.1.Micro 的容量不足。请在其他可用性域中创建实例,或稍后…...
用18讲必看:宇哥亲划重点内容+核心题总结
25考研结束之后,张宇老师的风评可能会两极分化 其中一波把张宇老师奉为考研数学之神,吹捧「三向解题法」天下无敌。 另外一波对张宇老师的评价负面,在网上黑张宇老师! 为什么会这么说,因为张宇老师的新版36讲争议太…...
什么是安全生产痕迹化管理?如何做到生产过程中全程痕迹化管理?
安全生产痕迹化管理,简单来说,就是通过记录一些“信息”来确保安全工作的进展。这些方法包括记会议内容、写安全日记、拍照片、签字盖章、指纹识别、面部识别还有手机定位等。记录下来的文字、图片、数据和视频,就像一个个“脚印”࿰…...
VIsual Studio:为同一解决方案下多个项目分别指定不同的编译器
一、引言 如上图,我有一个解决方案【EtchDevice】,他包含两个(甚至更多个)子项目,分别是【DeviceRT】和【DeviceWin】,见名知意,我需要一个项目编译运行在RTOS上,譬如一个名叫INTime…...
Flat Ads资讯:Meta、Google、TikTok 7月产品政策速递
Flat Ads拥有全球媒介采买(MediaBuy)业务,为方便广告主及时了解大媒体最新政策,Flat Ads将整理大媒体产品更新月报,欢迎大家关注我们及时了解最新行业动向。 一、Meta 1、Reels 应用推广现可突出显示应用评分、点评和下载量 为了不断优化 Instagram 上的广告体验和广告表现,…...
嵌入式C++、ROS 、OpenCV、SLAM 算法和路径规划算法:自主导航的移动机器人流程设计(代码示例)
在当今科技迅速发展的背景下,嵌入式自主移动机器人以其广泛的应用前景和技术挑战吸引了越来越多的研究者和开发者。本文将详细介绍一个嵌入式自主移动机器人项目,涵盖其硬件与软件系统设计、代码实现及项目总结,并提供相关参考文献。 项目概…...
数据安全堡垒:SQL Server数据库备份验证与测试恢复全攻略
数据安全堡垒:SQL Server数据库备份验证与测试恢复全攻略 在数据库管理中,备份是确保数据安全的关键环节,但仅仅拥有备份是不够的,验证备份的有效性并能够从备份中成功恢复数据同样重要。SQL Server提供了一系列的工具和方法来执…...
嵌入式人工智能(40-基于树莓派4B的水滴传感器和火焰传感器)
虽然这两个传感器水火不容,我还是把他们放到一起了。本文是有线传感器的最后一个部分了。后面如果还有文章介绍有线传感器,也是补充学习其他内容不得已而为之。如果不是,就当我没说,哈哈。 1、水滴传感器 水滴传感器又称雨滴传感…...
EF访问PostgreSql,如何判断jsonb类型的数组是否包含某个数值
下面代码判断OpenUserIds(long[]类型的jsonb)字段,是否包含 8 basequery basequery.Where(m > Microsoft.EntityFrameworkCore.NpgsqlJsonDbFunctionsExtensions.JsonContains(EF.Functions, m.OpenUserIds, new long[] { 8 }));...
Qt 实战(8)控件 | 8.1、QComboBox
文章目录 一、QComboBox1、简介2、功能特性2.1、添加和移除项目2.2、设置和获取当前选中项2.3、模型/视图架构2.4、信号与槽 3、总结 前言: QComboBox 是 Qt 框架中一个非常实用的控件,它允许用户从一个下拉列表中选择一个项目。这个控件广泛应用于需要用…...
模拟算法概览
前言 LeetCode上的模拟算法题目主要考察通过直接模拟问题的实际操作和过程来解决问题。这类题目通常不需要高级的数据结构或复杂的算法,而是通过仔细的逻辑和清晰的步骤逐步解决。 适合解决的问题 模拟算法适合用来解决那些逻辑明确、步骤清晰且可以逐步执行的问…...
uniapp手写滚动选择器
文章目录 效果展示HTML/Template部分:JavaScript部分:CSS部分:完整代码 没有符合项目要求的选择器 就手写了一个 效果展示 实现一个时间选择器的功能,可以选择小时和分钟: HTML/Template部分: <picker…...
智慧医院临床检验管理系统源码(LIS),全套LIS系统源码交付,商业源码,自主版权,支持二次开发
实验室信息系统是集申请、采样、核收、计费、检验、审核、发布、质控、查询、耗材控制等检验科工作为一体的网络管理系统。它的开发和应用将加快检验科管理的统一化、网络化、标准化的进程。一体化设计,与其他系统无缝连接,全程化条码管理。支持危机值管…...
超市是怎样高效完成客流统计与客流分析
随着科技的进步,越来越多的超市开始采用现代化的客流统计系统来优化日常运营和提升顾客体验。本文将探讨超市客流统计面临的难题、客流统计系统的构成及其应用场景,以及系统如何通过高识别率和热力图分析等功能为超市带来实际效益。 一、景区客流统计难题…...
进程地址空间,零基础最最最详解
目录 建议全文阅读!!! 建议全文阅读!!! 建议全文阅读!!! 一、什么是地址空间 1、概念 2、主要组成部分 3、特点和作用 (1)虚拟化…...
JavaSec-RCE
简介 RCE(Remote Code Execution),可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景:Groovy代码注入 Groovy是一种基于JVM的动态语言,语法简洁,支持闭包、动态类型和Java互操作性,…...
Day131 | 灵神 | 回溯算法 | 子集型 子集
Day131 | 灵神 | 回溯算法 | 子集型 子集 78.子集 78. 子集 - 力扣(LeetCode) 思路: 笔者写过很多次这道题了,不想写题解了,大家看灵神讲解吧 回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...
CMake基础:构建流程详解
目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...
智能仓储的未来:自动化、AI与数据分析如何重塑物流中心
当仓库学会“思考”,物流的终极形态正在诞生 想象这样的场景: 凌晨3点,某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径;AI视觉系统在0.1秒内扫描包裹信息;数字孪生平台正模拟次日峰值流量压力…...
tree 树组件大数据卡顿问题优化
问题背景 项目中有用到树组件用来做文件目录,但是由于这个树组件的节点越来越多,导致页面在滚动这个树组件的时候浏览器就很容易卡死。这种问题基本上都是因为dom节点太多,导致的浏览器卡顿,这里很明显就需要用到虚拟列表的技术&…...
DeepSeek 技术赋能无人农场协同作业:用 AI 重构农田管理 “神经网”
目录 一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析 三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍 四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度 五、实际案例大…...
HarmonyOS运动开发:如何用mpchart绘制运动配速图表
##鸿蒙核心技术##运动开发##Sensor Service Kit(传感器服务)# 前言 在运动类应用中,运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据,如配速、距离、卡路里消耗等,用户可以更清晰…...
安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲
文章目录 前言第一部分:体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分:体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...
精益数据分析(98/126):电商转化率优化与网站性能的底层逻辑
精益数据分析(98/126):电商转化率优化与网站性能的底层逻辑 在电子商务领域,转化率与网站性能是决定商业成败的核心指标。今天,我们将深入解析不同类型电商平台的转化率基准,探讨页面加载速度对用户行为的…...
【笔记】AI Agent 项目 SUNA 部署 之 Docker 构建记录
#工作记录 构建过程记录 Microsoft Windows [Version 10.0.27871.1000] (c) Microsoft Corporation. All rights reserved.(suna-py3.12) F:\PythonProjects\suna>python setup.py --admin███████╗██╗ ██╗███╗ ██╗ █████╗ ██╔════╝…...
