当前位置: 首页 > news >正文

基于人工智能的搜索和推荐系统

        互联网上的搜索历史分析和用户活动是个性化推荐的基础,这些推荐已成为电子商务行业和在线业务的强大营销工具。随着人工智能的使用,在线搜索也在改进,因为它会根据用户的视觉偏好提出建议,而不是根据每个客户的需求和偏好量身定制产品描述。

概述

现代搜索引擎帮助我们在几秒钟内在不断增长的互联网数据海洋中找到任何实际问题的答案。这怎么可能呢?如此快速的搜索过程背后是什么?本博客将讨论人工智能 (AI) 搜索技术,这些技术可以快速帮助满足用户的信息需求并提供最合适的建议。

AI 帮助推荐引擎根据每个客户的需求和偏好做出快速、切中要害的推荐。借助 AI,在线搜索变得越来越好,因为它会根据用户的视觉偏好而不是产品规格提供推荐。

利用 AI 的推荐引擎可以成为搜索字段的替代品,因为它们可以帮助用户找到他们可能不会以不同的方式看到的对象或内容。这就是为什么今天,推荐引擎在 Amazon、Facebook、YouTube 等网站中发挥着至关重要的作用。让我们更深入地了解推荐引擎的工作原理,并了解它们如何收集数据和提出建议。

搜索引擎的演变

Archie 是第一个搜索引擎,它搜索 FTP 站点以创建可下载文件的索引。由于篇幅有限,仅提供房源,不包括每个地点的内容。它允许用户环顾 Internet。但它的功能有限,尤其是与当前的搜索引擎相比。第一个搜索引擎是一个 FTP,用户可以在其中提出简单的文件搜索请求,他们必须下载这些文件才能读取文件。

随着 Internet 上文档总数的增加,系统似乎对相关页面进行了排名。对于页面排名,搜索机器会考虑查询中的关键字、这些单词的频率以及它们在文档上下文中的重要性

必要的统计量 TF-IDF 出现了:

  • TF (Term-frequency) — 单词实例数与文档中单词总数的比率,用于评估单个记录中术语的重要性。

  • IDF (Inverse Document Frequency) — 单词在特定文档集合中出现的频率的倒数,这种方法减少了广泛使用的关键字的权重。

Google 搜索引擎于 1998 年出现,具有创新的反向链接排名算法 PageRank[KB(2] )。该工具的本质是,机器会根据与运营商相关的超链接数量来评估页面的重要性。具有最多反向链接的页面被推到最高排名。

2013 年,Google 创建了 Word2Vec,这是语义分析模型的集合。它为 2015 年推出的新型人工智能搜索技术 RankBrain 奠定了基础。这个自学系统可以在单独的单词之间建立联系,提取隐藏的语义联系并理解文本的含义。搜索引擎算法基于神经网络和深度学习工作,可以找到与关键字和目的匹配的页面。与传统算法相比,神经网络的主要优势在于它们经过训练,但未进行编程。从技术上讲,他们可以学习检测输入数据和输出之间的复杂依赖关系并进行简化(就像人脑在神经元之间建立连接一样)。

所有 AI 搜索技术的基本任务是提高对复杂冗长查询的理解,并在输入信息不完整或扭曲时提供正确的结果。

搜索引擎的历史:从索引卡到 AI 聊天机器人

现代搜索引擎非常神奇——复杂的算法使搜索引擎能够获取您的搜索查询并返回通常准确的结果,从而为您提供有价值的信息。

搜索引擎的历史始于 1990 年的 Archie,这是一个托管可下载目录列表索引的 FTP 站点。搜索引擎仍然是原始目录列表,直到搜索引擎发展到对网站进行爬取和索引,最终创建算法来优化相关性。

AI 搜索的工作原理是什么?

搜索时,AI 通常是指机器学习和自然语言处理 (NLP) 模块,这些模块确定搜索查询向用户检索相关信息的意图。

NLP 和 ML

由于人类语言的非结构化性质和多样性,理解和充分响应人类说话的方式对机器来说是一个巨大的挑战。

借助 NLP,计算机可以检测语言模式并识别单词之间的关系,以了解用户的兴趣。NLP 是 Alexa 和 Siri 等语音助手的核心,因此 Google 通过让智能引擎阅读 2,865 部言情小说来训练其 AI 更具对话性。

计算机程序需要机器学习才能根据它们对人类语言的理解自动采取行动,并提供随着时间的推移而改进的回复。机器学习是一门使系统执行操作而无需使用数学公式进行显式编程的科学。机器分析输入系统的数据,并使用算法不断寻找模式和联系,同时执行人类团队需要数周甚至数年才能完成的任务。

语义搜索

搜索 2021 年的“最佳洗手液”,您可以获得对 COVID-19 有效的产品建议,而无需指定任何其他内容,这与您在 2019 年收到的产品相比大不相同。通过查询的上下文含义来理解搜索者的意图,而不是依赖于一个人输入的确切单词,是语义搜索的领域,因为搜索引擎理解查询的含义,人们发现使用它们的便利性,他们的期望会发生变化。使用 NLP 和机器学习的 AI 驱动的语义搜索意味着调查可以独立运行并返回更相关的结果。

热门内容搜索引擎

从成立至今,Google 一直是搜索引擎市场的领导者。

截至 2021 年 6 月,Bing 在全球搜索引擎市场的份额为 5.56%,而市场领导者 Google 的份额为 87.76%。在此期间,雅虎的市场份额为 2.71%。

领先搜索引擎的全球市场份额

 

基于 AI 的推荐系统

对 Internet 上的搜索历史和用户活动的分析是个人推荐的基础,这已成为电子商务行业和在线公司的强大营销工具。

推荐系统不使用特定查询,而是分析用户的偏好来推荐感兴趣的商品或服务。为了预测特定客户的需求,推荐人会考虑以下因素:

·以前查看过的页面

·过去的购买记录

·用户的个人资料(其中标明了年龄、性别、职业、爱好)

·其他用户及其连接的类似个人资料

·地理位置

因此,推荐引擎是一种过滤系统,可防止信息过载,并根据每个客户的需求提取切中要害的内容。

推荐系统有哪些类型?

有各种类型的推荐系统,每种系统都使用多种技术和方法来生成预测。实施在很大程度上取决于用例(即它将如何满足业务需求)、项目的规模以及数据的数量和质量。通常,有基于内容和协作过滤的推荐系统,协作过滤进一步分为基于内存和基于模型的方法。

基于内容的推荐系统使用基于用户喜欢的产品或服务的明确反馈、属性、关键字或描述的过滤器。该算法推荐根据用户当前想要或寻找的内容建立的项目。

使用协同过滤的系统有两个子组,并使用不同的方法:

  • 基于模型 — 利用机器学习 (ML),涉及从信息集中提取信息(例如,评级、反馈、评论等),并使用这些信息来构建 ML 模型

  • 基于内存 — 分析数据集以查找或建立其他用户或项目之间的相关性和相似性,从而获得推荐。

什么是基于内容的筛选?

基于内容的推荐系统通过显式或隐式反馈处理用户提供的数据。随着用户提供更多输入或对初始建议采取更多操作,引擎/系统会变得更加准确。

 

什么是协作筛选?

协作筛选的运行基于以下假设:同意或喜欢过去的用户更有可能在不久后执行相同的操作。如下所示,协作筛选涉及分析数据,这些数据通常以矩阵形式排列,其中包含一组项目和具有相似偏好的用户,这些用户已表明他们的响应。协作过滤中的一个基本概念是利用其他用户的反馈或评级来为特定用户生成预测。这些衡量标准包括详细评分(例如,喜欢或不喜欢、1 到 10 分的评分等)或隐性反馈(例如,查看、添加到愿望清单、在页面上花费的时间等)。

 

用于开发 AI、ML、DL 解决方案的框架

为了有效地创建和部署智能搜索和 AI 技术,开发人员必须选择合适的框架。每个框架都有特定的用途,有其特性和功能。

Microsoft 认知工具包 (CNTK)

CNTK 表示一组用于设计和开发不同类型网络的开源工具。它通过深度学习使处理大量数据变得更加容易,并为语音、图像和手写识别提供实用的训练模型。

TensorFlow

用于语音和图像识别的最佳开源库是文本应用程序。该框架由 Google 开发,用 C++ 和 Python 编写。它非常适合复杂项目,例如,关于创建多层神经网络的项目。

PyTorch 插件

该工具由 Facebook 组成,主要用于快速有效地训练模型。它有几个现成的训练模型和易于组合的模块化部件。最重要的优势是透明和直接的模型创建过程。

MXNet 网络

Apache 创建了一个非常可扩展的深度学习框架,被大公司和全球 Web 服务主要用于语音和手写识别、自然语言处理 (NLP) 和预测。

DL4J 系列

Deeplearning4j 是一个主要用 Java 和 Scala 编写的商业开源平台。该框架适用于图像识别、自然语言处理、漏洞架构和文本分析

IP 布局

主要市场参与者(美国顶级外派人员)

下图显示,谷歌 (3138)、Microsoft (2137) 和 IBM (1418) 是人工智能搜索和推荐系统中专利申请量排名前三的受让人。

 

结论

人工智能和大数据分析已经在我们的日常生活中扎根,产生了重大的变化。在 AI 算法的帮助下,内容搜索和推荐实践变得越来越像人类。

毫无疑问,搜索引擎越来越受欢迎,并在新的数字时代发挥着重要作用。尤其是人工智能,即时推荐更加普遍,既省时又务实。借助人工智能,推荐引擎提高了他们的生产力,并且它们基于客户的视觉偏好而不是项目的描述。

相关文章:

基于人工智能的搜索和推荐系统

互联网上的搜索历史分析和用户活动是个性化推荐的基础,这些推荐已成为电子商务行业和在线业务的强大营销工具。随着人工智能的使用,在线搜索也在改进,因为它会根据用户的视觉偏好提出建议,而不是根据每个客户的需求和偏好量身定制…...

冷钱包与热钱包的差异 | 加密货币存储的安全方案

随着加密货币的普及,越来越多的人开始重视加密资产的安全存储问题。钱包作为存储数字资产的工具,主要分为冷钱包和热钱包两大类。它们在安全性、便捷性以及适用场景方面各有优劣。了解这两者的差异,有助于投资者根据自己的需求选择合适的钱包…...

014:无人机遥控器操作

摘要:本文详细介绍了无人机遥控器及其相关操作。首先,解释了油门、升降舵、方向舵和副翼的概念、功能及操作方式,这些是控制无人机飞行姿态的关键部件。其次,介绍了美国手、日本手和中国手三种不同的操作模式,阐述了遥…...

PCL 点云高度归一化

目录 一、概述二、代码示例三、结果一、概述 点云高度归一化:为了消除地形起伏对点云数据高程值的影响,特别是在地物间存在显著高程差异的情况下,必须对点云数据进行归一化处理。这一步骤对于许多算法至关重要,因为它能够显著提升后续点云处理或分割任务的准确性。 归一化处…...

【Effective C++】阅读笔记4

1. 确保公有继承中有is-a的关系 Is-a关系理解 该关系就是派生类应该具备基类的所有特性,并且可以替代基类对象使用,例如猫和狗都是动物的派生类,因为猫和狗都和动物形成了is-a关系,猫和狗都是动物。 在该关系下,派生类…...

浅谈mysql【8.0】链接字符串

string connectionString "serveryour_server;useryour_user;passwordyour_password;databaseyour_database;sslmodenone;allowPublicKeyRetrievaltrue;Allow User VariablesTrue;";在 C# 中配置 MySQL 数据库连接字符串时,可以通过添加多个参数来控制连…...

BERT,RoBERTa,Ernie的理解

BERT: 全称:Bidirectional Encoder Representations from Transformers。可以理解为 “基于 Transformer 的双向编码器表示”。含义:是一种用于语言表征的预训练模型。它改变了以往传统单向语言模型预训练的方式,能够联合左侧和右…...

获取 Wind 数据并进行简单的择时分析

使用Python获取Wind数据并进行简单的择时分析时,需要按照以下步骤操作。 (1)登录Wind官网,在“金融解决方案”的下拉列表里选择“金融终端”选项,如下图3.2所示。 (2)根据自己计算机的实际情况…...

小檗碱的酵母代谢工程生物合成-文献精读78

De novo production of protoberberine and benzophenanthridine alkaloids through metabolic engineering of yeast 将酵母代谢工程应用于原小檗碱和苯并啡啶类生物碱的从头合成 苄基异喹啉类生物碱的微生物合成-文献精读77 香叶醇酵母生产机器学习优化酵母-文献精读66 黄…...

文件指针和写入操作

文件指针位置 w 模式: 打开文件时,文件指针位于文件的开头。如果文件已存在,文件内容会被清空。写入的数据会从文件开头开始覆盖原有内容。 a 模式: 打开文件时,文件指针位于文件的末尾。如果文件已存在,文…...

跨越科技与文化的桥梁——ROSCon China 2024 即将盛大开幕

在全球机器人技术飞速发展的浪潮中,ROS(Robot Operating System)作为一款开源的机器人操作系统,已成为无数开发者、研究人员和企业的首选工具。为了进一步推动ROS的应用与发展,全球知名的机器人操作系统会议——ROSCon…...

springboot+shiro 权限管理

一、为什么要了解权限框架 权限管理框架属于系统安全的范畴,权限管理实现对用户访问系统的控制,按照安全规则用户可以访问而且只能访问自己被授权的资源。 目前常见的权限框架有Shiro和Spring Security,本篇文章记录springboot整合sh…...

PureMVC在Unity中的使用(含下载链接)

前言 Pure MVC是在基于模型、视图和控制器MVC模式建立的一个轻量级的应用框架,这种开源框架是免费的,它最初是执行的ActionScript 3语言使用的Adobe Flex、Flash和AIR,已经移植到几乎所有主要的发展平台,支持两个版本框架&#xf…...

25国考照片处理器使用流程图解❗

1、打开“国家公务员局”网站,进入2025公务员专题,找到考生考务入口 2、点击下载地址 3、这几个下载链接都可以 4、下载压缩包 5、解压后先看“使用说明”,再找到“照片处理工具”双击。 6、双击后会进入这样的界面,点击&…...

一位纯理科生,跨界自学中医,自行组方治好胃病、颈椎病与高血脂症,并在最权威的中国中医药出版社出版壹本专业中医图书!

这是一位铁杆中医迷, 也是《神农本草经——精注易读本》的作者。 希望更多的人能够受到启发,感受中医之神奇,敢于跨界,爱好中医,学习中医! 一个病人以自己的切身感受与诊断,并使之汤药治愈疾病&…...

运动控制 双轮差速模型轨迹规划

文章目录 一、轨迹规划1.1轨迹平滑与轮迹1.2 目标距离1.3 速度限制1.4 候选速度的计算与调整1.5 路径生成 二、双轮轨迹2.1 计算梯度2.2 计算偏移轨迹2.3 返回结果 一、轨迹规划 1.1轨迹平滑与轮迹 初始时,我们有一条由若干坐标点构成的机器人运行路径。通过对这些…...

使用 Sortable.js 库 实现 Vue3 elementPlus 的 el-table 拖拽排序

文章目录 实现效果Sortable.js介绍下载依赖添加类名导入sortablejs初始化拖拽实例拖拽完成后的处理总结 在开发过程中,我们经常需要处理表格数据,并为用户提供便捷的排序方式。特别是在需要管理长列表、分类数据或动态内容时,拖拽排序功能显得…...

MySQL索引相关介绍及优化(未完...)

如何看一条SQL语句的执行好坏? MySQL提供了自带的工具Explain可以查看sql语句的执行好坏。 explain主要的列: 1:type:这一列表示MySQL决定如何查找表中的行,查找数据行记录的大概范围。 有 system const eq_ref ref…...

【AI+教育】一些记录@2024.11.04

一、尝新 今天尝试了使用九章随时问,起因是看到快刀青衣的AI产品好用榜,里面这么介绍九章随时问:「它不是像其他产品那样,直接给你出答案。而是跟你语音对话,你会感觉更像是有一位老师坐在你的旁边,一步步…...

三维测量与建模笔记 - 2.2 射影几何

教程中H矩阵写的有问题,上图中H矩阵应该是(n1) x (m1) 共点不变性,下图中黄色方块标记的点,在射影变换前后,虽然直线的形状有所变化,但仍然相交于同一个点。 共线不变性,下图黄色标记的两个点,在…...

论文速读:简化目标检测的无源域适应-有效的自我训练策略和性能洞察(ECCV2024)

中文标题:简化目标检测的无源域适应:有效的自我训练策略和性能洞察 原文标题:Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights 1、Abstract 本文重点关注计算…...

ros与mqtt相互转换

vda5050 VDA5050协议介绍 和 详细翻译-CSDN博客 ros与mqtt相互转换 如何转换的,通过某个中转包,获取ros的消息然后以需要的格式转换为mqtt 需要的参数 ros相关 parameters[ (ros_subscriber_type, vda5050_msgs/NodeState), (ros_subscriber_queue…...

Golang | Leetcode Golang题解之第522题最长特殊序列II

题目: 题解: func isSubseq(s, t string) bool {ptS : 0for ptT : range t {if s[ptS] t[ptT] {if ptS; ptS len(s) {return true}}}return false }func findLUSlength(strs []string) int {ans : -1 next:for i, s : range strs {for j, t : range s…...

安卓开发之数据库的创建与删除

目录 前言:基础夯实:数据库的创建数据库的删除注意事项 效果展示:遇到问题:如何在虚拟机里面找到这个文件首先,找到虚拟机文件的位置其次,找到数据库文件的位置 核心代码: 前言: 安…...

数据结构:LRUCache

什么是LRUCache 首先我们来看看什么是cache 缓存(Cache)通常用于两个速度不同的介质之间,以提高数据访问的速度和效率。这里有几个典型的应用场景: 处理器和内存之间: 处理器(CPU)的运算速度远…...

shell脚本案例:创建用户和组

使用场景 在部署程序时,往往首要任务是创建用户和组。有的程序可能用到的组、用户比较多;且不知道服务器环境是否已经有了所需的组和用户。所以针对这个情况,根据Oracle RAC部署时的实际情况写了个脚本。 Linux版本 脚本代码 #!/bin/bash …...

C++笔试题之实现一个定时器

一.定时器(timer)的需求 1.执行定时任务的时,主线程不阻塞,所以timer必须至少持有一个线程用于执行定时任务 2.考虑到timer线程资源的合理利用,一个timer需要能够管理多个定时任务,所以timer要支持增删任务…...

【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,2-13

文件下载与邀请翻译者 学习英特尔开发手册,最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。 讲解下载英特尔开发手册的文章 翻译英特尔开发手册,会是一件耗时费力的工作。如果有愿意和我一起来做这件事的,那么&#xff…...

快消零售行业的培训创新:构建在线培训知识库

在快速消费品(FMCG)行业中,员工的培训和发展对于保持竞争力至关重要。随着电子商务的兴起和消费者行为的变化,快消零售行业需要不断适应新的市场趋势。在线培训知识库作为一种有效的培训工具,可以帮助企业提升员工技能…...

【AI开源项目】Botpress - 开源智能聊天机器人平台及其部署方案

文章目录 Botpress 概述Botpress 的定位 Botpress 的主要特点1. OpenAI 集成2. 易于使用3. 定制和扩展性4. 多平台支持5. 集成和扩展 API6. 活跃的社区和详尽的文档 部署方案集成集成开发集成部署机器人示例开发工具代理本地开发先决条件从源代码构建 Botpress 如何解决常见问题…...