当前位置: 首页 > news >正文

机器学习中的嵌入:释放表征的威力

简介

机器学习通过使计算机能够从数据学习和做出预测来彻底改变了人工智能领域。机器学习的一个关键方面是数据的表示,因为表示形式的选择极大地影响了算法的性能和有效性。嵌入已成为机器学习中的一种强大技术,提供了一种捕获和编码数据点之间复杂关系的方法。本文[1]探讨了嵌入的概念,其意义及其在各个领域的应用。

了解嵌入

在机器学习中,嵌入是指高维物体的低维,密集的矢量表示。这些对象可以是从自然语言处理中的单词到计算机视觉中的图像。嵌入的目的是以更紧凑和有意义的形式捕获对象的固有属性和关系。

alt

通过表示学习的过程来学习嵌入,其中训练模型以将高维数据映射到较低维的矢量空间。嵌入空间的设计方式使语义上相似的物体更靠近,而不同的对象则距离较远。这种基于接近度的安排使算法能够利用嵌入式中编码的关系来进行准确的预测并执行各种任务。

嵌入的应用

  1. 自然语言处理(NLP):在NLP中,嵌入引起了极大的关注。单词嵌入(例如Word2Vec和Glove)将单词表示为连续空间中的密集向量。通过捕获单词之间的语义和句法关系,这些嵌入使模型能够理解语言结构,执行情感分析,甚至可以生成连贯的文本。此外,上下文嵌入(例如Bert和GPT)在句子的上下文中捕获单词的含义,从而使高级语言理解任务。
  2. 计算机视觉:嵌入也已被广泛用于计算机视觉任务。图像嵌入,例如从卷积神经网络(CNN)获得的图像嵌入,在紧凑的表示中捕获图像的视觉特征。这些嵌入可以用于图像分类,对象检测和图像相似性搜索等任务。通过将图像映射到特征空间,模型可以根据其视觉内容比较和匹配图像。
  3. 推荐系统:嵌入在构建推荐系统中起着至关重要的作用。协作过滤技术利用嵌入来表示用户和项目。通过从历史用户项目交互中学习嵌入,推荐系统可以识别相似的用户或项目并提出个性化建议。嵌入捕获潜在的因素,这些因素可以推动用户偏好,从而推荐与单个口味相符的项目。
  4. 网络分析:嵌入在网络分析和基于图的机器学习中已证明有价值。图形嵌入表示图中的节点为低维向量,从而捕获结构信息和节点之间的关系。这些嵌入可以实现诸如链接预测,社区检测和节点分类之类的任务。通过将节点映射到嵌入空间,基于图的算法可以有效地分析大规模网络。

优点和挑战

使用嵌入为机器学习应用带来了一些好处。首先,嵌入提供紧凑而有益的表示形式,从而降低了数据的维度并提高了计算效率。其次,嵌入有助于探索语义关系,并使算法能够很好地概括到看不见的数据。此外,嵌入可以优雅地处理缺失的值和噪音,从而增强鲁棒性。

但是,嵌入学习中存在挑战。确定最佳的嵌入维度,处理稀有或不播放的术语以及解决嵌入中的偏见的最佳嵌入性。平衡表现力和嵌入性解释性之间的权衡也带来了挑战。

Code Example

在Python中,有几个库和框架可用于机器学习中的嵌入。让我们探索一些流行的选择:

  1. Gensim:Gensim是专为主题建模和文档相似性分析而设计的Python库。它包括有效实现流行的嵌入算法,例如Word2Vec和doc2vec。 Gensim提供了易于使用的API,用于训练和使用嵌入。这是使用Gensim训练Word2Vec模型的示例:
from gensim.models import Word2Vec

# Prepare training data (a list of sentences)
sentences = [["I""love""machine""learning"], ["Embeddings""are""powerful"]]

# Train Word2Vec model
model = Word2Vec(sentences, min_count=1)

# Get the embedding vector for a word
word_vector = model['machine']
  1. TensorFlow:TensorFlow是一个受欢迎的深度学习库,为使用嵌入的工作提供了广泛的支持。它提供了诸如Word2Vec和Glove之类的预训练模型,以及使用神经网络训练自定义嵌入的灵活性。这是在TensorFlow中使用预训练的手套嵌入的示例:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Create a Tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(["I love machine learning""Embeddings are powerful"])

# Convert text to sequences
sequences = tokenizer.texts_to_sequences(["I love embeddings"])

# Pad sequences to a fixed length
padded_sequences = pad_sequences(sequences, maxlen=10)

# Load pre-trained GloVe embeddings
embedding_matrix = tf.keras.preprocessing.text.embedding_matrix.load_glove("glove.6B.100d.txt")

# Define an embedding layer
embedding_layer = tf.keras.layers.Embedding(
    input_dim=len(tokenizer.word_index) + 1,
    output_dim=100,
    weights=[embedding_matrix],
    trainable=False
)

# Embed the padded sequences
embedded_sequences = embedding_layer(padded_sequences)
  1. Pytorch:Pytorch是另一个流行的深度学习库,可提供用于嵌入的工具。它提供了Torch.nn.embedding模块,以在神经网络中创建和使用嵌入。这是使用Torch.nn.embedding模块的一个示例:
import torch
import torch.nn as nn

# Define an embedding layer
embedding_layer = nn.Embedding(10000300)  # Vocabulary size: 10,000, Embedding dimension: 300

# Create input data
input_data = torch.LongTensor([[123], [456]])  # Shape: (2, 3)

# Embed the input data
embedded_data = embedding_layer(input_data)

# Access the embedding vectors
embedding_vectors = embedded_data[0]  # Shape: (3, 300)

要在不使用库的情况下实现Python中的嵌入,您可以从头开始创建一个基本的嵌入框架。这是一个简化的例子:

import numpy as np

# Define a vocabulary
vocabulary = ["apple""banana""orange""grape"]

# Initialize an empty embedding matrix
embedding_matrix = np.zeros((len(vocabulary), 100))  # Embedding dimension: 100

# Assign random vectors to each word in the vocabulary
for i, word in enumerate(vocabulary):
    embedding_vector = np.random.uniform(-11, (100,))
    embedding_matrix[i] = embedding_vector

# Function to retrieve the embedding vector for a given word
def get_embedding(word):
    if word in vocabulary:
        index = vocabulary.index(word)
        return embedding_matrix[index]
    else:
        return None

# Example usage
word_embedding = get_embedding("banana")
print(word_embedding)

在此示例中,我们使用numpy手动创建一个嵌入矩阵,其中每一行都对应于词汇中的一个单词,每个列代表特征维度。我们用随机向量初始化嵌入矩阵,但是您可以使用任何所需的初始化方法。

get_embedding()函数检索给定单词的嵌入向量。它检查该单词是否存在于词汇中,并从嵌入矩阵中返回相应的嵌入向量。

请注意,这是一个简单的演示,可以说明嵌入的概念而不依赖外部库。实际上,建议使用诸如Gensim,Tensorflow或Pytorch之类的库库,以更有效,更优化的嵌入在现实世界机器学习项目中。

总结

嵌入已成为现代机器学习的基本组成部分,提供了一种捕获和代表数据中复杂关系的方法。从NLP到计算机视觉和网络分析,它们的多功能性在各个领域都显而易见。通过利用嵌入,模型可以有效地推理,概括并做出准确的预测

Reference

[1]

Source: https://medium.com/@evertongomede/embeddings-in-machine-learning-unleashing-the-power-of-representation-2402bab526fe

本文由 mdnice 多平台发布

相关文章:

机器学习中的嵌入:释放表征的威力

简介 机器学习通过使计算机能够从数据学习和做出预测来彻底改变了人工智能领域。机器学习的一个关键方面是数据的表示,因为表示形式的选择极大地影响了算法的性能和有效性。嵌入已成为机器学习中的一种强大技术,提供了一种捕获和编码数据点之间复杂关系的…...

【Midjourney入门教程3】写好prompt常用的参数

文章目录 1、图片描述词(图片链接)文字描述词后缀参数2、权重划分3、后缀参数版本选择:--v版本风格:--style长宽比:--ar多样性: --c二次元化:--niji排除内容:--no--stylize--seed--tile、--q 4、…...

01-单节点部署clickhouse及简单使用

1、下载rpm安装包: 官网:https://packages.clickhouse.com/rpm/stable/ clickhouse19.4版本之后只需下载3个rpm安装包,上传到节点目录即可 2、rpm包安装: 安装顺序为conmon->server->client 执行 rpm -ivh ./clickhouse-…...

项目实战:展示第一页数据

1、在FruitDao接口中添加查询第一页数据和查询总记录条数 package com.csdn.fruit.dao; import com.csdn.fruit.pojo.Fruit; import java.util.List; //dao :Data Access Object 数据访问对象 //接口设计 public interface FruitDao {void addFruit(Fruit fruit);vo…...

c#中使用METest单元测试

METest是一个用于测试C#代码的单元测试框架。单元测试是一种软件测试方法,用于验证代码的各个单元(函数、方法、类等)是否按照预期工作。METest提供了一种简单而强大的方式来编写和运行单元测试。 TestMethod:这是一个特性&#…...

七月论文审稿GPT第二版:从Meta Nougat、GPT4审稿到Mistral、LLaMA LongLora

前言 如此前这篇文章《学术论文GPT的源码解读与微调:从chatpaper、gpt_academic到七月论文审稿GPT》中的第三部分所述,对于论文的摘要/总结、对话、翻译、语法检查而言,市面上的学术论文GPT的效果虽暂未有多好,可至少还过得去&am…...

社群团购对接合作,你有研究过社群团购平台的选品吗?

社群团购对接合作,你有研究过社群团购平台的选品吗? 社群团购选品是非常重要的一项工作,一个好的社群团购平台选品逻辑包含了:用户定位,时节性,产品性价比,售后率。用户定位在选品过程中非常重要…...

VSCode 如何设置背景图片

VSCode 设置背景图片 1.打开应用商店,搜索 background ,选择第一个,点击安装。 2. 安装完成后点击设置,点击扩展设置。 3.点击在 settings.json 中编辑。 4.将原代码注释后,加入以下代码。 // { // "workben…...

【数据结构】单向链表的增删查改以及指定pos位置的插入删除

目录 单向链表的概念及结构 尾插 头插 尾删 ​编辑 头删 查找 在pos位置前插 在pos位置后插 删除pos位置 删除pos的后一个位置 总结 代码 单向链表的概念及结构 概念:链表是一种 物理存储结构上非连续 、非顺序的存储结构,数据元素的 逻辑顺序 是…...

PageRank算法c++实现

首先用邻接矩阵A表示从页面j到页面i的概率,然后根据公式生成转移概率矩阵 M(1-d)*Qd*A 常量矩阵Q(qi,j),qi,j1/n 给定点击概率d,等级值初始向量R0,迭代终止条件e; 计算Ri1M*R…...

超低价:阿里云双11服务器优惠价格表_87元一年起

2023阿里云双十一优惠活动已经开启了,轻量2核2G服务器3M带宽优惠价87元一年、2核4G4M带宽优惠价165元一年,云服务器ECS经济型e实例2核2G3M固定带宽优惠价格99元一年,还有2核4G、2核8G、4核8G、4核16G、8核32G等配置报价,云服务器e…...

docker的安装Centos8

在CentOS 7中,可以使用yum安装Docker。Docker官方提供了一个yum源,可以用于安装Docker。以下是安装Docker的步骤: 卸载旧版本的Docker(如果有) 如果你之前安装过Docker,需要先卸载旧版本的Docker。执行以…...

Android.mk文件制定了链接库,但是出现ld Error

问题描述 Android.mk文件中,指定了库: LOCAL_LDLIBS : -lmylib LOCAL_LDFLAGS -L$(MYLIB_DIR)/lib出现ld: error: undefined symbol: my_function,于是查看so里面是否有my_function函数: nm -D libmylib.so | grep my_functio…...

10.MySQL事务(上)

个人主页:Lei宝啊 愿所有美好如期而遇 目录 前言: 是什么? 为什么? 怎么做? 前言: 本篇文章将会说明什么是事务,为什么会出现事务?事务是怎么做的? 是什么? 我…...

nexus搭建npm私有镜像

假设有一个nexus服务,地址为: http://10.10.33.50:8081/ 创建存储空间 登录后创建存储空间,选择存储类型为File,并设置空间名称为 npm-private 创建仓库类型 2.1 创建hosted类型仓库 创建一个名为 npm-hosted 的本地类型仓库 2.…...

智能化的宠物喂食器解决方案

随着经济条件的不断改善,越来越多的家庭开始追求生活的便捷享受,于是喂食器开始走进千家万户,喂食器主要由储存食物的蓄食箱和传送食物的滑道构成,在外部框架的支撑下,一台喂食器才能正常进行工作,而宠物喂…...

java配置GDAL

<gdal.version>3.7.0</gdal.version><!-- gdal--><dependency><groupId>org.gdal</groupId><artifactId>gdal</artifactId><version>${gdal.version}</version></dependency> GDAL环境安装 downlo…...

采购对接门禁系统采购进厂 空车出厂

本人详解 作者:王文峰,参加过 CSDN 2020年度博客之星,《Java王大师王天师》 公众号:山JAVA开发王大师,专注于天道酬勤的 Java 开发问题中国国学、传统文化和代码爱好者的程序人生,期待你的关注和支持!本人外号:神秘小峯 山峯 转载说明:务必注明来源(注明:作者:王文…...

服务器经常被攻击的原因

很多中小型企业都是选择虚拟主机服务器&#xff0c;是把一个服务器分成很多个给很多企业一起共用&#xff0c;可能同一个 IP服务器上就有很多个不同企业的网站&#xff0c;这个时候如果跟你同一个IP服务器的网站遭到DDoS攻击&#xff0c;就很有可能会影响到你的网站也无法正常访…...

子女购买房屋,父母出资的如果父母有关借贷的举证不充分则应认定该出资为赠与行为

现实生活中&#xff0c;由于父母与子女不和、子女离婚时父母为保全自己的出资等原因还经常会出现父母请求返还出资的情形。从司法实践反馈情况来看&#xff0c;父母请求返还出资所主张的基础法律关系往往为借贷而非赠与。基干父母子女之间密切的人身财产关系&#xff0c;父母出…...

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周&#xff0c;有很多同学在写期末Java web作业时&#xff0c;运行tomcat出现乱码问题&#xff0c;经过多次解决与研究&#xff0c;我做了如下整理&#xff1a; 原因&#xff1a; IDEA本身编码与tomcat的编码与Windows编码不同导致&#xff0c;Windows 系统控制台…...

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下&#xff1a; struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版

7种色调职场工作汇报PPT&#xff0c;橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版&#xff1a;职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...

在Mathematica中实现Newton-Raphson迭代的收敛时间算法(一般三次多项式)

考察一般的三次多项式&#xff0c;以r为参数&#xff1a; p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]&#xff1b; 此多项式的根为&#xff1a; 尽管看起来这个多项式是特殊的&#xff0c;其实一般的三次多项式都是可以通过线性变换化为这个形式…...

Go语言多线程问题

打印零与奇偶数&#xff08;leetcode 1116&#xff09; 方法1&#xff1a;使用互斥锁和条件变量 package mainimport ("fmt""sync" )type ZeroEvenOdd struct {n intzeroMutex sync.MutexevenMutex sync.MutexoddMutex sync.Mutexcurrent int…...

OD 算法题 B卷【正整数到Excel编号之间的转换】

文章目录 正整数到Excel编号之间的转换 正整数到Excel编号之间的转换 excel的列编号是这样的&#xff1a;a b c … z aa ab ac… az ba bb bc…yz za zb zc …zz aaa aab aac…; 分别代表以下的编号1 2 3 … 26 27 28 29… 52 53 54 55… 676 677 678 679 … 702 703 704 705;…...

comfyui 工作流中 图生视频 如何增加视频的长度到5秒

comfyUI 工作流怎么可以生成更长的视频。除了硬件显存要求之外还有别的方法吗&#xff1f; 在ComfyUI中实现图生视频并延长到5秒&#xff0c;需要结合多个扩展和技巧。以下是完整解决方案&#xff1a; 核心工作流配置&#xff08;24fps下5秒120帧&#xff09; #mermaid-svg-yP…...

在MobaXterm 打开图形工具firefox

目录 1.安装 X 服务器软件 2.服务器端配置 3.客户端配置 4.安装并打开 Firefox 1.安装 X 服务器软件 Centos系统 # CentOS/RHEL 7 及之前&#xff08;YUM&#xff09; sudo yum install xorg-x11-server-Xorg xorg-x11-xinit xorg-x11-utils mesa-libEGL mesa-libGL mesa-…...

SAP学习笔记 - 开发24 - 前端Fiori开发 Filtering(过滤器),Sorting and Grouping(排序和分组)

上一章讲了SAP Fiori开发的表达式绑定&#xff0c;自定义格式化等内容。 SAP学习笔记 - 开发23 - 前端Fiori开发 Expression Binding&#xff08;表达式绑定&#xff09;&#xff0c;Custom Formatters&#xff08;自定义格式化&#xff09;-CSDN博客 本章继续讲SAP Fiori开发…...

【论文解读】MemGPT: 迈向为操作系统的LLM

1st author: Charles Packer paper MemGPT[2310.08560] MemGPT: Towards LLMs as Operating Systems code: letta-ai/letta: Letta (formerly MemGPT) is the stateful agents framework with memory, reasoning, and context management. 这个项目现在已经转化为 Letta &a…...