当前位置：首页 > news >正文

无涯教程-TensorFlow - 单词嵌入

news 2026/2/9 16:07:24

Word embedding是从离散对象(如单词)映射到向量和实数的概念，可将离散的输入对象有效地转换为有用的向量。

Word embedding的输入如下所示:

blue: (0.01359, 0.00075997, 0.24608, ..., -0.2524, 1.0048, 0.06259)
blues: (0.01396, 0.11887, -0.48963, ..., 0.033483, -0.10007, 0.1158)
orange: (-0.24776, -0.12359, 0.20986, ..., 0.079717, 0.23865, -0.014213)
oranges: (-0.35609, 0.21854, 0.080944, ..., -0.35413, 0.38511, -0.070976)

Word2vec

Word2vec是用于无监督最常见方法，它以一种方式训练模型，即给定的输入单词通过使用跳跃语法来预测单词的上下文。

TensorFlow提供了多种方法来实现这种模型，从而提高了复杂性和优化级别，并使用了多线程概念和更高级别的抽象。

import os 
import math 
import numpy as np 
import tensorflow as tf from tensorflow.contrib.tensorboard.plugins import projector 
batch_size = 64 
embedding_dimension = 5 
negative_samples = 8 
LOG_DIR = "logs/word2vec_intro" digit_to_word_map = {1: "One", 2: "Two", 3: "Three", 4: "Four", 5: "Five", 6: "Six", 7: "Seven", 8: "Eight", 9: "Nine"} 
sentences = [] # 创建两种句子 - 奇数和偶数序列。for i in range(10000): rand_odd_ints = np.random.choice(range(1, 10, 2), 3) sentences.append(" ".join([digit_to_word_map[r] for r in rand_odd_ints])) rand_even_ints = np.random.choice(range(2, 10, 2), 3) sentences.append(" ".join([digit_to_word_map[r] for r in rand_even_ints])) # 将单词映射到索引
word2index_map = {} 
index = 0 for sent in sentences: for word in sent.lower().split(): if word not in word2index_map: word2index_map[word] = index index += 1 
index2word_map = {index: word for word, index in word2index_map.items()} vocabulary_size = len(index2word_map) # 生成skip-gram对
skip_gram_pairs = [] for sent in sentences: tokenized_sent = sent.lower().split() for i in range(1, len(tokenized_sent)-1):        word_context_pair = [[word2index_map[tokenized_sent[i-1]], word2index_map[tokenized_sent[i+1]]], word2index_map[tokenized_sent[i]]] skip_gram_pairs.append([word_context_pair[1], word_context_pair[0][0]]) skip_gram_pairs.append([word_context_pair[1], word_context_pair[0][1]]) def get_skipgram_batch(batch_size): instance_indices = list(range(len(skip_gram_pairs))) np.random.shuffle(instance_indices)batch = instance_indices[:batch_size] x = [skip_gram_pairs[i][0] for i in batch] y = [[skip_gram_pairs[i][1]] for i in batch] return x, y #批处理示例
x_batch, y_batch = get_skipgram_batch(8) 
x_batch 
y_batch 
[index2word_map[word] for word in x_batch] [index2word_map[word[0]] for word in y_batch] #输入数据，标签 train_inputs=tf.placeholder(tf.int32, shape=[batch_size])train_labels = tf.placeholder(tf.int32, shape = [batch_size, 1]) # 嵌入查找表目前仅在 CPU 中实现tf.name_scope("embeddings"): embeddings = tf.Variable(    tf.random_uniform([vocabulary_size, embedding_dimension], -1.0, 1.0), name = embedding) # 这本质上是一个查找表embed = tf.nn.embedding_lookup(embeddings, train_inputs) # 为 NCE 损失创建变量
nce_weights = tf.Variable(     tf.truncated_normal([vocabulary_size, embedding_dimension], stddev = 1.0/math.sqrt(embedding_dimension))) nce_biases = tf.Variable(tf.zeros([vocabulary_size])) loss = tf.reduce_mean(     tf.nn.nce_loss(weights = nce_weights, biases = nce_biases, inputs = embed, labels = train_labels,num_sampled = negative_samples, num_classes = vocabulary_size)) tf.summary.scalar("NCE_loss", loss) # 学习率衰减
global_step = tf.Variable(0, trainable = False) learningRate = tf.train.exponential_decay(learning_rate = 0.1, global_step = global_step, decay_steps = 1000, decay_rate = 0.95, staircase = True) train_step = tf.train.GradientDescentOptimizer(learningRate).minimize(loss) merged = tf.summary.merge_all() 
with tf.Session() as sess: train_writer = tf.summary.FileWriter(LOG_DIR,    graph = tf.get_default_graph()) saver = tf.train.Saver() with open(os.path.join(LOG_DIR, metadata.tsv), "w") as metadata: metadata.write(Name	Class
) for k, v in index2word_map.items(): metadata.write(%s	%d
 % (v, k)) config = projector.ProjectorConfig() embedding = config.embeddings.add() embedding.tensor_name = embeddings.name # 将此张量链接到其元数据文件（例如标签）。embedding.metadata_path = os.path.join(LOG_DIR, metadata.tsv) projector.visualize_embeddings(train_writer, config) tf.global_variables_initializer().run() for step in range(1000): x_batch, y_batch = get_skipgram_batch(batch_size) summary, _ = sess.run([merged, train_step], feed_dict = {train_inputs: x_batch, train_labels: y_batch})train_writer.add_summary(summary, step)if step % 100 == 0:saver.save(sess, os.path.join(LOG_DIR, "w2v_model.ckpt"), step)loss_value = sess.run(loss, feed_dict = {train_inputs: x_batch, train_labels: y_batch})print("Loss at %d: %.5f" % (step, loss_value))# 在使用之前规范化嵌入norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims = True))normalized_embeddings = embeddings /norm normalized_embeddings_matrix = sess.run(normalized_embeddings)ref_word = normalized_embeddings_matrix[word2index_map["one"]]cosine_dists = np.dot(normalized_embeddings_matrix, ref_word)
ff = np.argsort(cosine_dists)[::-1][1:10] for f in ff: print(index2word_map[f])
print(cosine_dists[f])

上面的代码生成以下输出-

TensorFlow - 单词嵌入 - 无涯教程网无涯教程网提供Word embedding是从离散对象(如单词)映射到向量和实数的概念，可将离散的输入对象有效...https://www.learnfk.com/tensorflow/tensorflow-word-embedding.html

无涯教程-TensorFlow - 单词嵌入

Word embedding是从离散对象(如单词)映射到向量和实数的概念，可将离散的输入对象有效地转换为有用的向量。 Word embedding的输入如下所示: blue: (0.01359, 0.00075997, 0.24608, ..., -0.2524, 1.0048, 0.06259) blues: (0.01396, 0.11887, -0.48963, ..., 0.03…...

编程日记 2023/8/20 14:30:40

Facebook AI mBART：巴别塔的硅解

2018年，谷歌发布了BERT（来自transformers的双向编码器表示），这是一种预训练的语言模型，在一系列自然语言处理（NLP）任务中对SOTA结果进行评分，并彻底改变了研究领域。类似的基于变压器…...

编程日记 2023/8/20 14:29:39

BDA初级分析——SQL清洗和整理数据

一、数据处理数据处理之类型转换字符格式与数值格式存储的数据，同样是进行大小排序， 会有什么区别？ 以rev为例，看看字符格式与数值格式存储时，排序会有什么区别？ 用cast as转换为字符后进行排序 SEL…...

编程日记 2023/8/20 14:28:37

汽车后视镜反射率测定仪

后视镜是驾驶员坐在驾驶室座位上直接获取汽车后方、侧方和下方等外部信息的工具。它起着“第三只眼睛”的作用。后视镜按安装位置划分通常分为车外后视镜、监视镜和内后视镜。外后视镜观察汽车后侧方监视镜观察汽车前下方内后视镜观察汽车后方及车内情况。用途不一样镜面结构也…...

编程日记 2023/8/20 14:27:36

Redis学习笔记

redis相关内容默认端口6379 默认16个数据库，初始默认使用0号库使用select 切换数据库统一密码管理，所有库密码相同 dbsize：查看当前库key的数量 flushdb：清空当前库 flushall：清空全部库 redis是单线程多路…...

编程日记 2023/8/20 14:26:35

韩顺平Linux 四十四--

四十四、rwx权限权限的基本介绍输入指令 ls -l 显示的内容如下 -rwxrw-r-- 1 root 1213 Feb 2 09:39 abc0-9位说明第0位确定文件类型（d , - , l , c , b) l 是链接，相当于 windows 的快捷方式- 代表是文件是普通文件d 是目录，相…...

编程日记 2023/8/20 14:25:34

【支付宝小程序】分包优化教程

🦖我是Sam9029，一个前端 Sam9029的CSDN博客主页:Sam9029的博客_CSDN博客-JS学习,CSS学习,Vue-2领域博主 🐱‍🐉🐱‍🐉恭喜你，若此文你认为写的不错，不要吝啬你的赞扬，求收…...

编程日记 2023/8/20 14:24:31

语言基础2 矩阵和数组

语言基础2 矩阵和数组矩阵和数组是matlab中信息和数据的基本表示形式可以创建常用的数组和网格合并现有的数组操作数组的形状和内容以及使用索引访问数组元素用到的函数列表如下一创建串联和扩展矩阵矩阵时按行和列排列的数据元素的二维数据元素的二维矩…...

编程日记 2023/8/20 14:23:30

在过滤器中引入org.springframework.web.servlet.HandlerExceptionResolver AutowiredQualifier("handlerExceptionResolver")private HandlerExceptionResolver resolver; // doFilter中处理if (条件1) {if (条件2) {resolver.resolveException(request, response, …...

编程日记 2023/8/20 14:22:29

图像检索技术研究：深度度量与深度散列在相似性学习中的应用比较与实践 - 使用Python与Jupyter环境

引言在计算机视觉领域，图像检索是一个长期存在并持续受到研究者关注的重要话题。随着大数据时代的到来，如何高效、准确地从海量数据中检索到相似的图像成为一个巨大的挑战。传统的检索方法在大数据环境下表现不佳，而深度学习技术的崛起为图…...

编程日记 2023/8/20 14:21:28

CSS加载失败的6个原因

有很多刚刚接触 CSS 的新手有时会遇到 CSS 加载失败这个问题，但测试时，网页上没有显示该样式的问题，这就说明 CSS 加载失败了。出现这种状况一般是因为的 CSS 路径书写错，或者是在浏览器中禁止掉了 CSS 的加载，可以重新…...

编程日记 2023/8/20 14:20:27

react之路由的安装与使用

一、路由安装路由官网2021.11月初，react-router 更新到 v6 版本。使用最广泛的 v5 版本的使用 npm i react-router-dom5.3.0二、路由使用 2.1 路由的简单使用第一步在根目录下创建 views 文件夹 ,用于放置路由页面 films.js示例代码 export default functio…...

编程日记 2023/8/20 14:19:23

基于RoCE的应用程序的MTU注意事项

目录基于RoCE的应用程序的MTU注意事项探测网络中的MTU设置概要原文 MTU测试结果 DOC: CentOS安装tshark抓包工具基于RoCE的应用程序的MTU注意事项原文：https://support.mellanox.com/s/article/MLNX2-117-1682kn InfiniBand协议最大传输单元&#xff…...

编程日记 2023/8/20 14:18:22

springboot集成Graphql相关问题汇总

1、idea在debug运行时出现java.lang.NoClassDefFoundError:kotlin/collections/AbstractMutableMap 解决：禁用idea dubugger中kotlin coroutine agent 见：https://stackoverflow.com/questions/70796177/after-the-spring-boot-source-code-is-compile…...

编程日记 2023/8/20 14:17:21

Angular16的路由守卫基础使用

Angular16的路由守卫基础使用使用ng generate guard /guard/login命令生成guard文件因新版Angular取消了CanActivate的使用，改用CanActivateFn，因此使用router跳转需要通过inject的方式导入。 import { inject } from angular/core; import { CanActi…...

编程日记 2023/8/20 14:16:18

leetcode228. 汇总区间

题目给定一个无重复元素的有序整数数组 nums 。返回恰好覆盖数组中所有数字的最小有序区间范围列表。也就是说，nums 的每个元素都恰好被某个区间范围所覆盖，并且不存在属于某个范围但不属于 nums 的数字 x 。列表中的每个区间范围 [a,b]…...

编程日记 2023/8/20 14:15:17

删除有序链表中重复的元素-II（链表）

乌！蒙！山！连！着！山！外！山！ 题目： 思路： 双指针，slow和fast，并且增加标记flag初始为1。如果slow指向节点值等于fast指向节点值&…...

编程日记 2023/8/20 14:14:15

element单独检验form表单中的一项

<el-form-item prop"limitDays" style"margin-left: 5px;"><el-input v-model"ruleForm.limitDays" placeholder"天数" style"width: 100px;" /> </el-form-item> <el-form-item prop"limitCount…...

编程日记 2023/8/20 14:13:14

Webpack node、output.jsonpFunction 配置详解

Webpack node、output.jsonpFunction 配置详解最近尝试给一些用到 webpack 的项目升级到最新 webpack5 版本，其中遇到了一些问题，我挑了两个比较典型的问题，其中主要涉及到了 webpack 的 node 属性跟 output.jsonpFunction （web…...

编程日记 2023/8/20 14:12:11

要跟静音开关说再见了！iPhone15新变革，Action按钮引领方向

有很多传言称iPhone 15 Pro会有很多变化，但其中一个变化可能意味着iPhone体验从第一天起就有的一项功能的终结。我说的是静音开关，它可以让你轻松地打开或关闭iPhone的铃声。根据越来越多的传言，iPhone 15 Pro和iPhone 15 Pro Max将拆除静音…...

编程日记 2023/8/20 14:11:08

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2026/2/8 4:37:17

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2026/1/24 14:59:08

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时，需结合业务场景设计数据流转链路，重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点： 一、核心对接场景与目标商品数据同步场景：将1688商品信息…...

编程新知 2025/11/30 16:55:32

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下，江苏艾立泰以一场跨国资源接力的创新实践，重新定义了绿色供应链的边界。跨国回收网络：废料变黄金的全球棋局艾立泰在欧洲、东南亚建立再生塑料回收点，将海外废弃包装箱通过标准…...

编程新知 2026/1/31 13:42:15

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

编程新知 2025/11/26 13:15:57

docker 部署发现spring.profiles.active 问题

报错： org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...

编程新知 2025/9/20 12:14:18

MySQL的pymysql操作

本章是MySQL的最后一章，MySQL到此完结，下一站Hadoop！！！ 这章很简单，完整代码在最后，详细讲解之前python课程里面也有，感兴趣的可以往前找一下一、查询操作我们需要打开pycharm …...

编程新知 2026/1/20 12:20:43

面试高频问题

文章目录 🚀 消息队列核心技术揭秘：从入门到秒杀面试官1️⃣ Kafka为何能"吞云吐雾"？性能背后的秘密1.1 顺序写入与零拷贝：性能的双引擎1.2 分区并行：数据的"八车道高速公路"1.3 页缓存与批量处理…...

编程新知 2025/11/17 0:00:05

篇章二论坛系统——系统设计

目录 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 1. 数据库设计 1.1 数据库名: forum db 1.2 表的设计 1.3 编写SQL 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体通过需求分析获得概念类并结合业务实现过程中的技术需要&#x…...

编程新知 2026/2/5 5:58:30

无涯教程-TensorFlow - 单词嵌入

Word2vec

相关文章：

无涯教程-TensorFlow - 单词嵌入

Facebook AI mBART：巴别塔的硅解

BDA初级分析——SQL清洗和整理数据

汽车后视镜反射率测定仪

Redis学习笔记

韩顺平Linux 四十四--

【支付宝小程序】分包优化教程

语言基础2 矩阵和数组

springMVC中过滤器抛出异常，自定义异常捕获

图像检索技术研究：深度度量与深度散列在相似性学习中的应用比较与实践 - 使用Python与Jupyter环境

CSS加载失败的6个原因

react之路由的安装与使用

基于RoCE的应用程序的MTU注意事项

springboot集成Graphql相关问题汇总

Angular16的路由守卫基础使用

leetcode228. 汇总区间

删除有序链表中重复的元素-II（链表）

element单独检验form表单中的一项

Webpack node、output.jsonpFunction 配置详解

要跟静音开关说再见了！iPhone15新变革，Action按钮引领方向

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

基于Flask实现的医疗保险欺诈识别监测模型

1688商品列表API与其他数据源的对接思路

【机器视觉】单目测距——运动结构恢复

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

docker 部署发现spring.profiles.active 问题

MySQL的pymysql操作

面试高频问题

篇章二论坛系统——系统设计