当前位置: 首页 > news >正文

机器学习——词向量模型(CBOW代码实现-未开始)

本来是不打算做这个CBOW代码案例的,想快马加鞭看看前馈神经网络
毕竟书都买好了
可是…可是…我看书的时候,感觉有点儿困难,哭的很大声…
感觉自己脑细胞可能无法这么快接受
要不,还是退而求个稍微难度没那么大的事,想想自己还有什么是没实现的呢
哦!CBOW的案例还没做呢~
在一个巨人面前,我无耻地选择了暂避其锋芒
就好像,我本应该英勇地迈过刀山火海,可是我却怂了
而且,怂的有理有据:CBOW还没实现呢
只希望,CBOW案例,不要太难,不然我根本寸步难行,只能天天打游戏聊以自慰

首先,我计划做一个客服预料包,然后用CBOW去预测某个中间关键词

目标明确后,问题接踵而至

问题1-能否用中文语料:不行,因为中文分词很麻烦,我懒得去搞分词,重点是CBOW
英文语料很简单,因为英文是一个词跟另一个词,用空格分开,获取十分简单

问题2-头尾单词怎么解决:毕竟CBOW是获取关键词的前c个和后c个单词来训练的,但开头单词没有前c个单词,末尾单词没有后c个单词
解决办法:用额外的单词替代,比如None,应该问题不大的吧

问题3-按句还是按所有句取上下文:如果是按句取上下文,那么一个句子开头和末尾单词的下文就是None,语料文件有很多个句子,就会有很多个None。
如果按所有句取上下文,那整个语料文件就只有开头有None,末尾有None,None数量很少
解决办法:还是按句吧,毕竟两句之间的上下文,是毫无关系的。

按照【基于HierarchicalSoftmax的CBOW】正反向传播流程,来设计程序吧!

【基于HierarchicalSoftmax的CBOW】正向传播过程

  • 输入层:
    • 转换独热编码:将词典D转换为one-hot独热编码,
    • 获取上下文:按规定上下文的长度k,来截取语库C里的上下文单词 x x x和预测单词 y ∗ y* y
    • 获取独热编码:获取上下文单词x的独热编码向量 x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4,作为初始输入矩阵X=[ x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4]
  • 投影层:
    • 计算中间向量:
      • 将初始矩阵X乘以一个权重矩阵W,提取出各个初始向量 x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4的权重系数 w 1 w1 w1 w 2 w2 w2 w 3 w3 w3 w 4 w4 w4
      • 将这些权重系数加和,作为中间向量h=[ w 1 w1 w1+ w 2 w2 w2+ w 3 w3 w3+ w 4 w4 w4],注意,这里的加和是按列加和
  • 输出层:
    • 构建huffman树,
    • 计算路径概率
    • 计算预测模型

相关文章:

机器学习——词向量模型(CBOW代码实现-未开始)

本来是不打算做这个CBOW代码案例的,想快马加鞭看看前馈神经网络 毕竟书都买好了 可是…可是…我看书的时候,感觉有点儿困难,哭的很大声… 感觉自己脑细胞可能无法这么快接受 要不,还是退而求个稍微难度没那么大的事,想…...

智慧海岛/海域方案:助力海洋空间智慧化、可视化管理

随着我国海洋经济的快速发展,海域海岛的安防技术也获得了进步。传统的安防监控模式已经满足不了海域海岛的远程监管需求。伴随着人工智能、边缘计算、大数据、通信传输技术、视频技术、物联网等信息化技术的发展,海岛海域在监管手段上,也迎来…...

Bin、Hex、ELF、AXF的区别

1.Bin Bin文件是最纯粹的二进制机器代码, 或者说是"顺序格式"。按照assembly code顺序翻译成binary machine code,内部没有地址标记。Bin是直接的内存映象表示,二进制文件大小即为文件所包含的数据的实际大小。 BIN文件就是直接的二进制文件&…...

IDEA安装教程

文章目录 1 下载IntelliJ IDEA2 安装3 IDEA配置4 创建项目 1 下载IntelliJ IDEA ​ 官方网站上下载最新版本的IntelliJ IDEA。官方网站提供了两个版本:Community版和Ultimate版。 Community版是免费的,适用于个人和非商业用途。Ultimate版则需要付费购…...

DRF-项目-(1):构建纯净版的drf项目,不再使用django的后台管理,django的认证,django的session等功能,作为一个纯接口项目

项目的目录结构: -HeartFailure |-- apps |--user |--HeartFailure |-- static |--manage.py 一、django项目相关的 1、命令行中创建django项目 #1、切换到指定的虚拟环境中 workon my_drf#2、该虚拟环境已经安装好django和rest_framework了 django-admin startp…...

ubuntu 手动清理内存cache

/proc是一个虚拟文件系统,我们可以通过对它的读写操作来做为与kernel实体间进行通信的一种手段。也就是说可以通过修改/proc中的文件,来对当前kernel的行为做出调整。 那么我们可以通过调整/proc/sys/vm/drop_caches来释放内存。操作如下: …...

gitBash中如何使用Linux中的tree命令

文章目录 在gitBash中安装tree的目的如何安装安装完成,就可以直接完美适配Linux系统了 在gitBash中安装tree的目的 如下图,powershell虽然可以看做是window下的Linux系统,但是根本就不适配很多Linux中的命令 如何安装 tree.exe安装网址 下载 tree 命令的 二进制包&#xf…...

【鸿蒙应用ArkTS开发系列】- 灌水区,鸿蒙ArkTs开发有问题可以在该帖中反馈

大家好, 这是一篇水贴,给大家提供一个交流沟通鸿蒙开发遇到问题的地方。 新增新增这个文章呢,大家在开发使用ArkTS开发鸿蒙应用或者鸿蒙服务的时候,有遇到疑问或者问题,可以在本文章评论区提问,我看到了如果知道怎么…...

c语言习题1124

分别定义函数求圆的面积和周长。 写一个函数,分别求三个数当中的最大数。 写一个函数,计算输入n个数的乘积 一个判断素数的函数,在主函数输入一个整数,输出是否为素数的信息 写一个函数求n! ,利用该函数求1!2&…...

线段树---数据结构学习

线段树的教程可以参照线段树 这里推荐 https://oi-wiki.org/ 这个网站,数据结构讲的非常透。 线段树学了很多次忘了很多次,这次打算记录一下以后方便回顾(leetcode这类题遇见的不算特别多)。 样板例题 leltcode-307 #题目样板 class NumArray {private …...

linux基础5:linux进程1(冯诺依曼体系结构+os管理+进程状态1)

冯诺依曼体系结构os管理 一.冯诺依曼体系结构:1.简单介绍(准备一)2.场景:1.程序的运行:2.登录qq发送消息: 3.为什么需要内存:1.简单的引入:2.计算机存储体系:3.内存的意义…...

JVM-基础

jdk7及以前: 通过-XX:PermSize 来设置永久代初始分配空间,默认值是20.75m -XX:MaxPermSize来设定永久代最大可分配空间,32位是64m,64位是82m jdk8及之后: 通过-XX:MetaspaceSize 来设置永久代初始分配空间&#xff…...

Baidu Comate 基于百度文心一言的智能编码助手

本心、输入输出、结果 文章目录 Baidu Comate 基于百度文心一言的智能编码助手前言产品能力主要功能特性JetBrains IntelliJ IDEA 插件安装相关链接花有重开日,人无再少年实践是检验真理的唯一标准Baidu Comate 基于百度文心一言的智能编码助手 编辑:简简单单 Online zuozuo …...

基本微信小程序的图书馆座位管理系统

项目介绍 图书馆因有良好的学习氛围、大量的学习资源吸引大家前来学习,图书馆还未开馆就有大量的用户在门口排队等待,有限的座位与日益增加的自主学习者之间形成了供不应求的现象,再加上不了解图书馆的座位使用情况和恶意占座等现象,使得有限的学习座位越发紧张。本团队针对此…...

2023年亚太杯数学建模A题水果采摘机器人的图像识别功能(免费思路)

中国是世界上最大的苹果生产国,年产量约为 3500 万吨。同时,中国也是世界上最大的苹果出口国,世界上每两个苹果中就有一个出口到国。世界上每两个苹果中就有一个来自中国,中国出口的苹果占全球出口量的六分之一以上。来自中国。中…...

AWS CLI和EKSCTL的客户端设置

文章目录 小结过程安装AWS CLI安装EKSCTL在两个Kubernetes Cluster之间切换 参考 小结 在Linux环境中对AWS CLI和EKSCTL的客户端进行了设置。 过程 安装AWS CLI 使用以下指令安装: curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip"…...

分组背包问题学习笔记 AcWing 9. 分组背包问题

原题 有 N� 组物品和一个容量是 V� 的背包。 每组物品有若干个,同一组内的物品最多只能选一个。 每件物品的体积是 vij���,价值是 wij���,其中 …...

JSP EL 算数运算符逻辑运算符

除了 empty 我们这边还有一些基本的运算符 第一种 等等于 jsp代码如下 <% page contentType"text/html; charsetUTF-8" pageEncoding"UTF-8" %> <%request.setCharacterEncoding("UTF-8");%> <!DOCTYPE html> <html> …...

ubuntu22.04 arrch64版在线安装node

脚本 #安装node#下载node、npm国内镜像&#xff08;推荐&#xff09;# 判断是否安装了nodeif type -p node; thenecho "node has been installed."elsemkdir -p /home/zenglg cd /home/zenglgwget https://registry.npmmirror.com/-/binary/node/v10.14.1/node-v10.…...

腾讯云轻量数据库开箱测评,1核1G轻量数据库测试

腾讯云轻量数据库1核1G开箱测评&#xff0c;轻量数据库服务采用腾讯云自研的新一代云原生数据库TDSQL-C&#xff0c;轻量数据库兼100%兼容MySQL数据库&#xff0c;实现超百万级 QPS 的高吞吐&#xff0c;128TB海量分布式智能存储&#xff0c;虽然轻量数据库为单节点架构&#x…...

别光看手册了!实战教你用Synopsys AXI VIP的Port Monitor搭建高效Scoreboard

实战指南&#xff1a;用Synopsys AXI VIP的Port Monitor构建高可靠Scoreboard 在复杂SoC验证环境中&#xff0c;AXI总线事务的准确捕获与高效比对是验证工程师面临的核心挑战之一。许多工程师虽然熟悉Synopsys AXI VIP的基本用法&#xff0c;却在将其深度集成到验证环境时遇到瓶…...

终极免费模组管理器:RimSort帮你3步解决RimWorld模组冲突难题

终极免费模组管理器&#xff1a;RimSort帮你3步解决RimWorld模组冲突难题 【免费下载链接】RimSort RimSort is an open source mod manager for the video game RimWorld. There is support for Linux, Mac, and Windows, built from the ground up to be a reliable, communi…...

智能体失效分析:种子值与温度参数的关键作用

1. 智能体失效现象的本质剖析在自动化决策系统开发过程中&#xff0c;我们经常遇到一个令人困惑的现象&#xff1a;精心设计的智能体&#xff08;Agent&#xff09;在运行初期表现良好&#xff0c;但随着时间推移却逐渐偏离预期目标&#xff0c;最终完全失效。这种现象在强化学…...

EdgeChains:基于JVM构建可推理LLM应用的生产级框架

1. 项目概述&#xff1a;当大语言模型需要“记忆”与“逻辑”如果你最近在尝试基于大语言模型&#xff08;LLM&#xff09;构建应用&#xff0c;比如一个智能客服、一个文档问答系统&#xff0c;或者一个创意写作助手&#xff0c;你很可能已经遇到了两个核心的“天花板”&#…...

3分钟快速上手:免费解锁网易云音乐NCM格式的完整指南

3分钟快速上手&#xff1a;免费解锁网易云音乐NCM格式的完整指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的歌曲只能在特定客户端播放而烦恼吗&#xff1f;ncmdump是你需要的终极解决方案&#xff01;这…...

Nordic nRF7002 EBII Wi-Fi 6扩展板解析与应用

1. Nordic nRF7002 EBII Wi-Fi 6扩展板深度解析作为Nordic Semiconductor最新推出的Wi-Fi 6扩展解决方案&#xff0c;nRF7002 EBII代表了低功耗物联网设备无线连接技术的重要演进。这款扩展板专为nRF54L系列开发套件设计&#xff0c;在原有nRF7002基础上实现了多项关键升级。提…...

统计学习与机器学习:差异、联系与融合实践

1. 应用统计与机器学习的紧密关系解析作为一名长期在数据科学领域工作的实践者&#xff0c;我经常被问到统计学与机器学习之间的区别与联系。这两个领域确实有着千丝万缕的联系&#xff0c;但各自又保持着独特的视角和方法论。简单来说&#xff0c;机器学习更关注算法实现和预测…...

2026年必逛!口碑爆棚的厦门特产网红店铺,究竟藏着啥美味?

在闽台特产批发行业中&#xff0c;厦门有着众多值得探索的宝藏店铺&#xff0c;其中八市闽台特产批发凭借良好的口碑成为游客和本地人的心头好。下面我们就来深入了解闽台特产批发相关内容&#xff0c;包括具体品类、行业现状以及采购批发实操建议等。一、闽台特产具体品类&…...

机器学习数据预处理:数据标准化(Z-Score)

机器学习数据预处理&#xff1a;数据标准化&#xff08;Z-Score&#xff09;超通俗全解 数据标准化是**把所有特征统一变成“均值为0&#xff0c;标准差为1”**的最经典预处理方法&#xff0c;彻底解决量纲不一致、数值差距大的问题&#xff0c;所有对尺度敏感的模型都必须做。…...

R语言向量操作全解析:从基础到实战应用

1. 向量&#xff1a;R语言的数据基石 第一次打开RStudio时&#xff0c;你可能被各种数据类型搞得晕头转向。但相信我&#xff0c;只要掌握了向量这个核心概念&#xff0c;就等于拿到了打开R语言大门的钥匙。作为R中最基础也最重要的数据结构&#xff0c;向量就像乐高积木的单个…...