当前位置：首页 > news >正文

28、深度学习-自学之路-NLP自然语言处理-做一个完形填空，让机器学习更多的内容程序展示

news 2026/4/29 15:38:35

import sys,random,math
from collections import Counter
import numpy as npnp.random.seed(1)
random.seed(1)
f = open('reviews.txt')
raw_reviews = f.readlines()
f.close()tokens = list(map(lambda x:(x.split(" ")),raw_reviews))#wordcnt = Counter() 这行代码的作用是创建一个 Counter 对象，
# 并将其赋值给变量 wordcnt。Counter 是 Python 标准库 collections 模块中的一个类，
# 它是一种特殊的字典，用于对可哈希对象进行计数。
wordcnt = Counter()for sent in tokens:for word in sent:wordcnt[word] -= 1
vocab = list(set(map(lambda x:x[0],wordcnt.most_common())))
#print(vocab)word2index = {}
for i,word in enumerate(vocab):word2index[word]=iconcatenated = list()
input_dataset = list()
for sent in tokens:sent_indices = list()for word in sent:try:sent_indices.append(word2index[word])concatenated.append(word2index[word])except:""input_dataset.append(sent_indices)
'''
concatenated = np.array(concatenated) 这行代码的主要功能是将 concatenated 对象转换为 NumPy 数组。
NumPy 是 Python 中用于科学计算的一个重要库，np.array() 是 NumPy 提供的一个函数，
它可以将多种类型的对象（如列表、元组等）转换为 NumPy 数组，以便进行高效的数值计算和操作。
'''
concatenated = np.array(concatenated)
'''
random.shuffle(input_dataset) 这行代码的主要功能是对 input_dataset 列表中的元素进行随机打乱顺序的操作。
random 是 Python 的标准库，shuffle 是 random 模块中的一个函数，它会直接修改传入的列表，使其元素顺序随机化。
'''
random.shuffle(input_dataset)alpha, iterations = (0.05, 2)
hidden_size,window,negative = (50,2,5)weights_0_1 = (np.random.rand(len(vocab),hidden_size) - 0.5) * 0.2
weights_1_2 = np.random.rand(len(vocab),hidden_size)*0layer_2_target = np.zeros(negative+1)
layer_2_target[0] = 1
'''
下面的这个程序要表现的东西会很多，请大家慢慢听我描述
程序功能是：
这段 Python 代码定义了一个名为 similar 的函数，其主要目的是找出与给定目标单词（默认是 'beautiful'）
在词向量空间中最相似的 10 个单词。它基于词向量之间的欧几里得距离来衡量单词间的相似度。然后我们怎么找到词向量，然后什么又是欧几里得距离：
先说：词向量。我们都知道当我们对一个神经网络训练完成以后，我们就会得到一组权重。这组权重一般是如果输入层是n个值，隐藏层是m个点。
那么这个权重就是（n，m）的一个numpy矩阵。
对应的权重矩阵的第一行第一列就是我们说的第一个输入元素的词向量。然后我们说一下什么是欧几里得距离，计算公式我知道：
raw_difference = weights_0_1[index] - (weights_0_1[target_index])squared_difference = raw_difference * raw_differencescores[word] = -math.sqrt(sum(squared_difference))使用全部词的词向量值和 beautiful这个词的词向量值进行相减。
然后在把相减后的结果进行平方
然后再把所有的平方的数据相加然后求平方根。
然后   
'''
def similar(target='beautiful'):target_index = word2index[target]scores = Counter()'''for word, index in word2index.items():：遍历 word2index 字典中的每个键值对，word 是单词，index 是该单词在词向量矩阵中的索引。'''for word,index in word2index.items():'''raw_difference = weights_0_1[index] - (weights_0_1[target_index])：计算当前单词的词向量与目标单词的词向量之间的差值。weights_0_1 是一个二维的 NumPy 数组，存储着所有单词的词向量，每一行对应一个单词的词向量。'''raw_difference = weights_0_1[index] - (weights_0_1[target_index])'''squared_difference = raw_difference * raw_difference：对差值向量的每个元素进行平方操作。'''squared_difference = raw_difference * raw_difference'''scores[word] = -math.sqrt(sum(squared_difference))：计算平方和的平方根，得到欧几里得距离，并取其负值作为相似度得分。之所以取负值，是因为 Counter 的 most_common 方法会返回得分最高的元素，而我们希望距离最近（相似度最高）的单词排在前面。'''scores[word] = -math.sqrt(sum(squared_difference))'''most_common(10) 方法会返回 scores 中得分最高的 10 个元素及其得分，以列表形式呈现，列表中的每个元素是一个包含单词和得分的元组。'''return scores.most_common(10)def sigmoid(x):return 1/(1 + np.exp(-x))
#input_dataset = 1
#iterations = 1
for rev_i, review in enumerate(input_dataset * iterations):
#for rev_i, review in enumerate(1 * 1):for target_i in range(len(review)):#for target_i in range(1):# since it's really expensive to predict every vocabulary# we're only going to predict a random subsettarget_samples = [review[target_i]] + list(concatenated \[(np.random.rand(negative) * len(concatenated)).astype('int').tolist()])print("target_samples")print(target_samples)left_context = review[max(0, target_i - window):target_i]right_context = review[target_i + 1:min(len(review), target_i + window)]layer_1 = np.mean(weights_0_1[left_context + right_context], axis=0)layer_2 = sigmoid(layer_1.dot(weights_1_2[target_samples].T))layer_2_delta = layer_2 - layer_2_targetlayer_1_delta = layer_2_delta.dot(weights_1_2[target_samples])weights_0_1[left_context + right_context] -= layer_1_delta * alphaweights_1_2[target_samples] -= np.outer(layer_2_delta, layer_1) * alphaif (rev_i % 250 == 0):sys.stdout.write('\rProgress:' + str(rev_i / float(len(input_dataset)* iterations)) + "   " + str(similar('terrible')))sys.stdout.write('\rProgress:' + str(rev_i / float(len(input_dataset)* iterations)))
print(similar('terrible'))#运行结果
'''
Progress:0.99998
[('terrible', -0.0), #可怕的
('horrible', -2.7898821106802045),  #令人恐惧的
('brilliant', -3.470232426351145),  #明亮的,恒成功的
('pathetic', -3.8372465135492355),  #可怜的
('phenomenal', -3.928297271813787), #非凡的
('mediocre', -3.9289917580116294),  #平庸的
('superb', -3.9764853704721492),    #棒 极 了
('masterful', -4.022889507518986),  #有驾驭能力的
('marvelous', -4.0699092654045375), #了不起的
('bad', -4.220448952264187)]        #坏的
'''

28、深度学习-自学之路-NLP自然语言处理-做一个完形填空，让机器学习更多的内容程序展示

import sys,random,math from collections import Counter import numpy as npnp.random.seed(1) random.seed(1) f open(reviews.txt) raw_reviews f.readlines() f.close()tokens list(map(lambda x:(x.split(" ")),raw_reviews))#wordcnt Counter() 这行代码的…...

编程日记 2025/2/20 3:44:19

【NLP 22、语言模型 language model】

有时候我也想听听，我在你心里，是什么样子 —— 25.1.12 一、什么是语言模型语言是灵活的，也是有规律的了解一门语言的人可以判断一句话是否“合理” 通俗来讲，语言模型用来评价一句话(句子可以看作是字的组合)是否“合理”或…...

编程日记 2025/2/20 3:43:18

刚性平衡机建模

这两个公式是动平衡机中用于描述旋转部件振动行为的动力学方程。它们分别描述了旋转部件在平移振动和扭转振动中的运动规律，用于分析不平衡量对系统的影响。以下是详细解释： 1. 第一个公式：平移振动的动力学方程 M d 2 y d t 2 2 K y 0 m 1…...

编程日记 2025/2/20 3:42:16

【算法】双指针(上)

目录双指针左右指针(对撞指针) 快慢指针移动零双指针解题复写零暴力解题双指针解题(快慢指针) 快乐数双指针解题(快慢指针) 盛最多水的容器暴力解题(会超时) 双指针解题(左右指针) 有效三角形的个数暴力解题双指针解题(左右指针) 双指针常见的双指…...

编程日记 2025/2/20 3:36:07

【Linux Redis】关于用docker拉取Redis后，让虚拟机运行起来redis，并使得其可以连接到虚拟机外的navicat。

步骤一：拉取Redis镜像 docker pull redis 这个命令会下载最新版本的Redis镜像到你的本地Docker仓库中。你也可以指定一个具体的版本号，例如docker pull redis:6.2.6，来拉取特定版本的Redis镜像。如果拉取遇到问题请参考【Linux AnolisOS】关…...

编程日记 2025/2/20 3:35:06

用deepseek学大模型04-模型可视化与数据可视化

deepseek.com: pytorch可视化工具生成神经网络图在 PyTorch 中，可视化神经网络结构的常用工具和方法有以下几种，以下将详细介绍它们的用法： 1. TensorBoard (PyTorch 官方集成) PyTorch 通过 torch.utils.tensorboard 支持 TensorBoard&a…...

编程日记 2025/2/20 3:31:02

一周学会Flask3 Python Web开发-post请求与参数获取

锋哥原创的Flask3 Python Web开发 Flask3视频教程： 2025版 Flask3 Python web开发视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili app.route 装饰器默认只支持get请求。假如我们要让绑定的视图函数支持其他请求方式，我们可以在methods属性里配置…...

编程日记 2025/2/20 3:26:58

第3章 .NETCore核心基础组件：3.1 .NET Core依赖注入

3.1.1 什么是控制反转、依赖注入杨老师在书中进行了一系列的文字阐述，总结一下就是：软件设计模式中有一种叫做【控制反转】的设计模式，而依赖注入是实现这种设计模式的一个很重要的方式。也就是说学习依赖注入，是学习怎样实现控…...

编程日记 2025/2/20 3:25:57

cs*n 网页内容转为html 加入 onenote

csdn上有好用的内容，我们怎么将它们加到 onenote 里吃灰呢。一、创建新html create_html.py import sysdef create_html_file(filename):# 检查是否提供了文件名if not filename:print("请提供HTML文件名")return# 创建HTML内容html_content f"…...

编程日记 2025/2/20 3:21:53

平板作为电脑拓展屏

有线串流（速度更快） spacedesk 打开usb对安卓的连接用usb线直接连接电脑和平板无线串流（延迟高，不推荐） todesk pc和手机端同时下载软件，连接后可以进行远程控制或扩展屏幕 spacedesk 连接到同一个…...

编程日记 2025/2/20 3:19:51

Pytorch实现论文之一种基于扰动卷积层和梯度归一化的生成对抗网络

简介简介：提出了一种针对鉴别器的梯度惩罚方法和在鉴别器中采用扰动卷积，拟解决锐梯度空间引起的训练不稳定性问题和判别器的记忆问题。论文题目：A Perturbed Convolutional Layer and Gradient Normalization based Generative Adversarial Network（一种基于扰动卷积层…...

编程日记 2025/2/20 3:18:50

关系数据库标准语言SQL

1.SOL称为结构化查询语言，它是由1974年由Boyce和Chamberlin提出的，1975年至1979年IBM公司的San Jose Research Laboratory研制了关系数据库管理系统的原型系统SystemR,并实现了这种语言。 2.SQL(Structured Ouery Language)称为结构化查询语言 3.SQL数…...

编程日记 2025/2/20 3:14:45

AI工具篇：利用DeepSeek+Kimi 辅助生成综述汇报PPT

随着科研和学术报告需求的增加，如何高效地准备一份结构清晰、内容充实的PPT已成为许多研究者的挑战。传统的PPT制作过程繁琐，需要大量文献收集、数据分析和设计工作，而AI工具能够帮助提升效率，减少重复劳动。本文将介绍如何使用…...

编程日记 2025/2/20 3:13:43

学习总结2.18

在原本基本的数船的基础上，增加了船不能畸形的要求，船只能是矩形，由此需要在dfs找船前确定是否有畸形船 .* ** *. ** ** .* ** *. 出现畸形船的情况如上图，即两艘船有一个交集时，此时就可以判断出bad pl…...

编程日记 2025/2/20 3:05:35

electron下载文件，弹窗选择下载路径，并通知下载进度

1：在window.js中引入session import { app, BrowserWindow, ipcMain, dialog, shell, session } from electron; 2：发送下载请求 // 在主进程监听渲染进程发送的 start-download 事件ipcMain.on(start-download, async (event, downloadUrl) > {l…...

编程日记 2025/2/20 3:04:34

【Docker】容器被停止/删除的方式及命令：全面解析与实践指南

文章目录引言一、容器的生命周期二、停止容器的命令及方式1. docker stop 命令2. docker kill 命令3. docker pause 和 docker unpause 命令4. docker restart 命令三、删除容器的命令及方式1. docker rm 命令2. docker container prune 命令3. docker rm 与 docker rmi 的区…...

编程日记 2025/2/20 2:54:23

线上就医全流程医药机构接入文档接口代码-医保就医接口php-demo版本

2025年2月18日11:28:03 国密算法开发库推荐 lpilp/guomi 我测试过php 7.2 - 8.0都可以兼容，如果有能力可以自己开发目前已经开发了核心的接口的测试demo,并且封装了工具类直接写业务逻辑即可，并且已经有线上项目在使用，如果需要demo代码可…...

编程日记 2025/2/20 2:52:20

缓存三大问题及其解决方案

缓存三大问题及其解决方案 1. 前言在现代系统架构中，缓存与数据库的结合使用是一种经典的设计模式。为了确保缓存中的数据与数据库中的数据保持一致，通常会给缓存数据设置一个过期时间。当系统接收到用户请求时，首先会访问缓存。如果缓…...

编程日记 2025/2/20 2:50:18

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述大型语言模型（LLM，Large Language Model）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好。微调是迁移…...

编程日记 2025/2/20 2:47:15

LabVIEW的吞雨测控系统

本案例介绍了一种基于LabVIEW开发的吞雨测控系统，该系统通过建模仿真分析不同控制器模式下的阶跃信号响应，从而选择了最适合的控制器。为了有效解决在控制流量过程中出现的振荡收敛和流量信号大扰动问题，系统采用了改进的积分分离PID算法&…...

编程日记 2025/2/20 2:45:13

打卡信奥刷题（3186）用C++实现信奥题 P8052 [ZYOI Round1] Truth/真心话大冒险

P8052 [ZYOI Round1] Truth/真心话大冒险题目背景注意：请勿恶意提交代码，浪费评测资源。一群人参加了聚会，在玩“真心话大冒险”。题目描述 Charlie 现在盯上了一个人 Percy，Ta 打算找出 Percy 对于 nnn 个异性的好感度的排名…...

编程新知 2026/4/29 14:03:43

互联网大厂Java求职者面试：从核心语言到微服务的全景探讨

互联网大厂Java求职者面试：从核心语言到微服务的全景探讨在互联网大厂的Java开发岗位面试中，候选人燕双非与面试官进行了一场精彩的对话。面试官严肃而专业，而燕双非则以幽默风趣的方式应对各种技术问题。以下是他们的对话记录：第…...

编程新知 2026/4/29 11:57:15

Bluesky 24小时全网瘫痪深度解析：伊朗API层DDoS攻击与去中心化平台的安全困局

前言 2026年4月15日深夜，一场突如其来的大规模网络攻击让全球增长最快的去中心化社交平台Bluesky陷入了成立以来最严重的服务危机。在短短24小时内，全球4370万用户无法刷新信息流、接收通知、发布内容或使用搜索功能，平台几乎完全瘫痪。此次攻…...

编程新知 2026/4/29 11:12:56

终极指南：3步永久备份QQ空间青春记忆的Python神器

终极指南：3步永久备份QQ空间青春记忆的Python神器【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory GetQzonehistory是一款专业的QQ空间数据备份工具，能够帮助您完…...

编程新知 2026/4/29 11:10:50

3步掌握OpenPLC Editor：工业自动化编程的免费开源完整解决方案

3步掌握OpenPLC Editor：工业自动化编程的免费开源完整解决方案【免费下载链接】OpenPLC_Editor 项目地址: https://gitcode.com/gh_mirrors/ope/OpenPLC_Editor 你是否曾为高昂的PLC编程软件费用而烦恼？或者面对复杂的工业控制系统感到无从下手…...

编程新知 2026/4/29 11:06:31

别再乱码了！手把手教你用Qt Linguist（Qt语言家）搞定VS项目的中英文翻译

彻底解决Qt多语言乱码：VS项目国际化全流程实战指南在跨语言桌面应用开发中，乱码问题堪称开发者噩梦。当你的中文界面在Qt Linguist中显示为"烫烫烫"，或者翻译后的文字变成问号方块时，这种挫败感足以让任何开发者抓狂。…...

编程新知 2026/4/29 10:39:23

OpenClaw-Suite：多模态AI自动化工具箱架构解析与实战部署

1. 项目概述：一个面向多模态AI自动化的工具箱如果你正在寻找一个能帮你把AI能力“塞”进QQ、微信、Telegram等日常聊天工具，并且还能处理图片、语音、文件，甚至能自己跑定时任务的“瑞士军刀”级项目，那么 openclaw-suite 值得…...

编程新知 2026/4/29 9:34:14

AI应用开发统一SDK设计：适配器模式与多模型抽象实践

1. 项目概述：一个面向AI应用开发的通用SDK集合最近在整理自己的AI项目工具箱时，发现了一个挺有意思的仓库，叫做 runanywhere-sdks 。这个名字起得挺直白，翻译过来就是“随处运行AI的软件开发工具包”。乍一看，你可能…...

编程新知 2026/4/29 9:06:16

AI超级员工：让企业获客效率飙升3倍的AI客户挖掘工具全解析

在当今流量红利见顶、人力成本持续攀升的商业环境下，企业营销正面临前所未有的挑战。传统的销售团队模式不仅需要承担高昂的招人、培训与留人成本，更难以应对瞬息万变的市场节奏。对于中小商家和初创企业而言，如何在有限的预算内实现精准获客…...

编程新知 2026/4/29 8:52:38

DeepSeek 量化交易实战：用标准化提示词模板实现 AI 辅助交易决策

前言随着大模型技术的快速发展，AI 辅助交易已经从概念走向实战。但绝大多数投资者都面临同一个问题：不知道怎么写提示词才能让大模型给出专业、可执行的交易决策。要么得到的建议空泛无用，要么不符合 A 股市场的交易规则，甚至出现…...

编程新知 2026/4/29 6:57:07

相关文章：