当前位置：首页 > news >正文

pytorch实现文本摘要

news 2026/4/2 7:10:12

人工智能例子汇总：AI常见的算法和例子-CSDN博客

import numpy as npfrom modelscope.hub.snapshot_download import snapshot_download
from transformers import BertTokenizer, BertModel
import torch# 下载模型到本地目录
model_dir = snapshot_download('tiansz/bert-base-chinese', cache_dir='./bert-base-chinese')
print(f"模型已下载到: {model_dir}")# 本地模型路径
model_path = model_dir  # 使用下载的模型路径# 从本地加载分词器和模型
tokenizer = BertTokenizer.from_pretrained(model_path)
model = BertModel.from_pretrained(model_path)def get_sentence_embeddings(text):"""获取输入文本的句子级别嵌入（BERT模型的输出）用于摘要任务"""inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)with torch.no_grad():outputs = model(**inputs)# 获取最后一层的[CLS] token的嵌入向量作为句子的表示return outputs.pooler_output.detach().numpy()def summarize(text, num_sentences=3):"""使用抽取式摘要从输入文本中提取最重要的句子"""sentences = text.split("。")  # 以句号分割句子sentence_embeddings = []for sentence in sentences:embedding = get_sentence_embeddings(sentence)sentence_embeddings.append(embedding)# 使用句子得分来排序sentence_scores = np.array([embedding[0][0] for embedding in sentence_embeddings])ranked_sentences = [sentences[i] for i in sentence_scores.argsort()[-num_sentences:][::-1]]# 返回排名靠前的句子return "。".join(ranked_sentences)# 示例中文文本
text = """
机器学习（Machine Learning，简称 ML）是人工智能（AI）领域的一个分支，重点研究开发能够使计算机在没有明确编程指令的情况下进行任务的算法和统计模型。机器学习通过从数据中学习，识别模式，并根据少量人为干预做出决策。 
近年来，深度学习（Deep Learning）作为机器学习的一个子集，取得了显著的进展，尤其是在计算机视觉、自然语言处理和语音识别等领域。 
深度学习技术使用多层神经网络结构，能够通过处理大量的数据来自动提取特征，从而提高机器学习的性能。 
目前，人工智能已经在多个行业中得到广泛应用，包括医疗健康、金融、自动驾驶等领域。
"""# 获取摘要
summary = summarize(text)
print("原文：\n", text)
print("\n摘要：\n", summary)

～困了🥱，通宵写了一个晚上

结果：

Downloading Model to directory: ./bert-base-chinese/tiansz/bert-base-chinese
模型已下载到: ./bert-base-chinese/tiansz/bert-base-chinese
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
原文：机器学习（Machine Learning，简称 ML）是人工智能（AI）领域的一个分支，重点研究开发能够使计算机在没有明确编程指令的情况下进行任务的算法和统计模型。机器学习通过从数据中学习，识别模式，并根据少量人为干预做出决策。 
近年来，深度学习（Deep Learning）作为机器学习的一个子集，取得了显著的进展，尤其是在计算机视觉、自然语言处理和语音识别等领域。 
深度学习技术使用多层神经网络结构，能够通过处理大量的数据来自动提取特征，从而提高机器学习的性能。 
目前，人工智能已经在多个行业中得到广泛应用，包括医疗健康、金融、自动驾驶等领域。摘要：目前，人工智能已经在多个行业中得到广泛应用，包括医疗健康、金融、自动驾驶等领域。机器学习通过从数据中学习，识别模式，并根据少量人为干预做出决策。 
深度学习技术使用多层神经网络结构，能够通过处理大量的数据来自动提取特征，从而提高机器学习的性能

pytorch实现文本摘要

人工智能例子汇总：AI常见的算法和例子-CSDN博客 import numpy as npfrom modelscope.hub.snapshot_download import snapshot_download from transformers import BertTokenizer, BertModel import torch# 下载模型到本地目录 model_dir snapshot_download(tians…...

编程日记 2025/2/3 8:49:41

C++基础day1

前言：谢谢阿秀，指路阿秀的学习笔记一、基础语法 1.构造和析构: 类的构造函数是一种特殊的函数，在创建一个新的对象时调用。类的析构函数也是一种特殊的函数，在删除所创建的对象时调用。构造顺序：父类->子类析…...

编程日记 2025/2/3 8:47:39

从TinyZero的数据与源码来理解DeepSeek-R1-Zero的强化学习训练过程

1. 引入 TinyZero（参考1）是伯克利的博士生复现DeepSeek-R1-Zero的代码参仓库，他使用veRL来运行RL强化学习方法，对qwen2.5的0.5B、1.5B、3B等模型进行训练，在一个数字游戏数据集上，达到了较好的推理效果。 …...

编程日记 2025/2/3 8:46:37

爬虫基础（四）线程和进程及相关知识点

目录一、线程和进程 （1）进程 （2）线程 （3）区别二、串行、并发、并行 （1）串行 （2）并行 （3）并发三、爬虫中的线程和进程 &am…...

编程日记 2025/2/3 8:45:34

【自开发工具介绍】SQLSERVER的ImpDp和ExpDp工具01

1、开发背景大家都很熟悉，Oracle提供了Impdp和ExpDp工具，功能很强大，可以进行db的导入导出的处理。但是对于Sqlserver数据库只是提供了简单的图形化的导出导入工具，在实际的开发和生产环境不太可能让用户在图形化的界面选择移行…...

编程日记 2025/2/3 8:40:27

队列—学习

1. 手写队列的实现使用数组实现队列是一种常见的方法。队列的基本操作包括入队（enqueue）和出队（dequeue）。队列的头部和尾部分别用 head 和 tail 指针表示。代码实现 const int N 10000; // 定义队列容量，确保够…...

编程日记 2025/2/3 8:39:25

SpringBoot的配置(配置文件、加载顺序、配置原理)

文章目录 SpringBoot的配置(配置文件、加载顺序、配置原理)一、引言二、配置文件1、配置文件的类型1.1、配置文件的使用 2、多环境配置三、加载顺序四、配置原理五、使用示例1、配置文件2、配置类3、控制器六、总结 SpringBoot的配置(配置文件、加载顺序、配置原理) 一、引言…...

编程日记 2025/2/3 8:32:19

如何本地部署DeepSeek？DeepThink R1 本地部署全攻略：零基础小白指南。

🚀 离线运行 AI，免费使用 OpenAI 级别推理模型本教程将手把手教你如何在本地部署 DeepThink R1 AI 模型，让你无需联网就能运行强大的 AI 推理任务。无论你是AI 新手还是资深开发者，都可以轻松上手！ 📌 目录…...

编程日记 2025/2/3 8:31:15

陆游的《诗人苦学说》：从藻绘到“功夫在诗外”（中英双语）mastery lies beyond poetry

陆游的《诗人苦学说》：从藻绘到“功夫在诗外” 今天看万维钢的《万万没想到》一书，看到陆游的功夫在诗外的句子，特意去查找这首诗的原文。故而有此文。我国学人还往往过分强调“功夫在诗外”这句陆游的名言，认为提升综合素质是一…...

编程日记 2025/2/3 8:29:11

Golang —协程池（panjf2000/ants/v2）

Golang —协程池（panjf2000/ants/v2） 1 ants1.1 基本信息1.2 ants 是如何运行的（流程图） 1 ants 1.1 基本信息代码地址：github.com/panjf2000/ants/v2 介绍：ants是一个高性能的 goroutine 池&#xff0c…...

编程日记 2025/2/3 8:27:07

在 crag 中用 LangGraph 进行评分知识精炼-下

在上一次给大家展示了基本的 Rag 检索过程，着重描述了增强检索中的知识精炼和补充检索，这些都是 crag 的一部分，这篇内容结合 langgraph 给大家展示通过检索增强生成（Retrieval-Augmented Generation, RAG）的工作流&am…...

编程日记 2025/2/3 8:26:04

基于springboot+vue的哈利波特书影音互动科普网站

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…...

编程日记 2025/2/3 8:25:03

Cypher入门

文章目录 Cypher入门创建数据查询数据matchoptional matchwhere分页with 更新数据删除数据实例：好友推荐 Cypher入门 Cypher是Neo4j的查询语言。创建数据在Neo4j中使用create命令创建节点、关系、属性数据。 create (n {name:$value}) return n //创建节点&am…...

编程日记 2025/2/3 8:19:58

使用Z-score进行数据特征标准化

数据标准化是数据处理过程中非常重要的一步，尤其在构建机器学习模型时尤为关键。标准化的目的是将不同量纲的变量转换到相同的尺度，以避免由于量纲差异导致的模型偏差。Z-score标准化是一种常见且简单的标准化方法，它通过计算数据点与平均值的差异，并将其按标准差进行缩放，…...

编程日记 2025/2/3 8:16:54

初级数据结构:栈和队列

一、栈 (一)、栈的定义栈是一种遵循后进先出（LIFO，Last In First Out）原则的数据结构。栈的主要操作包括入栈（Push）和出栈（Pop）。入栈操作是将元素添加到栈顶，这一过程中&#xf…...

编程日记 2025/2/3 8:13:50

【思维导图】java

学习计划：将目前已经学的知识点串成一个思维导图。在往后的学习过程中，不断往思维导图里补充，形成自己整个知识体系。对于思维导图里的每个技术知识，自己用简洁的话概括出来， 训练自己的表达能力。面向对象三大特性 …...

编程日记 2025/2/3 8:09:46

Redis脑裂问题详解及解决方案

Redis是一种高性能的内存数据库，广泛应用于缓存、消息队列等场景。然而，在分布式Redis集群中，脑裂问题（Split-Brain）是一个需要特别关注的复杂问题。本文将详细介绍Redis脑裂问题的成因、影响及解决方案。一、什么是…...

编程日记 2025/2/3 8:06:43

玩转大语言模型——配置图数据库Neo4j（含apoc插件）并导入GraphRAG生成的知识图谱

系列文章目录玩转大语言模型——使用langchain和Ollama本地部署大语言模型玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama视觉多模态语言模型玩转大语言模型——使用GraphRAGOllama构建知识图谱玩转大语言模型——完美解决Gra…...

编程日记 2025/2/3 8:05:41

【Windows Server实战】生产环境云和NPS快速搭建

前置条件本文假定你已达成以下前提条件： 有域控DC。有证书服务器（AD CS）。已使用Microsoft Intune或者GPO为客户机申请证书。服务器上至少有两张网卡（如果用虚拟机做的测试环境，可以用一张HostOnly网卡做测试&#…...

编程日记 2025/2/3 7:55:24

[ESP32:Vscode+PlatformIO]新建工程常用配置与设置

2025-1-29 一、新建工程选择一个要创建工程文件夹的地方，在空白处鼠标右键选择通过Code打开打开Vscode，点击platformIO图标，选择PIO Home下的open，最后点击new project 按照下图进行设置第一个是工程文件夹的名称第二个是…...

编程日记 2025/2/3 7:54:18

HunyuanVideo-Foley效果评测：与AudioLDM、MERT等主流音效模型横向对比

HunyuanVideo-Foley效果评测：与AudioLDM、MERT等主流音效模型横向对比 1. 评测背景与测试环境 1.1 评测目标本次评测旨在对比HunyuanVideo-Foley与当前主流音效生成模型（AudioLDM、MERT）在音效质量、生成速度、资源占用等方面的表现。测试…...

编程新知 2026/4/2 6:58:50

2.2.2.2 使用Spark单机版环境

本次实战深入探索Spark单机版环境的核心功能。首先运行SparkPi示例程序计算圆周率，验证集群计算能力；随后启动spark-shell进入交互式环境，完成等差数列求和、九九乘法表打印等基础任务。重点通过Scala代码操作RDD，演示了从文本文件…...

编程新知 2026/4/2 5:31:49

AI在测试中的应用：从测试用例生成到缺陷预测

随着软件开发流程向敏捷与DevOps的持续演进，软件测试面临着迭代周期缩短、系统复杂度飙升的双重压力。传统的测试方法，高度依赖人工经验与重复劳动，在效率、覆盖率和预测性上逐渐显现瓶颈。人工智能技术的引入，正从辅助工具演变为…...

编程新知 2026/4/2 3:27:38

2026顶空气体分析仪TOP5|权威评测与选购指南

顶空气体分析仪，又叫顶空残氧仪，主要用于测量封闭容器中顶部空间氧气与二氧化碳的浓度。随着市场需求越来越大，市面上品牌五花八门，新手选购易踩雷、难抉择。本次榜单严格遵循客观数据真实口碑原则，综合公司背景、技术…...

编程新知 2026/4/2 2:24:47

腾讯云轻量服务器+宝塔面板：新手零代码搭建个人网站的保姆级避坑指南

腾讯云轻量服务器宝塔面板：新手零代码搭建个人网站的保姆级避坑指南你是否曾经想过拥有一个属于自己的网站，却因为不懂代码和服务器运维而望而却步？现在，即使你没有任何技术背景，也能轻松实现这个梦想。本文将带你一步…...

编程新知 2026/4/2 1:20:10

2026年4月怎么搭建OpenClaw？腾讯云小白1分钟部署及百炼APIKey配置步骤

2026年4月怎么搭建OpenClaw？腾讯云小白1分钟部署及百炼APIKey配置步骤。OpenClaw（原Clawdbot）作为2026年主流的AI自动化助理平台，可通过阿里云轻量服务器实现724小时稳定运行，并快速接入钉钉，让AI在企业群聊…...

编程新知 2026/4/2 0:39:11

Ant Design X：AI赋能前端开发的革命性工具

1. Ant Design X：当设计系统遇上AI会发生什么？ 第一次听说Ant Design X时，我正在为一个电商项目焦头烂额地调试聊天机器人组件。传统方案需要自己对接NLP服务、处理对话状态、设计交互逻辑...直到同事扔给我一个链接："试试这…...

编程新知 2026/4/2 0:00:43

告别原生IDE！用HBuilderX 3.6.8+和UTS插件5分钟搞定安卓Toast功能

5分钟解锁安卓Toast：HBuilderXUTS插件的高效开发实战还在为Android Studio的臃肿和配置繁琐头疼？UniApp开发者现在有了更优雅的选择。想象一下：用熟悉的TypeScript语法直接调用原生API，无需切换开发环境，5分钟实现安卓…...

编程新知 2026/4/1 23:34:19

深入Fly-By拓扑：为什么你的LPDDR4必须做Write Leveling？一次讲清时钟与数据对齐的核心原理

深入Fly-By拓扑：为什么你的LPDDR4必须做Write Leveling？一次讲清时钟与数据对齐的核心原理在4266 Mbps的高速数据传输场景下，LPDDR4内存子系统如同一条需要精确调谐的八车道高速公路。当信号传输速率突破4GT/s时，皮秒级的时序偏差…...

编程新知 2026/4/1 23:16:05

GLM-OCR完整教程：部署、使用、API、案例，一篇搞定所有

GLM-OCR完整教程：部署、使用、API、案例，一篇搞定所有 1. GLM-OCR简介与核心优势 GLM-OCR是一款基于先进多模态架构的OCR识别工具，专为解决复杂文档理解问题而设计。与市面上大多数OCR工具不同，它不仅能识别文字，还能…...

编程新知 2026/4/1 22:00:53

相关文章：