利用ML.NET精准提取人名
在当今信息爆炸的时代,文本处理任务层出不穷,其中人名提取作为基础且重要的工作,广泛应用于信息检索、社交网络分析、客户关系管理等领域。随着人工智能不断进步,ML.NET作为微软推出的开源机器学习框架,为开发者提供了高效、便捷的工具来实现人名提取功能,极大地提升了开发效率与模型的准确性。
一、理解需求与数据准备
首先,明确任务的目标十分重要。人名提取的主要任务是从各类文本中识别出人名。这些文本可以来源于新闻报道、社交媒体帖子、小说故事等各种材料,开发者需收集多样的数据集,以涵盖古今中外不同风格的文本。这些文本既要有正式书面语,也应包含口语化、网络化的表达风格。
对于数据的标注,开发者需要将文本中的人名准确标记,以形成监督学习所需的带标签样本。比如,在句子李白在将进酒中抒发豪情中,李白应被标注为人名。这一过程虽然繁琐,但它将为后续模型训练打下坚实的基础。
二、模型选择与构建
在ML.NET中,提供了多种机器学习算法供开发者选择。针对人名提取任务,序列标注模型如条件随机场CRF极为适合,因为它能够考虑文本序列的上下文信息,依据前后词特征判断当前词是否为人名。
三、定义数据模型
在ML.NET中,我们需要定义输入和输出数据模型。对于NER任务,输入是一个文本字符串,而输出是字符串中每个单词的标签例如,确定一个单词是否为人名。以下是一个简单的数据模型示例:
复制public class InputData
{ [LoadColumn(0)] public string Text { get; set; }
} public class OutputData
{ [ColumnName(PredictedLabel)] public string[] PredictedLabels { get; set; }
} 四、数据加载与预处理
接下来,加载数据集并进行必要的预处理,包括分词、特征提取等。处理过程中,您可能需要识别出文本中的词汇变化,从而更好地构建机器学习模型。预处理后数据代码示例:
复制var pipeline = mlContext.Transforms.Text.TokenizeIntoWords(Tokens, Text) .Append(mlContext.Transforms.Text.ProduceWordBags(Features, Tokens, ngrams: 1, weighting: NgramExtractingEstimator.WeightingCriteria.Tf));
var data = mlContext.Data.LoadFromTextFile<InputData>(path: dataPath, hasHeader: false, separatorChar: );
var transformedData = pipeline.Fit(data).Transform(data); 五、模型训练与评估
通过预处理后的数据,您可以开始训练机器学习模型。在训练完成后,通过测试数据集进行评估,以确保其准确性和有效性。ML.NET提供的多类分类器可以帮助您实现最佳的训练效果。以下是训练和评估的代码示例:
复制var trainingPipeline = pipeline.Append(mlContext.MulticlassClassification.Trainers.Sdca(new SdcaMultiClassTrainer.Options { MaximumNumberOfIterations = 1000 }));
var model = trainingPipeline.Fit(transformedData);
var metrics = mlContext.MulticlassClassification.Evaluate(pr edictions); 六、使用模型提取人名
模型训练完成后,即可利用经过优化的机器学习模型,来对新文本进行人名提取。实现这一过程的代码如下:
var predictionEngine = mlContext.Model.CreatePredictionEngine<InputData, OutputData>(model);
var input = new InputData { Text = Hello, my name is John Doe and I live in New York. };
var prediction = predictionEngine.Predict(input); 七、实际应用场景
1. 文档处理
假设我们有一个文档处理系统,需要从文档中提取人名。
复制
using Microsoft.ML;
using Microsoft.ML.Data;
using System;
using System.Collections.Generic;namespace DocumentProcessingApp
{public class Document{public string Content { get; set; }}public class NamedEntity{public string Text { get; set; }public string Label { get; set; }public float Score { get; set; }}class Program{static void Main(string[] args){// 创建 MLContextvar context = new MLContext();// 加载预训练模型var modelPath = Models/ner-model.zip;var pipelineModel = context.Model.Load(modelPath, out _);// 创建预测引擎var engine = context.Transforms.Text.TokenizeIntoWords(Tokens, nameof(Document.Content)).Append(context.Transforms.Text.ApplyWordEmbeddingLookup(TokenFeatures, Tokens)).Append(context.Transforms.Concatenate(Features, TokenFeatures)).Append(context.Model.LoadTransformer(pipelineModel));var predictionEngine = context.Model.CreatePredictionEngine<Document, IEnumerable<NamedEntity>>(engine);// 输入文档内容var document = new Document { Content = The meeting will be attended by Alice Johnson and Bob Brown. };// 进行预测var predictions = predictionEngine.Predict(document);// 输出结果foreach (var entity in predictions){if (entity.Label == Person){Console.WriteLine(Person Name: + entity.Text + , Confidence: + entity.Score);}}}}
} 2. 社交媒体分析
假设我们有一个社交媒体分析系统,需要从推特或评论中提取人名。
复制using Microsoft.ML;
using Microsoft.ML.Data;
using System;
using System.Collections.Generic;namespace SocialMediaAnalysisApp
{public class Post{public string Text { get; set; }}public class NamedEntity{public string Text { get; set; }public string Label { get; set; }public float Score { get; set; }}class Program{static void Main(string[] args){// 创建 MLContextvar context = new MLContext();// 加载预训练模型var modelPath = Models/ner-model.zip;var pipelineModel = context.Model.Load(modelPath, out _);// 创建预测引擎var engine = context.Transforms.Text.TokenizeIntoWords(Tokens, nameof(Post.Text)).Append(context.Transforms.Text.ApplyWordEmbeddingLookup(TokenFeatures, Tokens)).Append(context.Transforms.Concatenate(Features, TokenFeatures)).Append(context.Model.LoadTransformer(pipelineModel));var predictionEngine = context.Model.CreatePredictionEngine<Post, IEnumerable<NamedEntity>>(engine);// 输入帖子内容var post = new Post { Text = Jane Doe just won an award at the event with John Smith. };// 进行预测var predictions = predictionEngine.Predict(post);// 输出结果foreach (var entity in predictions){if (entity.Label == Person){Console.WriteLine(Person Name: + entity.Text + , Confidence: + entity.Score);}}}}
} 3. 日志分析
假设我们有一个日志分析系统,需要从日志文件中提取人名。
复制using Microsoft.ML;
using Microsoft.ML.Data;
using System;
using System.Collections.Generic;namespace LogAnalysisApp
{public class LogEntry{public string Message { get; set; }}public class NamedEntity{public string Text { get; set; }public string Label { get; set; }public float Score { get; set; }}class Program{static void Main(string[] args){// 创建 MLContextvar context = new MLContext();// 加载预训练模型var modelPath = Models/ner-model.zip;var pipelineModel = context.Model.Load(modelPath, out _);// 创建预测引擎var engine = context.Transforms.Text.TokenizeIntoWords(Tokens, nameof(LogEntry.Message)).Append(context.Transforms.Text.ApplyWordEmbeddingLookup(TokenFeatures, Tokens)).Append(context.Transforms.Concatenate(Features, TokenFeatures)).Append(context.Model.LoadTransformer(pipelineModel));var predictionEngine = context.Model.CreatePredictionEngine<LogEntry, IEnumerable<NamedEntity>>(engine);// 输入日志消息var logEntry = new LogEntry { Message = Error reported by Michael Lee while accessing the system. };// 进行预测var predictions = predictionEngine.Predict(logEntry);// 输出结果foreach (var entity in predictions){if (entity.Label == Person){Console.WriteLine(Person Name: + entity.Text + , Confidence: + entity.Score);}}}}
} 八、总结
通过本文的介绍,你已经了解了利用ML.NET精准提取人名的全过程,从数据准备到模型训练,再到实际应用。ML.NET提供了强大的工具和灵活的API,使得开发者能够轻松构建和部署人名提取模型。希望这些内容对你有所帮助,让你在文本处理和自然语言处理领域更上一层楼。
往期精品推荐:
在国内默默无闻的.NET,在国外火的超乎想象?
C#的膨胀之路:创新还是灭亡
介绍.NET 6款好看的winform开源UI库
介绍一款最受欢迎的.NET 开源UI库
WPF第三方开源UI框架:打造独特体验的魔法师
WPF与Winform,你的选择是?
WinForm的前世今生
.NET成年了,然后呢?——编程界的逆袭传奇
相关文章:
利用ML.NET精准提取人名
在当今信息爆炸的时代,文本处理任务层出不穷,其中人名提取作为基础且重要的工作,广泛应用于信息检索、社交网络分析、客户关系管理等领域。随着人工智能不断进步,ML.NET作为微软推出的开源机器学习框架,为开发者提供了…...
Node.js的解释
1. Node.js 入门教程 1.1 什么是 Node.js? 1.1.1 Node.js 是什么? Node.js 是一个基于 JavaScript 的开源服务器端运行时环境,允许开发者用 JavaScript 编写服务器端代码。与传统的前端 JavaScript 主要运行在浏览器端不同,Nod…...
Macos下交叉编译安卓的paq8px压缩算法
官方没有android的编译方法,自己编写脚本在macos下交叉编译. 下载源码: git clone https://github.com/hxim/paq8px.git 稍旧的ndk并不能编译成功,需要下载最新的ndkr27c, 最后是使用clang来编译。 编译build.sh export ANDROID_NDK/Vol…...
如何在data.table中处理缺失值
📊💻【R语言进阶】轻松搞定缺失值,让数据清洗更高效! 👋 大家好呀!今天我要和大家分享一个超实用的R语言技巧——如何在data.table中处理缺失值,并且提供了一个自定义函数calculate_missing_va…...
从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑
文章目录 从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑一 参考二 安装三 启动准备大模型文件 四 数据集(关键)!4.1 Alapaca格式4.2 sharegpt4.3 在 dataset_info.json 中注册4.4 官方 alpaca_zh_demo 例子 999条数据, 本机微调 5分…...
SQL-leetcode—1164. 指定日期的产品价格
1164. 指定日期的产品价格 产品数据表: Products ---------------------- | Column Name | Type | ---------------------- | product_id | int | | new_price | int | | change_date | date | ---------------------- (product_id, change_date) 是此表的主键(具…...
[Day 15]54.螺旋矩阵(简单易懂 有画图)
今天我们来看这道螺旋矩阵,和昨天发的题很类似。没有技巧,全是循环。小白也能懂~ 力扣54.螺旋矩阵 题目描述: 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例 1: …...
HTTP 配置与应用(不同网段)
想做一个自己学习的有关的csdn账号,努力奋斗......会更新我计算机网络实验课程的所有内容,还有其他的学习知识^_^,为自己巩固一下所学知识,下次更新校园网设计。 我是一个萌新小白,有误地方请大家指正,谢谢…...
Quartus:开发使用及 Tips 总结
Quartus是Altera(现已被Intel收购)推出的一款针对其FPGA产品的综合性开发环境,用于设计、仿真和调试数字电路。以下是使用Quartus的一些总结和技巧(Tips),帮助更高效地进行FPGA项目开发: 这里写目录标题 使用总结TIPS…...
VSCode下EIDE插件开发STM32
VSCode下STM32开发环境搭建 本STM32教程使用vscode的EIDE插件的开发环境,完全免费,有管理代码文件的界面,不需要其它IDE。 视频教程见本人的 VSCodeEIDE开发STM32 安装EIDE插件 Embedded IDE 嵌入式IDE 这个插件可以帮我们管理代码文件&am…...
Golang并发机制及CSP并发模型
Golang 并发机制及 CSP 并发模型 Golang 是一门为并发而生的语言,其并发机制基于 CSP(Communicating Sequential Processes,通信顺序过程) 模型。CSP 是一种描述并发系统中交互模式的正式语言,强调通过通信来共享内存…...
HTML 文本格式化详解
在网页开发中,文本内容的呈现方式直接影响用户的阅读体验。HTML 提供了多种文本格式化元素,可以帮助我们更好地控制文本的显示效果。本文将详细介绍 HTML 中的文本格式化元素及其使用方法,帮助你轻松实现网页文本的美化。 什么是 HTML 文本格…...
我谈《概率论与数理统计》的知识体系
学习《概率论与数理统计》二十多年后,在廖老师的指导下,才厘清了各章之间的关系。首先,这是两个学科综合的一门课程,这一门课程中还有术语冲突的问题。这一门课程一条线两个分支,脉络很清晰。 概率论与统计学 概率论…...
五、华为 RSTP
RSTP(Rapid Spanning Tree Protocol,快速生成树协议)是 STP 的优化版本,能实现网络拓扑的快速收敛。 一、RSTP 原理 快速收敛机制:RSTP 通过引入边缘端口、P/A(Proposal/Agreement)机制等&…...
基于Java Web的网上房屋租售网站
内容摘要 本毕业设计题目为《基于Java Web的网上房屋租售网站》,是在信息化时代下充分利用互联网对传统房屋租售方式进行创新,在互联网上进行房屋租售突破了传统方式的局限性。对于房屋租售的当事人都提供了极大的便利。本稳针对了实际用户需求…...
Pyside6(PyQT5)中的QTableView与QSqlQueryModel、QSqlTableModel的联合使用
QTableView 是QT的一个强大的表视图部件,可以与模型结合使用以显示和编辑数据。QSqlQueryModel、QSqlTableModel 都是用于与 SQL 数据库交互的模型,将二者与QTableView结合使用可以轻松地展示和编辑数据库的数据。 QSqlQueryModel的简单应用 import sys from PySid…...
git常用命令学习
目录 文章目录 目录第一章 git简介1.Git 与SVN2.Git 工作区、暂存区和版本库 第二章 git常用命令学习1.ssh设置2.设置用户信息3.常用命令设置1.初始化本地仓库init2.克隆clone3.查看状态 git status4.添加add命令5.添加评论6.分支操作1.创建分支2.查看分支3.切换分支4.删除分支…...
【优选算法】7----三数之和
来了来了,他来了,又是学习算法的一天~ 今天的嘉宾是中等难度的算法题----三数之和! ------------------------------------------begin------------------------------------ 题目解析: 哇趣!又是给了一个数组&#…...
分子动力学模拟里的术语:leap-frog蛙跳算法和Velocity-Verlet算法
分子动力学模拟(Molecular Dynamics Simulation,简称MD)是一种基于经典力学原理的计算物理方法,用于模拟原子和分子在给定时间内的运动和相互作用。以下是关于分子动力学模拟的一些核心术语和概念: 定义系统&am…...
2025年数学建模美赛:A题分析(1)Testing Time: The Constant Wear On Stairs
2025年数学建模美赛 A题分析(1)Testing Time: The Constant Wear On Stairs 2025年数学建模美赛 A题分析(2)楼梯磨损分析模型 2025年数学建模美赛 A题分析(3)楼梯使用方向偏好模型 2025年数学建模美赛 A题分…...
CTF show Web 红包题第六弹
提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...
51c自动驾驶~合集58
我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留,CCA-Attention为LLM长文本建模带来突破性进展 琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),…...
无法与IP建立连接,未能下载VSCode服务器
如题,在远程连接服务器的时候突然遇到了这个提示。 查阅了一圈,发现是VSCode版本自动更新惹的祸!!! 在VSCode的帮助->关于这里发现前几天VSCode自动更新了,我的版本号变成了1.100.3 才导致了远程连接出…...
SCAU期末笔记 - 数据分析与数据挖掘题库解析
这门怎么题库答案不全啊日 来简单学一下子来 一、选择题(可多选) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘:专注于发现数据中…...
基于服务器使用 apt 安装、配置 Nginx
🧾 一、查看可安装的 Nginx 版本 首先,你可以运行以下命令查看可用版本: apt-cache madison nginx-core输出示例: nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...
iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享
平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...
【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍,多层嵌套定位示例
文章目录 ★ position 的五种类型及基本用法 ★ 一、position 属性概述 二、position 的五种类型详解(初学者版) 1. static(默认值) 2. relative(相对定位) 3. absolute(绝对定位) 4. fixed(固定定位) 5. sticky(粘性定位) 三、定位元素的层级关系(z-i…...
OkHttp 中实现断点续传 demo
在 OkHttp 中实现断点续传主要通过以下步骤完成,核心是利用 HTTP 协议的 Range 请求头指定下载范围: 实现原理 Range 请求头:向服务器请求文件的特定字节范围(如 Range: bytes1024-) 本地文件记录:保存已…...
零基础在实践中学习网络安全-皮卡丘靶场(第九期-Unsafe Fileupload模块)(yakit方式)
本期内容并不是很难,相信大家会学的很愉快,当然对于有后端基础的朋友来说,本期内容更加容易了解,当然没有基础的也别担心,本期内容会详细解释有关内容 本期用到的软件:yakit(因为经过之前好多期…...
怎么让Comfyui导出的图像不包含工作流信息,
为了数据安全,让Comfyui导出的图像不包含工作流信息,导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo(推荐) 在 save_images 方法中,删除或注释掉所有与 metadata …...
