NLP - langid 语种识别
文章目录
- 一、关于 langid
- 二、基本使用
- Normalization
- 多个语言中选择一个
- 三、训练模型
- 1、需要
- 2、工具是
- 3、过程
- 4、代码调用自定义模型
一、关于 langid
https://github.com/saffsd/langid.py
用于检测语言
二、基本使用
import langidlangid.classify("This is a test")
('en', -54.41310358047485)
Normalization
可以使用 0–1 之间的数据来衡量
from langid.langid import LanguageIdentifier, model
identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)identifier.classify("This is a test")
# ('en', 0.9999999909903544)
多个语言中选择一个
上述方式,很多时候存在语言不准的情况,可以设置默认语言,让 langid 来选取
langid.set_languages(['de','fr','it'])langid.classify("I do not speak english")
('it', 0.99999835791478453)
def detect():identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)identifier.set_languages(['th', 'zh', 'en'])arr = ['I do not speak english','ผู้สื่อข่าวได้รับแจ้งว่ามีประชาชนเ','得亲密。','由泰国当红男星"film" Rattapoom Toekongsap和泰国超模']for str in arr:print(identifier.classify(str))
三、训练模型
1、需要
1、单语文档语料库
2 层深的文件夹层次结构:域 – 语言类型 – 文档文件
每个文档应该是一个单独的文件,每个文件应该在一个 2 层深的文件夹层次结构中,语言嵌套在域中。
./corpus/domain1/en/File1.txt
./corpus/domainX/en/001-file.xml
2、工具是
- index.py - 索引语料库。生成文件、语料库、语言对的列表。
- tokenize.py - 获取索引并
标记相应的文件 - DFfeatureselect.py - 按文档频率选择
特征 - IGweight.py - 计算语言和领域的 IG 权重
- LDfeatureselect.py - 获取 IG 权重并使用它们来选择一个特征集
- scanner.py - 基于功能集构建扫描仪
- NBtrain.py - 使用索引语料库和扫描仪学习 NB 参数
3、过程
1、索引
$ python index.py ./corpus
2、标记
python tokenize.py corpus.model
3、识别最频繁的标记
通过文档频率识别最频繁的标记
python DFfeatureselect.py corpus.model
4、计算每个顶级特征的 IG 权重
以下两个都需要执行
python IGweight.py -d corpus.model
python IGweight.py -lb corpus.model
5、计算每个令牌的 LD 分数
python LDfeatureselect.py corpus.model
这将生成用于构建 NB 模型的 LD 特征的最终列表。
6、组装扫描仪
python scanner.py corpus.model
扫描仪是对特征集的编译 DFA,可用于计算文档中每个特征在单次遍历文档中出现的次数。此 DFA 是使用 Aho-Corasick 字符串匹配构建的。
7、朴素贝叶斯参数
最后,我们学习实际的朴素贝叶斯参数:
python NBtrain.py corpus.model
4、代码调用自定义模型
1)从指定位置加载模型,并进行 normalize
identifier = LanguageIdentifier.from_modelpath(model_path, norm_probs=True)
model 本质是一个长字符串
2)从字符串加载模型
from langid.langid import LanguageIdentifier, modelidentifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)
3)命令行中使用
# normalize
$ python langid.py -n
>>> 你好呀
('zh', 0.9998446372669386)# normalize + custom model
$ python langid.py -n -m /Users/xxx/langid.py/langid/train/corpus.model/model
>>> 这是美好的开始
('zh', 0.999999927953073)
伊织 2021-09-07
相关文章:
NLP - langid 语种识别
文章目录一、关于 langid二、基本使用Normalization多个语言中选择一个三、训练模型1、需要2、工具是3、过程4、代码调用自定义模型一、关于 langid https://github.com/saffsd/langid.py 用于检测语言 二、基本使用 import langidlangid.classify("This is a test"…...
liquibase学习和使用
文章目录liquibase学习介绍数据库更新日志和数据库更新日志锁定相关概念changelogchangeset的属性preconditionsql样例Contextssql样例Labelsql样例文件格式sql样例其他格式用的时候在补充跟踪表DATABASECHANGELOGLOCK (数据库更改日志锁定表)DATABASECH…...
redhawk:Low Power Analysis
1.rush current与switch cell 在standby状态下为了控制leakage power我们选择power gating的设计方式,使用power switch cell关闭block/power domain的电源。 power switch的基本介绍可见: 低功耗设计-Power Switch power switch的table中有四种状态,…...
24- 深度学习的模型保存和加载 (TensorFlow系列) (深度学习)
知识要点 keras 保存成hdf5文件, 1.保存模型和参数, 2.只保存参数 1.保存模型和参数 save_modelcallback ModelCheckpoint2. 只保存参数 save_weightscallback ModelCheckpoint save_weights_only True 保存模型: 案例数据: Fashion-MNIST总共有十个类别的图像model.save_w…...
【Echarts图例点击事件】自定义Echarts图例legend点击事件(已解决)
目录先睹为快(效果)1、实现Echarts多条曲线2、点击echarts触发接口请求2.1 先默认隐藏部分数据2.2 自定义legend图例点击事件3、源码下载地址(解压即用)**【写在前面】**这下我又不得不说了,还是客户现场使用时想查询一…...
uniapp-首页配置
为了获取到后台服务器发来的数据,需要配置相应的网络地址。位置在main.js入口文件中。 import { $http } from escook/request-miniprogramuni.$http $http // 配置请求根路径 $http.baseUrl https://api-hmugo-web.itheima.net// 请求开始之前做一些事情 $http.…...
支持DDR5,超频更简单,小雕够给力,技嘉B760M小雕WIFI主板上手
目前13代酷睿已经全员集结了,其中全新的i5 13490F应该依然会备受欢迎,当然了,刚上市不久的13代酷睿价格方面还不是很有吸引力,好在12代酷睿在新一代主板上面依然可用,所以预算有限的朋友,完全可用继续使用1…...
fengMap 自定义dom 偏离实际位置;缩放时飘出地图所在区域
目录 一、问题 二、原因及解决方法 三、总结 一、问题 1.前人写了一份代码,很奇怪。使用 new fengmap.FMCompositeMarker添加的复合覆盖物位置是正常的,缩放的时候也是正常的,仍然处于地图内部;但是new fengmap.FMDomMarker添加…...
TryHackMe-黑我杯
黑我杯 相信我们大家在TryHackMe的日积月累都学到了不少东西,从纯萌新到oscp再到更高 我很高兴能将国内各thm玩家聚集到一起,构建一个更好的学习环境和氛围 本次娱乐分两场: Offensive Pentesting — 中等难度Junior Penetration — 容易难…...
【JAVA程序设计】【C00109】基于SSM(非maven)的员工工资管理系统
基于SSM(非maven)的员工工资管理系统项目简介项目获取开发环境项目技术运行截图项目简介 基于ssm框架非maven开发的企业工资管理系统共分为二个角色:系统管理员、员工 管理员角色包含以下功能: 系统后台登陆、管理员管理、员工信…...
《计算机原理》——HelloWorld.cpp如何运行的
学校《计算机原理》开课啦!特此开辟专栏,将一些知识作为笔记,记录下来。 前言 本篇博客知识点来源于educoder的相关题目 1. 相关知识 1.1 计算机语言 计算机语言是人与计算机之间通讯的语言,计算机语言包括编写计算机程序的字符…...
【面试题】在JS循环中使用await会怎么样?
前言这个问题是这样产生的?某天,在学习异步的知识遇到这样一道题:使用Promise的方式,每隔一秒输出数组中一个值const arr [1, 2, 3] arr.reduce((pre, cur) > {return pre.then(() > {returnnewPromise((resolve, rejec…...
Qt QMessageBox详解
文章目录一.QMessageBox介绍枚举属性函数二.QMessageBox的用法1.导入QMessage库2.弹窗提示3.提供选项的弹窗提示4.作为提示,报警,报错提示窗口一.QMessageBox介绍 文本消息显示框(message box)向用户发出情况警报信息并进一步解释警报或向用户提问&…...
Flutter之beamer路由入门指南
beamer路由入门指南 前言使用方法1、路由配置方式1路由配置方式2路由跳转测试现象前言 Beamer是一个很好用的路由组件,本文以beamer1.5.0版本进行说明,前面博主也介绍了其他路由组件 Flutter实战之go_router路由组件入门指南 、 Flutter之Fluro路由组件入门指南 Flutter之Ge…...
「基础篇」机器学习概览
文章目录1. 什么是机器学习2. 引入机器学习3. 应用场景4. 机器学习分类4.1. 有无人类监督4.2. 是否增量学习4.3. 泛化方式5. 主要挑战6. 测试与验证1. 什么是机器学习 机器学习(Machine Learning,ML)是一个研究领域,让计算机无需…...
揭秘可视化图探索工具 NebulaGraph Explore 是如何实现图计算的
前言 在可视化图探索工具 NebulaGraph Explorer 3.1.0 版本中加入了图计算工作流功能,针对 NebulaGraph 提供了图计算的能力,同时可以利用工作流的 nGQL 运行能力支持简单的数据读取,过滤及写入等数据处理功能。 本文将简单分享下 NebulaGr…...
移动架构43_什么是Jetpack
Android移动架构汇总 文章目录一 Android 开发框架演变1 MVC2 MVP3 MVVM二 什么是JetPack三 如何构建支持Jetpack项目一 Android 开发框架演变 1 MVC Model-View-Controller,模型-视图-控制器,Model负责数据管理,View负责UI显…...
TiDB的分布式事务原理探究
事务开启 获取全局授时作为startTS构建一个tikvTxn对象(包括snapshot)。 事务写 txn.Set方法本质上将kv值写入了一个内存缓存(即kv/memdb_buffer.go中的memDbBuffer)中。该内存kv数据库利用的是golevel提供的功能。 事务回滚 直接将tikvTxn的valid字段…...
【C语言】函数指针和指针函数
文章目录[TOC](文章目录)前言概述函数指针定义:使用:回调函数指针函数前言 今天学一下函数指针 提示:以下是本篇文章正文内容,下面案例可供参考 概述 函数指针:是一个指向函数的指针,在内存空间中存放的…...
Nodejs中npx简介和作用
一、npx简介npm从5.25.2版开始,增加了 npx 命令。方便了我在项目中使用全局包。二、安装Node安装后自带npm模块,可以直接使用npx命令。如果不能使用用,就要手动安装一下。npm install -g npx三、使用npx想要解决的主要问题,就是调…...
别只把Docker当虚拟机!《Docker实践》没细说的5个生产环境‘骚操作’
别只把Docker当虚拟机!5个生产环境高阶实践指南 当团队从开发测试转向生产环境时,Docker的使用方式往往需要质的飞跃。许多工程师在初期将容器简单视为轻量级虚拟机,却忽略了容器化架构真正的威力。本文将揭示那些官方文档鲜少提及࿰…...
移动安全架构:ECC加密与硬件加速实践解析
1. 移动安全架构的核心价值解析在2004年的移动通信市场,设备制造商正面临一个关键转折点。当时全球手机平均售价为163美元(智能手机高达360美元),而设备替换率预计将从2003年的22%增长到2009年的34%。在这个背景下,Cer…...
轻量级代码同步工具codesyncer:P2P架构实现跨设备实时同步
1. 项目概述:一个被低估的代码同步利器如果你和我一样,经常需要在多台开发机、服务器甚至不同的云环境之间同步代码片段、配置文件或者小型项目,那你一定对那种“这台机器上有,那台机器上没有”的混乱感同身受。手动复制粘贴&…...
某恶意软件样本逆向分析报告
1.概述样本来源:微步在线恶意软件名称:刘文博-关于北京体彩中心的问题反馈.exesha256:c28d23d8658abc1f5683c6b50239d5593eb7a274a3abec56124d7fb43fec1b642.行为分析该程序图标设为word文档图标,实际为exe文件,诱骗受…...
SIGTRAN协议:电信网络IP化的关键技术解析
1. SIGTRAN:下一代电信网络的信令传输基石2003年全球电信业寒冬中,一个技术决策正在悄然改变行业格局。当运营商们紧缩资本开支时,AT&T、Verizon等巨头却不约而同地加大了对IP网络的投入。这背后隐藏着一个关键技术转折——传统TDM网络向…...
2026 年全球网络安全威胁态势与关键技术防御研究
摘要 本文基于 Security Affairs 2026 年第 576 期安全通讯披露的最新网络攻击事件与漏洞情报,系统分析 Linux 无文件远控、内核提权、AI 供应链投毒、钓鱼攻击工业化、关键信息基础设施入侵等新型威胁的技术机理、传播路径与危害特征。研究结合 Quasar Linux RAT、…...
一键批量下载网易云音乐FLAC无损音乐:Golang高效解决方案
一键批量下载网易云音乐FLAC无损音乐:Golang高效解决方案 【免费下载链接】NeteaseCloudMusicFlac 根据网易云音乐的歌单, 下载flac无损音乐到本地.。 项目地址: https://gitcode.com/gh_mirrors/nete/NeteaseCloudMusicFlac 你是否曾梦想拥有一个完整的无损…...
别再傻傻在线等了!手把手教你用命令行精准定制VS2022离线安装包(附.NET/C++/MFC组件命令)
精准定制VS2022离线安装包:命令行高效配置指南 在开发团队协作或特殊网络环境下,Visual Studio 2022的离线安装成为刚需。但直接下载完整离线包不仅耗时(超过25GB),还会占用大量存储空间——而实际上,90%的…...
CLion集成LVGL与SDL:打造高效嵌入式GUI模拟开发环境
1. 为什么需要CLionLVGLSDL组合? 如果你正在开发嵌入式设备的图形界面,肯定遇到过这样的困境:每次修改UI都要烧录到硬件上测试,一个简单的颜色调整可能要反复折腾十几分钟。我在开发智能手表项目时就深受其害,直到发现…...
告别计划外停机:用Python+CNN+SVR实战轴承寿命预测(附PHM2012数据集代码)
工业设备智能运维实战:PythonCNNSVR实现轴承寿命精准预测 轴承作为旋转机械的核心部件,其健康状态直接影响生产线稳定性。传统定期维护常陷入"过度维护"或"维护不足"的两难境地——前者增加停机成本,后者可能引发连锁故障…...
