使用大语言模型(LLM)修正小段乱码(Mojibake)为正常文本
Python方案
在上一篇文章ftfy:修正小段乱码(Mojibake)为正常文本的Python库中,我介绍了ftfy这个库。但随着持续的开发,我发现它仍然有一些解决不了的转换。如下:
>>> ftfy.fix_text('è‡ªç›‘ç£ 6 自由度ä½å§¿ä¼°è®¡çš„伪关键点 RKHS å¦ä¹')
'自监督 6 自由度位姿估计的伪关键点 RKHS å\xad¦ä¹'
>>> ftfy.is_bad(_)
True
可以看到后面的结果并没有转换成功,而且 ftfy.is_bad() 也返回 True,非常爽快地承认了这一点。
大语言模型(LLM)方案
而当使用 chatGPT 来解决时,简单的提示语足以解决问题:
你是一位熟悉各种语言的机器编码,如Utf8,ascii,等等,的专家,你一眼就能看出一句乱码的文字实质上是哪一种编码错误导致的,当我发给你一串乱码,修正以下乱码:è‡ªç›‘ç£ 6 自由度ä½å§¿ä¼°è®¡çš„伪关键点 RKHS å¦ä¹
输出:
修正后的文本应该是:自监督6自由度位姿估计的伪关键点RKHS学习修正过程是通过分析该文本的语言特征,结合常见编码格式和编码转换规则来判断该文本所使用的编码格式,然后进行对应的编码转换,将乱码转换为可读的字符。例如,上述文本可能是以UTF-8编码格式进行存储,但在读取和显示时使用了ISO-8859-1或其他不兼容的编码方式,导致了乱码的问题。
这就很妥贴。接下来只要优化一下提示词,让 LLM 返回 JSON 对象,就可以很方便地进行下一步处理了。
相关文章:
使用大语言模型(LLM)修正小段乱码(Mojibake)为正常文本
Python方案 在上一篇文章ftfy:修正小段乱码(Mojibake)为正常文本的Python库中,我介绍了ftfy这个库。但随着持续的开发,我发现它仍然有一些解决不了的转换。如下: >>> ftfy.fix_text(‡›‘…...
C++ 访问限定符
个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 概念概述 C一种实现封装的方式,用类将对象的属性与方法结合在一块…...
几种mfc140u.dll常见错误情况,以及mfc140u.dll文件修复的方法
如果你遇到与mfc140u.dll 文件相关的错误,这通常指的是该mfc140u.dll文件可能丢失、损坏或与您的应用程序不兼容。详细分析关于mfc140u.dll文件错误会对系统有什么影响,mfc140u.dll文件处于什么样的位置?以下是几种常见的错误情况及其修复方法…...
[产品管理-21]:NPDP新产品开发 - 19 - 产品设计与开发工具 - 详细设计与规格定义
目录 前言: 一、详细设计与规格定义概述 1、产品详细设计 2、规格定义 3、详细设计与规格定义的关系 4、实际应用中的注意事项 二、详细设计与规格定义主要工具 2.1 质量功能展开QFD - 需求跟踪矩阵 1、QFD的基本原理 2、QFD的实施步骤 3、QFD的优势与应…...
powershell@文件大小排序@文件夹磁盘占用分析
文章目录 abstractpowershell对于列出子目录大小的支持状况按文件大小排序指定目录下所有文件 扩展的专用函数介绍统计目录或文件的大小👺对指定目录以友好的格式列出所有文件和子目录的大小函数灵活性说明👺 综合用例其他相关软件易用系列 abstract 在…...
详解c++多态---上
virtual关键字 1.可以修饰原函数,为了完成虚函数的重写,满足多态的条件之一。 class Person { public:virtual void BuyTicket() { cout << "买票-全价" << endl; } };class Student : public Person { public:virtual void Buy…...
emWin5的图片半透明之旅
文章目录 目标过程直接使用png (失败了)通过 BmpCvt.exe 转换一下(成功了)通过bmp转 (半成功吧) 补充工程结构整理 目标 显示半透明效果,类似png那种,能透过去,看到背景。 过程 直接使用png …...
【RabbitMQ 项目】项目概述
项目概述 一.角色划分二.服务器模块概述1.本地模块2.网络模块3.服务器模块 三.模块详细划分1.服务端2.客户端 一.角色划分 该项目的模型是一个跨主机的生产消费模型,有三种角色:生产者,消费者,中间人。对应就要实现三个大模块&…...
【VSCode】VSCode Background 背景插件辅助窗口程序
前排贴上Github项目链接 GitHub窗口项目链接 这是一个基于VSCode上由shalldie上传的background扩展制作的windows窗口程序。 该程序旨在通过窗口程序尽可能的完善该扩展原有的功能。 background - shalldie 的最大优势是我目前仅在其扩展上发现了UseFront的选项,这…...
gdb 前端:kdbg 安装使用
文章目录 1. 前言2. kdbg 安装使用2.1 安装 kdbg2.2 使用 kdbg 1. 前言 限于作者能力水平,本文可能存在谬误,因此而给读者带来的损失,作者不做任何承诺。 2. kdbg 安装使用 2.1 安装 kdbg kdbg 是 gdb 的图形化界面的前端,在 …...
UDP_SOCKET编程实现
文章目录 socket编程接口认识struct sockaddr类 编写一个server服务Client代码查看启动结果代码修正1.获取内核分配给客户端的信息2.修正不匹配ip不能访问的问题 不同机器之间的通信利用xftp将udp_client传给wsl的ubuntu机器进行演示现在模拟在windows下的udp_client代码: 对方…...
【网络】高级IO——阻塞IO和非阻塞IO的实现
目录 一.文件描述符的默认行为——阻塞IO 二.非阻塞IO 2.1.在打开文件或创建套接字时设置非阻塞模式: 2.2.在使用网络I/O接口时请求非阻塞行为: 2.3.fcntl函数 一.文件描述符的默认行为——阻塞IO 在Linux系统中,无论是通过open系统调用…...
ASPICE培训:打造卓越的汽车软件开发能力
随着汽车行业的快速发展和智能化技术的不断演进,汽车软件开发已成为汽车制造过程中不可或缺的一部分。为了确保汽车软件的质量、可靠性和安全性,ASPICE(Automotive SPICE)作为一种国际公认的汽车软件开发过程评估标准,…...
基于Python的人工智能应用案例系列(2):分类
在本篇文章中,我们将探讨分类问题,具体的应用场景是贷款审批预测。通过该案例,我们将学习如何使用Python处理分类问题,训练模型并预测贷款是否会被批准。 案例背景 该数据集包含贷款申请的相关信息,目标是预测贷款是否…...
演示:基于WPF自绘的中国省份、城市、区县矢量地图
一、目的:演示一个基于WPF自绘的中国省份、城市、区县矢量地图 二、效果 国 省 市 三、功能 支持实际经纬度显示 支持平移,缩放等功能 显示中国地图 显示各个省份地图 显示各个省份地图(包含在表格中,包含缩率图) 显…...
同时拥有独显和核显,怎么让应用程序选择使用哪个GPU?
看你现在使用的是核显还是独显 勾选上GPU引擎选项,后面便会标识你所使用的是哪种显卡,如果是独立显卡,就可以免去后续的操作;如果不是,那么请继续接下来的操作。 将你需要使用独显的程序换成gpu1(独显&am…...
C++八股文之面向对象篇
🤖个人主页:晚风相伴-CSDN博客 思维导图链接:面向对象的性质 持续更新中…… 💖如果觉得内容对你有帮助的话,还请给博主一键三连(点赞💜、收藏🧡、关注💚)吧 …...
点云深度学习系列:Sam2Point——基于提示的点云分割
文章:SAM2POINT:Segment Any 3D as Videos in Zero-shot and Promptable Manners 代码:https://github.com/ZiyuGuo99/SAM2Point Demo:https://huggingface.co/spaces/ZiyuG/SAM2Point 1)摘要 文章介绍了SAM2POINT,这是…...
mysql学习教程,从入门到精通,TOP 和MySQL LIMIT 子句(15)
1、TOP 和MySQL LIMIT 子句内容 在SQL中,不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP 关键字主要用于 SQL Server 和 Access 数据库中,而 LIMIT 子句则主要用于 MySQL、PostgreSQL(通过 LIMIT/OFFSET 语法)、S…...
备战软考Day02-数据结构与算法
1.基本概念与三要素 1.什么是数据 数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。 2.数据元素、数据项 数据元素是数据的基本单位,通常作为一个整体进行…...
DLSS-G转FSR3:突破性技术革命让老款RTX显卡重获新生
DLSS-G转FSR3:突破性技术革命让老款RTX显卡重获新生 【免费下载链接】dlssg-to-fsr3 Adds AMD FSR 3 Frame Generation to games by replacing Nvidia DLSS Frame Generation (nvngx_dlssg). 项目地址: https://gitcode.com/gh_mirrors/dl/dlssg-to-fsr3 在图…...
ComfyUI节点化工作流高效应用全流程指南:从基础搭建到创意实现
ComfyUI节点化工作流高效应用全流程指南:从基础搭建到创意实现 【免费下载链接】ComfyUI The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. 项目地址: https://gitcode.com/GitHub_Trending/co/ComfyUI 当…...
Windows 11系统优化工具:让你的电脑更高效、更私密
Windows 11系统优化工具:让你的电脑更高效、更私密 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and custo…...
【MicroPython】基于ESP32的REPL交互式在线仿真开发环境实战
1. 为什么你需要ESP32的MicroPython REPL环境 第一次接触MicroPython的开发者经常会问:为什么不用传统的C语言开发ESP32?这里有个很现实的痛点——当你需要快速验证一个硬件功能时,C语言那套编译、烧录、调试的流程实在太重了。我去年给团队…...
拿火吉他温湿度管控专项保养与环境适配指南
温湿度是影响吉他使用寿命与结构稳定性的核心因素,即便拿火吉他采用了 AirSonic 碳纤维一体琴体,大幅降低了环境对琴体的影响,但吉他的指板、琴颈、琴桥等木质部件,依然会对温湿度变化极为敏感,极端温湿度环境会导致琴…...
一键部署:圣女司幼幽-造相Z-Turbo文生图模型,快速体验AI绘画魅力
一键部署:圣女司幼幽-造相Z-Turbo文生图模型,快速体验AI绘画魅力 1. 模型简介与特点 1.1 什么是圣女司幼幽-造相Z-Turbo? 圣女司幼幽-造相Z-Turbo是一款基于Xinference框架部署的AI绘画模型,专门用于生成《牧神记》中圣女司幼幽…...
中文文献管理效率提升指南:茉莉花插件的全方位应用
中文文献管理效率提升指南:茉莉花插件的全方位应用 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件,用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 在学术研究与文献管…...
Laravel Telescope门禁监控终极指南:10个技巧安全追踪用户权限和授权逻辑
Laravel Telescope门禁监控终极指南:10个技巧安全追踪用户权限和授权逻辑 【免费下载链接】telescope An elegant debug assistant for the Laravel framework. 项目地址: https://gitcode.com/gh_mirrors/te/telescope Laravel Telescope 是 Laravel 框架的…...
.py域名注册对SEO有什么影响吗_.py域名注册在哪里可以办理
.py域名注册对SEO有什么影响吗 在现代互联网时代,域名选择对网站的SEO(搜索引擎优化)表现有着重要的影响。而最近,一种新型的域名扩展名——.py域名,开始受到越来越多的关注。.py域名注册对SEO有什么影响呢࿱…...
深度行业洞察:如何科学评估与挑选高品质宠物智能舱?
随着“人宠共居”生活方式的深入,宠物智能家电市场迎来了前所未有的井喷。然而,面对市面上价格悬殊、功能各异的智能设备,许多初次接触智能养宠的消费者往往无从下手。因此,建立一套科学的新手养猫指南:客观评估智能猫…...
