当前位置: 首页 > news >正文

合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

“乌蒙山连着山外山,月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗?奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲早在2009年便已发布,如今突然“翻红”,不仅体现了大众对于少数民族文化高涨的兴趣,也见证着优秀的传统文化不息的生命力。

文字是文化的重要载体,古彝文承载了深远的彝族历史内涵,蕴含着丰富的文化信息。近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。

校企合力,把七万多个字符“浓缩”成精简的字典

以往,古文字主要通过人工识别、校正和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具,极大地提高了古代文献和文字数字化进程的速度和效率,本次古彝文基础编码数据库的发布,将成为古文字数字化的重要成果之一。

单一古彝文可表达多个释义(图源:《滇川黔桂彝文字集》 )

当前,古彝文数字化方面的成果相对较少,其原因之一是古彝文字符集庞大,且缺乏成熟的手写样本库。据《滇川黔桂彝文字集》中所有字符的合计,古彝文和现在仍然使用的各地的彝文,总数多达87046字,对如此庞大的字符集进行分类非常困难。另一方面,在彝文的发展过程中,由于种种因素,导致异体字、变体字特别丰富,字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等,都给古彝文的识别带来了极大的挑战。

基于上述情况,合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。

项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。

典籍编码、识别过程(图源:西南彝志)

在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。

“古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。

AI帮人类降低古彝文阅读难度

构建古彝文“大字典”需要解决的首要问题并非文字识别,而是低质量的图片资料处理。传统的古彝文大多被记录在岩书、布书、竹简等,在潮湿的自然环境下难以完整保存,往往会变得模糊不清或残缺不全。在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。

在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。该产品的“智能高清滤镜”功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题,并智能判定图像的优化方式,一键处理模糊、阴影、手指、屏幕纹等干扰因素,减轻后续图片处理工作,缩短内容识别、编码的操作周期。

扫描全能王“智能高清滤镜”古籍扫描效果(图源:西南彝志)

2022年5月,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》,文件指出,到2035年,建成全面共享、重点集成的国家文化大数据体系。文化数据要素和人工智能技术的融合,将推动文化数字化战略的有效实施和文化产业的高质量发展,是优秀传统文化传承创新的有效路径。

合合信息在智能文字识别领域已有十七年深耕经验。此前,在AI识别甲骨文、西周钟鼎文(金文)领域,公司已进行了领先的探索和研究,为古彝文识别积累了经验,奠定了良好的技术基础,相关项目曾获得央视、新华社、《人民日报》等多家主流媒体的关注。

扫描全能王小程序上线H5,面向全社会进行古彝文典籍公益性征集及文化海报传递

加强文化遗产的保护、传承与合理利用任重道远,需要全社会共同行动。为发动更多的社会力量参与到古彝文识别和保护,扫描全能王已同步启动公益性活动,上线古彝文典籍上传入口,面向全社会征集古籍资料。研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。

近年来,国家正不断推进文化数字化战略。2022年,国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,提出了“中华文化全景呈现,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。AI技术与古彝文的“牵手”,将助力民族文化在深入群众的过程中与新事物融合,为文化传承提供创新的源泉。

网友自发“创作”的古彝文对联

相关文章:

合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

“乌蒙山连着山外山,月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗?奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲早在2009年便已发布,如今突然“翻红”,不仅体现了大众对于少数民族文化高涨的…...

Django — 类视图和中间件

目录 一、类视图1、基于类的结构2、常见的类视图基类3、类视图的优点4、代码案例 二、中间件1、定义2、工作原理3、自带中间件4、中间件开发流程5、自定义中间件6、案例 一、类视图 类视图(Class-Based Views)是 Django 中用于处理 HTTP 请求和生成 HTT…...

VMware安装CentOS Stream 8以及JDK和Docker

一、下载镜像源 地址:https://developer.aliyun.com/mirror/?spma2c6h.25603864.0.0.285b32d48O2G8Y 二、安装配置 配置项 一共有以下这些,其中软件、软件选择 、安装目的地、网络主机名需要讲一下,其他都简单,自行设置即可。 …...

MySQL作业1

目录 一.创建一张表,包含以下所有数据类型 建表:​编辑 二.使用以下六种约束 1.非空约束 2.唯一约束 3.主键约束 4.外键约束 5.检查约束 6.默认值约束 一.创建一张表,包含以下所有数据类型 Text 类型: Number 类型&#…...

基于微信小程序的家校通系统设计与实现(亮点:选题新颖、上传作业、批改作业、成绩统计)

文章目录 前言运行环境说明家长微信小程序端的主要功能有:教师微信小程序端的主要功能有:管理员的主要功能有:具体实现截图详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考论文…...

uni-app问题记录

一、启动问题记录 1. 报错1 解决办法: 开启微信开发者工具服务端口 2. 报错2:调用getLocation获取位置信息时报错以下内容 {errMsg: “getLocation:fail the api need to be declared in the requiredPrivateInfos field in app.json/ext.json”} 解决办法: manifest.json文…...

Leetcode---363周赛

题目列表 2859. 计算 K 置位下标对应元素的和 2860. 让所有学生保持开心的分组方法数 2861. 最大合金数 2862. 完全子集的最大元素和 一、计算k置为下标对应元素的和 简单题,直接暴力模拟,代码如下 class Solution { public:int sumIndicesWithKS…...

Netty粘包与拆包问题

先看一下下面的例子: 服务端代码为: public class TimeServer {public static void main(String[] args) throws InterruptedException {EventLoopGroup bossGroupnew NioEventLoopGroup();EventLoopGroup workerGroupnew NioEventLoopGroup();try{Serv…...

JS下载链接的两种方式

1、window.open() 弹出新窗口下载,需要用户进行交互之后触发,否则会被拦截,Safari始终会拦截弹窗 2、a标签下载 不会触发弹窗,更安全 let a document.createElement(a) a.href 下载链接; a.download 文件名称; document.bod…...

手把手教你实现:将后端SpringBoot项目部署到华为云服务器上

前言 前提:有一个后端项目,项目能够运行在本地,可以通过本地访问(localhost) 如果没有可以看这篇:一个基于SpringBoot的后端项目 注册华为云账号 华为云官网 购买云服务器 产品 -> 华为云耀云服务器…...

【红队攻防】从零开始的木马免杀到上线

0、环境配置说明 应该全部使用云服务器完整演示比较好,奈何太穷了买不起服务器,只能用本地环境演示。所需环境如下: 系统环境: CentOS 7 ,Windows 10 软件环境 Cobalt Strike 4.7 , ShellQMaker, 360杀…...

Linux命令行操作:使用“more“命令进行分页显示

文章目录 1. 引言1.1 介绍Linux操作系统和命令行界面什么是Linux操作系统?为什么命令行界面在Linux中如此重要? 1.2 介绍Linux中的分页显示命令分页显示命令的作用与意义不同分页显示命令的比较 2. "more"命令的基本用法2.1 安装和启动"m…...

CentOS下安装MySQL 8.1及备份配置

1 卸载原来的MySQL版本 移除之前部署的mysql软链接 # unlink /etc/init.d/mysql # unlink /usr/bin/mysql2 下载最新的MySQL版本 https://dev.mysql.com/downloads/mysql/8.0.html 我这里直接把地址放在这里:https://cdn.mysql.com//Downloads/MySQL-8.1/mysql…...

【RabbitMQ实战】06 3分钟部署一个RabbitMQ集群

一、集群的安装部署 我们还是利用docker来安装RabbitMQ集群。3分钟安装一个集群,开始。 前提条件,docker安装了docker-compose。如果没安装的话,参考这里 docker-compose文件参考bitnami官网:https://github.com/bitnami/contai…...

(c语言)整形提升

#include<stdio.h> //整形提升 int main() { char a 5; //字符型的内存大小为8个比特位&#xff0c;故在进行加法之类的线性运算时需要整形提升 //00000000000000000000000000000101->5 因为字符型的内存大小不足&#xff0c;故在存放整形时需要裁切 …...

上传文件报错:The temporary upload location [/tmp/tomcat/xxx] is not valid

1.上传附加时报错找不到临时目录 Failed to parse multipart servlet request; nested exception is java.io.IOException: The temporary upload location [/tmp/tomcat/work/Tomcat/localhost/ROOT] is not valid 发生改报错原因为 (1)、SpringBoot项目启动后&#xff0c;系…...

直线模组的品牌有哪些?

中国工业制造业快速发展&#xff0c;工业自动化领域也进入了飞速发展的阶段&#xff0c;直线模组作为工业自动化领域不可缺少的机器人之一&#xff0c;有着重要的不可或缺的作用&#xff0c;在行业内做得好的直线模组品牌有哪些呢&#xff1f; 1、NSK&#xff1a;日本精工株式会…...

零基础学习ESP8266

文章目录 零基础学习ESP8266前言选择硬件如何学习专栏大纲基础部分提高部分 总结 零基础学习ESP8266 前言 最近在空余的时候有用乐鑫的模组&#xff0c;感觉很不错&#xff0c;也决定简单写写。 相信看这篇文章的同学&#xff0c;希望可以熟悉ESP8266这个硬件平台。当然我们…...

基于PYQT5的GUI开发系列教程【二】框架安装和基础环境配置

本文概述 PYQT5是一个基于python的可视化GUI开发框架&#xff0c;具有容易上手&#xff0c;界面美观&#xff0c;多平台部署等优点&#xff0c;作者将通过一系列教程&#xff0c;带领大家从零基础到入门~能够自主实现GUI开发。 作者介绍 作者本人是一名人工智能炼丹师&#xff…...

pg数据库操作,insert(sql)插入一条数据后获返回当前插入数据的id --chatGPT

gpt: 在 PostgreSQL 数据库中&#xff0c;可以使用 INSERT 语句插入一条数据&#xff0c;并通过 RETURNING 子句来返回插入数据的 ID。以下是一个示例 Go 代码来执行这个操作&#xff1a; go package main import ( "database/sql" "fmt" &…...

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…...

19c补丁后oracle属主变化,导致不能识别磁盘组

补丁后服务器重启&#xff0c;数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后&#xff0c;存在与用户组权限相关的问题。具体表现为&#xff0c;Oracle 实例的运行用户&#xff08;oracle&#xff09;和集…...

论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)

HoST框架核心实现方法详解 - 论文深度解读(第二部分) 《Learning Humanoid Standing-up Control across Diverse Postures》 系列文章: 论文深度解读 + 算法与代码分析(二) 作者机构: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学 论文主题: 人形机器人…...

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源&#xff1a; http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...

python/java环境配置

环境变量放一起 python&#xff1a; 1.首先下载Python Python下载地址&#xff1a;Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个&#xff0c;然后自定义&#xff0c;全选 可以把前4个选上 3.环境配置 1&#xff09;搜高级系统设置 2…...

苍穹外卖--缓存菜品

1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得&#xff0c;如果用户端访问量比较大&#xff0c;数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据&#xff0c;减少数据库查询操作。 缓存逻辑分析&#xff1a; ①每个分类下的菜品保持一份缓存数据…...

2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口&#xff08;适配服务端返回 Token&#xff09; export const login async (code, avatar) > {const res await http…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章&#xff1f;AI自动生成&#xff0c;效率提升10倍&#xff01; 支持多语言、自动配图、定时发布&#xff0c;让内容创作更轻松&#xff01; AI内容生成 → 不想每天写文章&#xff1f;AI一键生成高质量内容&#xff01;多语言支持 → 跨境电商必备&am…...

根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:

根据万维钢精英日课6的内容&#xff0c;使用AI&#xff08;2025&#xff09;可以参考以下方法&#xff1a; 四个洞见 模型已经比人聪明&#xff1a;以ChatGPT o3为代表的AI非常强大&#xff0c;能运用高级理论解释道理、引用最新学术论文&#xff0c;生成对顶尖科学家都有用的…...

mac 安装homebrew (nvm 及git)

mac 安装nvm 及git 万恶之源 mac 安装这些东西离不开Xcode。及homebrew 一、先说安装git步骤 通用&#xff1a; 方法一&#xff1a;使用 Homebrew 安装 Git&#xff08;推荐&#xff09; 步骤如下&#xff1a;打开终端&#xff08;Terminal.app&#xff09; 1.安装 Homebrew…...