大语言模型在构建UNSPSC 分类数据中的应用
UNSPSC 是联合国标准产品和服务代码。UNSPSC由联合国开发计划署(UNDP)和Dun & Bradstreet公司(D & B)于1998年联合制定,自2003年以来一直由GS1 US管理。GS1 US 将在 2024 年底前将 UNSPSC 的管理权移交给 UNDP。
本文主要研究如何使用mongoDB数据库,nodeJS的javascript程序,大语言模型(chatGPT)生产UNSPSC 分类系统的数据。
下载unspsc 文档
首先下载 unspsc 分类EXCEL 文档,unspsc 官网(https://www.unspsc.org/)上无法下载,大概要成为unspsc 的subscriber 之后才可以,但是我不知道如何能够成为unspsc 的订阅者。
国内的道客巴巴上有个中文翻译文档,结果下载下来才发现编码与描述不对版,也许是早期的东西吧,白瞎了34元。我是在康奈尔大学的网站上下载了一个英文的unspsc 文档,在联合国全球市场网下载了一个中文的文档。
有读者告诉我正确的方法,请在评论区留言。
下载unspsc 分类
从康奈尔大学的网站上下载了一个unspsc 文档,包含的商品大约149851个.
https://finance.cornell.edu/procurement/buyers/unspsc
文档格式

Segment,Family,Class,Commodities 是分成三个表。
下载 中文文档
我们希望下载一个中文的unspsc 文档,最终在联合国全球采购市场网站上下载了中文unspsc 文档,但是在中国联合国全球采购网站上却没有。这个·文档中只有13000多种商品,部分标题没有被翻译
https://www.ungm.org/Public/UNSPSC
文档格式

转储
下一步将unspsc 到mongoDB 数据库中。
第一种方法(以unspsc 为基础)
unspsc.xlsx 文档另存为cvs 文件,Segment.cvs,Family.cvs,Class.cvs,Commodity.cvs 几个文件,我们通过一个javascript 程序unspscStore.js 将cvs 文档存储到mongoDB 中。成为4 个collection。
第二种方法(以unspsc_chinese 为基础)
将unspsc中文文档(删除前11行,A,B 列)转储到mongodb 中。由此生成Segment,Family,Class,Commodity 四个Collection。
最后,我们决定先使用中文的数据构建项目的内容。
构建产品的特性模型
对所有Commodity 的商品,构建商品的Properties ,存储在Property Collection。
基本方法是采用chatGPT 自动生成商品的特征。
实验(KIMI)
商品定义

商品特征
KIMI提问:
请给出如下商品的特征参数: “动态随机存取储存器DRAM”,JSON格式输出,格式为 {Property:[{Name:"属性的名称",Value:"属性的值”}]
KIMI 回答:
{"Property": [{"Name": "类型","Value": "动态随机存取存储器"},{"Name": "容量","Value": "多种容量选项,如1GB, 2GB, 4GB等"},{"Name": "速度","Value": "以兆赫兹(MHz)为单位的速度等级"},{"Name": "时钟周期","Value": "存储器的时钟周期时间"},{"Name": "刷新周期","Value": "必需的刷新间隔时间"},{"Name": "数据访问时间","Value": "CAS延迟时间"},{"Name": "模块类型","Value": "如DIMM, SODIMM, RDIMM等"},{"Name": "电压","Value": "操作电压,如1.5V, 1.35V等"},{"Name": "接口类型","Value": "如DDR, DDR2, DDR3, DDR4等"},{"Name": "散热解决方案","Value": "如散热片安装或无散热片"},{"Name": "端到端可靠性","Value": "如奇偶校验或ECC支持"}]
}
文心一言
提问(商品定义):
请用一句话给出如下商品的定义 “腹膜透析仪和腹膜循环仪”
回答
腹膜透析仪和腹膜循环仪是用于辅助腹膜透析过程,通过机械方式促进腹膜透析液在腹腔内循环与交换,以清除体内代谢废物和多余水分的医疗设备。
提问(商品特征):
请给出如下商品的特征参数: “动态随机存取储存器DRAM”,JSON格式输出,格式为 {Property:[{Name:"属性的名称",Value:"属性的值”}]
回答
{ "Property": [ { "Name": "类型", "Value": "动态随机存取储存器(DRAM)" }, { "Name": "数据存储方式", "Value": "动态存储,需要定期刷新数据以保持信息不丢失" }, { "Name": "访问速度", "Value": "相对较快,适合作为计算机的主存储器" }, { "Name": "容量范围", "Value": "从几兆字节到数百吉字节不等,具体取决于型号和技术" }, { "Name": "电压需求", "Value": "低电压设计,通常在1.2V至1.5V之间" }, { "Name": "接口类型", "Value": "包括DDR, DDR2, DDR3, DDR4, LPDDR等,每种类型具有不同的数据传输速率和功耗" }, { "Name": "封装类型", "Value": "如BGA, TSOP, FBGA等,影响安装和散热性能" }, { "Name": "延迟时间", "Value": "用CAS延迟(CL)等指标衡量,影响数据访问的响应时间" }, { "Name": "工作频率", "Value": "通常以MHz或GHz为单位,影响数据传输速率" }, { "Name": "错误检测和纠正", "Value": "部分DRAM支持ECC(错误纠正码)功能,提高数据完整性和可靠性" } ]
}
总的来看,使用大语言模型生成商品的描述换比较好,但是产品的特征输出的质量并不高。
源代码(待补充)
浏览
编写一个nodeJS 程序unspscServer.mjs 能够浏览unspsc 的分类和商品Commodity 的特征。
界面
源代码
结束语
该项目主要研究如何将chatGPT作为一种生产力工具,提高生成结构化数据的生产力方式。
第一步使用chatGPT 生成商品的描述和数据特征(Properties)。这项工作如果人工完成是非常巨大的工程。
相关文章:
大语言模型在构建UNSPSC 分类数据中的应用
UNSPSC 是联合国标准产品和服务代码。UNSPSC由联合国开发计划署(UNDP)和Dun & Bradstreet公司(D & B)于1998年联合制定,自2003年以来一直由GS1 US管理。GS1 US 将在 2024 年底前将 UNSPSC 的管理权移交给 UNDP…...
C++初阶:STL详解(十)——priority_queue的介绍,使用以及模拟实现
✨✨小新课堂开课了,欢迎欢迎~✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C:由浅入深篇 小新的主页:编程版小新-CSDN博客 一.priority_queue的介绍 优先级队列被实现…...
Qt | Linux+QFileSystemWatcher文件夹和文件监视(例如监视U盘挂载目录)
点击上方"蓝字"关注我们 01、QFileSystemWatcher >>> QFileSystemWatcher 是 Qt 提供的一个类,用于监视文件和目录的变化。它允许应用程序监控一个或多个文件和目录,并在这些文件或目录内容发生变化时收到通知。这使得 Qt 应用程序能够动态响应文件系统的…...
【Linux进程间通信】Linux匿名管道详解:构建进程间通信的隐形桥梁
📝个人主页🌹:Eternity._ ⏩收录专栏⏪:Linux “ 登神长阶 ” 🌹🌹期待您的关注 🌹🌹 ❀Linux进程间通信 📒1. 进程间通信介绍📚2. 什么是管道📜3…...
【力扣 | SQL题 | 每日三题】力扣1148, 1327, 1211, 1174
1. 力扣1148:文章浏览1 1.1 题目: Views 表: ------------------------ | Column Name | Type | ------------------------ | article_id | int | | author_id | int | | viewer_id | int | | view_date …...
【鸿蒙开发】详解GridRowSizeOption的尺寸属性
文章目录 1. 尺寸属性的含义2. 为什么要有这几个属性3. 具体作用4. 如何使用总结 在鸿蒙(HarmonyOS)开发中,布局的灵活性和适应性对于构建高质量的应用至关重要。 GridRowSizeOption是鸿蒙开发框架提供的一个布局属性,用于定义网…...
Sping源码:三级缓存
目录 一、概念1、三级缓存的作用2、循环依赖的含义 二、代码1、代码下载2、文件功能介绍3、源码分析3.1、找到获取A对象的位置,打断点进行debug操作3.2、一步步找到在A对象中注入B对象的位置3.3、一步步找到B对象注入A对象的位置3.4、往下找到通过三级缓存解决循环依…...
latex有哪些颜色中文叫什么,Python绘制出来
latex有哪些颜色中文叫什么,Python绘制出来 为了展示xcolor包预定义的颜色及其对应的中文名称,并使用Python打印出来,我们可以先列出常见的预定义颜色名称,然后将它们翻译成中文,并最后用Python打印出来。 步骤 列出…...
C语言进程
什么是进程 什么是程序 一组可以被计算机直接识别的 有序 指令 的集合。 通俗讲:C语言编译后生成的可执行文件就是一个程序。 那么程序是静态还是动态的? 程序是可以被存储在磁盘上的,所以程序是静态的。 那什么是进程 进程是程序的执行过…...
C#基础(4)封装——成员方法
前言 我们在上一节学习了关于类的成员变量的使用,甚至也看到了相应的成员方法,我们可以将二者理解为类里面的变量和函数。 如果我这样说你肯定就能很快理解成员方法是什么作用了。 C#中设计成员方法的目的是为了将相关的功能代码组织在一起࿰…...
springbot,JWT令牌的使用。实现http请求拦截校验。
JWT 由三部分组成,用点(.)分隔 Header(头部) Payload(负载)Signature(签名) 一、原理 Jwt原理其实很简单,在后端首先要有个拦截器,他会拦截所有http请求&…...
【SQL】DDL语句
文章目录 1.SQL通用语法2.SQL的分类3.DDL3.1数据库操作3.2 表操作3.2.1 表操作--数据类型3.2.2 表操作--修改3.2.3 表操作--删除 SQL 全称 Structured Query Language,结构化查询语言。操作关系型数据库的编程语言,定义了一套操作关系型数据库统一标准 。…...
【分页】Spring Boot 列表分页 + javaScript前台展示
后端: 准备好查询实体与分页实体 1、分页工具实体 package com.ruoyi.dms.config;import com.alibaba.nacos.api.model.v2.Result; import lombok.Data;import java.io.Serializable; import java.util.List;/*** author 宁兴星* description: 列表返回结果集*/ …...
「安装」 Windows下安装CUDA和Pytorch
「安装」 Windows下安装CUDA和Pytorch 文章目录 「安装」 Windows下安装CUDA和PytorchMac、Linux、云端Windows安装CUDA安装miniconda安装PyTorch测试总结 其他 Mac、Linux、云端 Mac、Linux、云端安装Miniconda和Pytorch的方法参考其他资料。 Windows 下面进行Windows下安装…...
c语言基础作业
选择题 1.1、以下选项中,不能作为合法常量的是 __________ A)1.234e04 B)1.234e0.4C)1.234e4 D)1.234e0 1.2、以下定义变量并初始化错误的是_____________。 A) char c1 ‘H’ ; B) char c1 9…...
uniapp view增加删除线
推荐学习文档 golang应用级os框架,欢迎stargolang应用级os框架使用案例,欢迎star案例:基于golang开发的一款超有个性的旅游计划app经历golang实战大纲golang优秀开发常用开源库汇总想学习更多golang知识,这里有免费的golang学习笔…...
[Day 83] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
區塊鏈在物聯網中的應用 區塊鏈技術與物聯網(IoT)結合,為許多領域提供了強大的解決方案。傳統的IoT架構常面臨數據隱私和安全問題,而區塊鏈的去中心化和加密技術則能有效增強IoT系統的安全性、透明性和效率。本文將探討區塊鏈如何…...
Java ReentrantLock
目录 1 互斥性 2 公平性 3 可重入性 4 获取和释放锁 5 尝试获取锁 6 可中断的锁定 7 条件变量 8 性能 9 使用场景 ReentrantLock 是 Java 提供的一种可重入的互斥锁,位于 java.util.concurrent.locks 包中,它实现了 Lock 接口。这个锁提供了与内…...
【Linux系统编程】第二十六弹---彻底掌握文件I/O:C/C++文件接口与Linux系统调用实践
✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、回顾C语言文件接口 1.1、以写的方式打开文件 1.2、以追加的方式打开文件 2、初步理解文件 2.1、C文件接口 3、进一步理…...
数据分析-29-基于pandas的窗口操作和对JSON格式数据的处理
文章目录 1 窗口操作1.1 滑动窗口思想1.2 函数df.rolling2 JSON格式数据2.1 处理简单JSON对象和JSON列表2.1.1 处理简单的JSON结构2.1.2 处理空字段2.1.3 获取部分字段2.2 处理多级json2.2.1 展开所有级别(默认)2.2.2 自定义展开层级2.3 处理嵌套列表JSON3 参考附录1 窗口操作 …...
规则驱动流程引擎:告别if-else,构建灵活业务自动化核心
1. 项目概述:一个规则驱动的流程引擎最近在梳理一些业务自动化需求时,我又把目光投向了规则引擎和流程编排这个老话题。无论是电商的风控审核、金融的信贷审批,还是内容平台的自动化运营,我们总在重复一个模式:定义一堆…...
小白程序员也能抓住的AI高薪机遇:大模型时代的机会与挑战
某书成立AI一级部门,预示着AI成为大厂核心战略。AI已从噱头渗透到工作和生活中,带来高薪机遇。AI大模型应用开发工程师年薪可达70万,薪资高源于需求大、供给少。无论技术岗还是非技术岗,AI都将创造更多机会。普通人应主动学习AI工…...
《QGIS空间数据处理与高级制图》005:第三方预处理插件推荐
作者:翰墨之道,毕业于国际知名大学空间信息与计算机专业,获硕士学位,现任国内时空智能领域资深专家、CSDN知名技术博主。多年来深耕地理信息与时空智能核心技术研发,精通 QGIS、GrassGIS、OSG、OsgEarth、UE、Cesium、OpenLayers、Leaflet、MapBox 等主流工具与框架,兼具…...
如何用Rusted PackFile Manager彻底重构全面战争模组开发工作流?
如何用Rusted PackFile Manager彻底重构全面战争模组开发工作流? 【免费下载链接】rpfm Rusted PackFile Manager (RPFM) is a... reimplementation in Rust and Qt6 of PackFile Manager (PFM), one of the best modding tools for Total War Games. 项目地址: h…...
Real-ESRGAN-GUI完整指南:3个技巧让模糊图片变高清的免费AI工具
Real-ESRGAN-GUI完整指南:3个技巧让模糊图片变高清的免费AI工具 【免费下载链接】Real-ESRGAN-GUI Lovely Real-ESRGAN / Real-CUGAN GUI Wrapper 项目地址: https://gitcode.com/gh_mirrors/re/Real-ESRGAN-GUI 你是否曾为模糊的老照片感到惋惜?…...
保姆级教程:在Ubuntu 20.04上用YOLOv5 v6.2训练你自己的COCO数据集(附完整数据准备流程)
在Ubuntu 20.04上从零构建YOLOv5 v6.2自定义训练环境的完整指南 当你想在本地工作站或云服务器上训练自己的目标检测模型时,YOLOv5无疑是最受欢迎的选择之一。但许多教程都假设你已经熟悉了Linux环境配置、数据集处理等前置知识,这让不少初学者在第一步…...
HoRain云--PHP包含文件全解析
🎬 HoRain 云小助手:个人主页 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。 目录 ⛳️ 推荐 …...
别再用Excel手算了!用Python脚本快速搞定Zemax连续变焦镜头初始结构计算
别再用Excel手算了!用Python脚本快速搞定Zemax连续变焦镜头初始结构计算 光学设计工程师们,你们是否还在为连续变焦镜头的初始结构计算而头疼?每次手动调整变倍组和补偿组的位置,反复在Excel中敲打公式,结果却总是差强…...
Equalizer APO完整教程:免费系统级音频均衡器从入门到精通
Equalizer APO完整教程:免费系统级音频均衡器从入门到精通 【免费下载链接】equalizerapo Equalizer APO mirror 项目地址: https://gitcode.com/gh_mirrors/eq/equalizerapo Equalizer APO是一款功能强大的免费开源系统级音频均衡器软件,能够为W…...
如何高效扩展WinDirStat:自定义清理操作和视图开发完全指南
如何高效扩展WinDirStat:自定义清理操作和视图开发完全指南 【免费下载链接】windirstat WinDirStat is a disk usage statistics viewer and cleanup tool for Microsoft Windows 项目地址: https://gitcode.com/gh_mirrors/wi/windirstat WinDirStat是一款…...
