当前位置: 首页 > news >正文

DAMA数据管理知识体系指南之文档和内容管理

第10章 文档和内容管理

10.1 简介

文档和内容管理是对存储在关系数据库以外的信息的采集、存储、访问以及使用的控制活动。文档和内容管理的侧重点在完整性和访问控制上。因此,它与关系数据库的数据操作管理大致相同。由于多数非结构化数据与存储在结构化文件中的数据和关系数据库有直接关系,管理决策需要在这3个领域保持一致。然而,文档和内容管理的重点不是纯粹的操作层面。它的战略重点与其他数据管理职能互相有些重叠,主要用于满足非结构化数据的治理、架构、安全、受控的元数据和数据质量的需要。

正如其名所示,文档和内容管理包括如下两个子职能。

文档管理——是对电子和纸质文件的存储、详细编目和控制。文档管理包含控制和组织文档与档案的过程、技巧和技术,它对电子或纸质文档都适用。
内容管理——指对信息内容进行组织、分类和结构化的访问所涉及的过程、技巧和技术,它将实现对文档进行有效的检索和重用。内容管理在门户网站的建设方面尤其重要,但基于关键词搜索的技术和基于分类的组织可以运用于技术平台之外。有时候,内容管理又被称作企业内容管理(ECM),这意味着内容管理的范围涉及整个企业。

文档和内容管理职能关联图:
在这里插入图片描述

10.2 概念与活动

10.2.1 非结构化数据

非结构化数据是尚未标记或记录于行和列的数据,如文件、图形、图像、文字、报表、表格、视频或录音。非表格数据包括非结构化数据和标签数据。这个名称的内涵有一定的歧义,因为这些格式中也包含一些结构,例如段落和篇章。

据估计,多达80%的数据存储在关系数据库之外。非结构化或半结构化数据的含义以存储于上下文中的信息形式呈现。有人把存储于关系数据库之外的数据称作非表格数据。当然,总是有一些结构让数据呈现出来,这个结果的表现形式很可能是表格。没有一个术语能适当地描述非结构化数据所包含的大量不同格式。

非结构化数据存在于不同的电子格式中,包括Word文档、电子邮件、平面文件、电子表格、XML.文件、事务性消息、报告、商业图表、数字图像、缩微胶片、录像和录音,大量的非结构化数据同样存在于纸质文档中。

10.2.2 文档/档案管理

文档/档案管理是组织中重要文件生命的周期管理。考虑到许多隐私、数据保护、身份盗用问题,档案管理过程中设计到个人的数据一定不能保留,也不应跨越国际边界进行传输。

文档/档案管理的生命周期包括以下活动:

(1)规划文档/档案管理

文档管理活动涉及到从其创建或接收、检索、流转和存档到转储的全生命周期。制订分类/索引系统和分类法,可以有效进行检索和管理。组织要基于自己管理的需要来创建档案管理的计划,建立、沟通和执行有关文档的政策、规程和最佳实践。

确定管理文档/档案的责任单位,根据公司标准和政策法规要求创建和管理档案保留政策,并设定档案访问和分发的流程,为关键文档/档案创建业务连续性计划。针对档案保管制定存档计划,确定保存期限,并根据业务需要、规程、状态和法规要求在生命周期结束后予以销毁。

(2)实现文档/档案管理系统的获取、存储、访问与安全控制

文档可以由文档管理系统创建,也可以通过扫描等方式由系统外部创建。在创建/获取这些文档时,需要同步创建相关信息(如关键字、索引,文档的创建时间、存储日期、创建人等元数据)以便于查找。文档库可以实现登入/登出、版本、协作、比较、归档、状态、迁移,以及转储功能。同时,还可以提供报表、搜索、工作流程、权限管理等功能。

基于数据的重要性及控制要求,可以使用ANSI标准859(2008),它有三个级别:正式、修订、托管。

(3)备份和恢复文档/档案

文档/档案管理系统的备份与恢复应当是整个组织所有数据与信息的备份和恢复的一部分。通过连续性计划来减轻威胁的影响,并在发生灾难时,在最短的业务中断时间内恢复。这些计划应该形成书面的政策、规程和信息。

(4)保留和处置文档/档案

文档/档案的保留计划应当符合法规的要求,在规定的时间段内,规定哪些文档/档案不再其作用而转移到二级存储设备上,并确定如何销毁文档/档案。在处理过程中要注意文档/档案的隐私和数据保护问题。

(5)审计文档/档案管理

定期审计要求确保正确的信息在正确的时间送达给正确的人员,以便做出决策和进行营销活动。如下表所示:

在这里插入图片描述

10.2.3 内容管理

内容管理是对数据和资源的组织、分类和构造,以便在不同地方存储、发布和重用。包括数据和信息在生命周期各个阶段中不同形式的成品、内容的完整程度和档案生命周期的不同阶段要求不同的保护措施。

(1)定义并维护企业信息分类标准(信息内容架构)

分类法是一种分类的科学和技术,它包含了一些受到约束的词汇,可用于帮助控制导航和搜索系统。分为4种类型:

扁平式分类体系:所有的类别都是平等的,相互之间没有关系;
多面式分类体系:每个节点都和中心节点连接,每个面都是中心节点的属性;
层级式分类体系:至少有两层的树形结构并且是双向的。
网络式分类体系:同时从层级和多面两种模式来组织内容。在网络式分类中任意两个节点之间的连接都是基于他们的联系。

本体是一种模型,代表一套概念和它们在某个领域内概念之间的关联。本体描述的是个体(实例)、类(概念)、属性和关系。它可以是一系列的分类法和常见词汇库,用于知识表达和信息交换。本体通常由多个类和定义组成一个分类层级。

语义建模是一种知识建模,包含一个概念网络。本体就是一个描述知识的语义模型,包括概念和它们之间关系的集合体。

(2)建立信息内容元数据文档/索引

维护非结构化的元数据实际上是维护各类本地分类与企业级元数据统一分类之间的交叉引用关系。这个工作量比较大,一般会由一个专门的团队来执行。

(3)提供内容访问和检索

一旦内容按照元数据/关键词标记并且按照适当的信息内容架构分类,就可以用于检索了。通过元数据概要文件与各个内容主题进行匹配的技术,可以很方便的找到非结构化数据。

搜索引擎是对用户请求的信息进行检索,从网页内容中包含该关键词的网站获取信息的软件。依靠自然语言、机读信息、模糊搜索方法、资源描述格式(RDF)元数据、本体和XML等技术可以帮助用户找到其想看到的内容。

计算机程序无法直接处理非结构化数据内容,但XML(可扩展标记语言)可以识别和标注非结构化数据内容,使计算机程序能够识别和处理这些内容。非结构化和半结构化数据对于数据仓库和商务智能来说越来越重要,因此,很多数据仓库都包含了帮助使用者查找和分析非结构化数据的结构化索引。

(4)治理内容质量

非结构化数据的管理需要考虑与结构化数据治理相似的动态因素。在一个组织中治理的重点包括文档和档案的保留政策、电子签名政策、报告形式以及报告分配政策。数据管理专业人士负责实施和执行这些政策。

定义档案和内容质量与结构化数据一样存在着困难。

相关文章:

DAMA数据管理知识体系指南之文档和内容管理

第10章 文档和内容管理 10.1 简介 文档和内容管理是对存储在关系数据库以外的信息的采集、存储、访问以及使用的控制活动。文档和内容管理的侧重点在完整性和访问控制上。因此,它与关系数据库的数据操作管理大致相同。由于多数非结构化数据与存储在结构化文件中的…...

C++入门:数据结构

C/C 数组允许定义可存储相同类型数据项的变量,但是结构是 C 中另一种用户自定义的可用的数据类型,它允许您存储不同类型的数据项。结构用于表示一条记录,假设您想要跟踪图书馆中书本的动态,您可能需要跟踪每本书的下列属性&#x…...

C语言实现烟花表白,内含源码!!

虽然现在看烟花有一定难度,但代码式烟花可以随时随地看! 烟花的代码很多,实际上是可以用 Python、HTML5 等语言写烟花,但今天主要想和大家分享用C语言写的烟花代码,非常细致和实用。 同学们一定要亲自敲一遍&#xf…...

虚拟机安装CentOS 7(带界面)

目录 一、虚拟机安装CentOS 7(带界面) 1、打开下好的VMware,点击创建虚拟机 2、下一步 3、点击下一步 4、选择Linux,ContOS7,点击下一步 5、修改虚拟机名称和路径 6、下一步 7、点击自定义硬件 8、设置虚拟机大…...

Java测试——selenium具体操作

selenium的前置准备工作可以参考我之前的博客:Java测试——selenium的安装与使用教程 这篇博客讲解一下selenium的常见操作 先创建driver ChromeDriver driver new ChromeDriver();输入网址 driver.get("https://www.baidu.com");常见操作 查找元素…...

电子器件系列32:逻辑与门芯片74LS11

一、编码规则 先看看这个代码的意思:74LS11 74是一个系列(74 表示为工作温度范围,74: 0 ~ 70度。) ls的意思就是工艺类型(Bipolar(双极)工艺) 11是代码 什么是74系列逻辑芯片? - 知乎 什么是…...

LeetCode-101. 对称二叉树

目录题目分析递归法题目来源 101. 对称二叉树 题目分析 首先想清楚,判断对称二叉树要比较的是哪两个节点,要比较的可不是左右节点! 对于二叉树是否对称,要比较的是根节点的左子树与右子树是不是相互翻转的,理解这一…...

使用intlinprog求解指派问题MATLAB代码分享

% 输入指派矩阵C [3 8 2 10 3;8 7 2 9 7;6 4 2 7 5;8 4 2 3 5;9 10 6 9 10];f C(:); %生成一个列向量,作为目标函数系数,matlab默认以列排序[m,n] size(C);Aeq zeros(2*n,n*n); %2*n个等式约束,n*n个变量for i 1:n %这里先生成的是后5个…...

Spark On YARN时指定Python版本

坑很多&#xff0c;直接上兼容性最佳的命令&#xff0c;将python包上传到hdfs或者file:/home/xx/(此处无多余的/) # client 模式 $SPARK_HOME/spark-submit \ --master yarn \ --deploy-mode client \ --num-executors 2 \ --conf "spark.yarn.dist.archives<Python包…...

[数据库]库的增删改查

●&#x1f9d1;个人主页:你帅你先说. ●&#x1f4c3;欢迎点赞&#x1f44d;关注&#x1f4a1;收藏&#x1f496; ●&#x1f4d6;既选择了远方&#xff0c;便只顾风雨兼程。 ●&#x1f91f;欢迎大家有问题随时私信我&#xff01; ●&#x1f9d0;版权&#xff1a;本文由[你帅…...

Wine零知识学习1 —— 介绍

一、什么是Wine Wine是“Wine Is Not an Emulator” 的首字母缩写&#xff0c;是一个能够在多种POSIX-compliant操作系统&#xff08;诸如Linux、macOS及BSD等&#xff09;上运行 Windows 应用的兼容层。Wine不像虚拟机或者模拟器那样模仿内部的Windows逻辑&#xff0c;而是將…...

设计模式--建造者模式 builder

设计模式--建造者模式 builder&#xff09;建造者模式简介建造者模式--小例子&#xff08;电脑购买&#xff09;1.产品类2.抽象构建者3.实体构建类4.指导者类5.客户端测试类小结建造者模式简介 建造者模式有四个角色,概念划分如下&#xff1a; Product &#xff1a; 产品类&a…...

终于周末啦,继续来总结一下Python的一些知识点啦

目录 Python概念梳理 常见概念梳理 Python经典判断题 判断题 选择题 Python概念梳理 常见概念梳理 Python中&#xff0c;不仅仅变量的值是可以变化的&#xff0c;类型也是可以随时变化的 1、Python的变量必须初始化否则提示 is not defined 2、if、while中定义的变量在…...

CUDA By Example(八)——流

文章目录页锁定主机内存可分页内存函数页锁定内存函数CUDA流使用单个CUDA流使用多个CUDA流GPU的工作调度机制高效地使用多个CUDA流遇到的问题(未解决)页锁定主机内存 在之前的各个示例中&#xff0c;都是通过 cudaMalloc() 在GPU上分配内存&#xff0c;以及通过标准的C库函数 …...

02- pandas 数据库 (数据库)

pandas 数据库重点: pandas 的主要数据结构: Series (一维数据)与 DataFrame (二维数据)。 pd.DataFrame(data np.random.randint(0,151,size (5,3)), # 生成pandas数据 index [Danial,Brandon,softpo,Ella,Cindy], # 行索引 …...

less常用语法总结

CSS预处理器 CSS 预处理器是什么?一般来说,它们基于 CSS 扩展了一套属于自己的 DSL,来解决我们书写 CSS 时难以解决的问题: 语法不够强大,比如无法嵌套书写导致模块化开发中需要书写很多重复的选择器;没有变量和合理的样式复用机制,使得逻辑上相关的属性值必须以字面量…...

DHCP Relay中继实验

DHCP Relay实验拓扑图设备配置结果验证拓扑图 要求PC1按照地址池自动分配&#xff0c;而PC要求分配固定的地址&#xff0c;网段信息已经在图中进行标明。 设备配置 AR1&#xff1a; AR1作为DHCP Server基本配置跟DHCP Server没区别&#xff0c;不过要加一条静态路由&#xff…...

“1+1>2”!《我要投资》与天际汽车再度“双向奔赴”!

文|螳螂观察 作者| 图霖 胡海泉老师重磅回归、创始人现场真情告白……新一季的《我要投资》&#xff0c;不仅维持了往季在专业度上的高水准&#xff0c;也贡献了不少高话题度的“出圈”时刻。 在竞争激烈的的综艺节目竞技场&#xff0c;能举办数季的节目&#xff0c;往往都是…...

【分享】订阅金蝶KIS集简云连接器同步OA付款审批数据至金蝶KIS

方案简介 集简云基于钉钉连接平台完成与钉钉的深度融合&#xff0c;实现钉钉OA审批与数百款办公应用软件&#xff08;如金蝶KIS、用友等&#xff09;的数据互通&#xff0c;让钉钉的OA审批流程与企业内部应用软件的采购、付款、报销、收款、人事管理、售后工单、立项申请等环节…...

dubbo服务消费

dubbo在服务消费时调用的方法栈比较深&#xff0c;所以得一边看一边记&#xff0c;还是比较费力的。在dubbo服务发现中&#xff0c;我们看到通过ReferenceConfig#get()返回的是要调用接口的代理对象&#xff0c;因此通过接口的代理对象调用方法时是调用InvocationHandler(Invok…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战

前言 现在我们有个如下的需求&#xff0c;设计一个邮件发奖的小系统&#xff0c; 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0c;同时又不改变其…...

VB.net复制Ntag213卡写入UID

本示例使用的发卡器&#xff1a;https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

Auto-Coder使用GPT-4o完成:在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库&#xff0c;获取股票数据&#xff0c;并生成TabPFN这个模型 可以识别、处理的格式&#xff0c;写一个完整的预处理示例&#xff0c;并构建一个预测未来 3 天股价涨跌的分类任务 用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务&#xff0c;进行预测并输…...

什么是库存周转?如何用进销存系统提高库存周转率?

你可能听说过这样一句话&#xff1a; “利润不是赚出来的&#xff0c;是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业&#xff0c;很多企业看着销售不错&#xff0c;账上却没钱、利润也不见了&#xff0c;一翻库存才发现&#xff1a; 一堆卖不动的旧货…...

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求&#xff0c;由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面&#xff1a; &#x1f3db;️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限&#xff0c;形成层级清晰的管理网络&#xf…...

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞&#xff01;&#xff01;&#xff01; 摘要 视频字幕在文本到视频生成任务中起着至关重要的作用&#xff0c;因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型&#xff08;VLMs&#xff09;在字幕生成方面…...

Java入门学习详细版(一)

大家好&#xff0c;Java 学习是一个系统学习的过程&#xff0c;核心原则就是“理论 实践 坚持”&#xff0c;并且需循序渐进&#xff0c;不可过于着急&#xff0c;本篇文章推出的这份详细入门学习资料将带大家从零基础开始&#xff0c;逐步掌握 Java 的核心概念和编程技能。 …...

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计&#xff0c;提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合&#xff1a;各模块职责清晰&#xff0c;便于独立开发…...

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析 一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型 二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数 三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程 四、Thread类的核心…...

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面&#xff0c;避免重复抓取&#xff0c;以节省资源和时间。 在分布式环境下&#xff0c;增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。 另一种思路&#xff1a;将增量判…...