DAMA数据管理知识体系指南之文档和内容管理
第10章 文档和内容管理
10.1 简介
文档和内容管理是对存储在关系数据库以外的信息的采集、存储、访问以及使用的控制活动。文档和内容管理的侧重点在完整性和访问控制上。因此,它与关系数据库的数据操作管理大致相同。由于多数非结构化数据与存储在结构化文件中的数据和关系数据库有直接关系,管理决策需要在这3个领域保持一致。然而,文档和内容管理的重点不是纯粹的操作层面。它的战略重点与其他数据管理职能互相有些重叠,主要用于满足非结构化数据的治理、架构、安全、受控的元数据和数据质量的需要。
正如其名所示,文档和内容管理包括如下两个子职能。
文档管理——是对电子和纸质文件的存储、详细编目和控制。文档管理包含控制和组织文档与档案的过程、技巧和技术,它对电子或纸质文档都适用。
内容管理——指对信息内容进行组织、分类和结构化的访问所涉及的过程、技巧和技术,它将实现对文档进行有效的检索和重用。内容管理在门户网站的建设方面尤其重要,但基于关键词搜索的技术和基于分类的组织可以运用于技术平台之外。有时候,内容管理又被称作企业内容管理(ECM),这意味着内容管理的范围涉及整个企业。
文档和内容管理职能关联图:
10.2 概念与活动
10.2.1 非结构化数据
非结构化数据是尚未标记或记录于行和列的数据,如文件、图形、图像、文字、报表、表格、视频或录音。非表格数据包括非结构化数据和标签数据。这个名称的内涵有一定的歧义,因为这些格式中也包含一些结构,例如段落和篇章。
据估计,多达80%的数据存储在关系数据库之外。非结构化或半结构化数据的含义以存储于上下文中的信息形式呈现。有人把存储于关系数据库之外的数据称作非表格数据。当然,总是有一些结构让数据呈现出来,这个结果的表现形式很可能是表格。没有一个术语能适当地描述非结构化数据所包含的大量不同格式。
非结构化数据存在于不同的电子格式中,包括Word文档、电子邮件、平面文件、电子表格、XML.文件、事务性消息、报告、商业图表、数字图像、缩微胶片、录像和录音,大量的非结构化数据同样存在于纸质文档中。
10.2.2 文档/档案管理
文档/档案管理是组织中重要文件生命的周期管理。考虑到许多隐私、数据保护、身份盗用问题,档案管理过程中设计到个人的数据一定不能保留,也不应跨越国际边界进行传输。
文档/档案管理的生命周期包括以下活动:
(1)规划文档/档案管理
文档管理活动涉及到从其创建或接收、检索、流转和存档到转储的全生命周期。制订分类/索引系统和分类法,可以有效进行检索和管理。组织要基于自己管理的需要来创建档案管理的计划,建立、沟通和执行有关文档的政策、规程和最佳实践。
确定管理文档/档案的责任单位,根据公司标准和政策法规要求创建和管理档案保留政策,并设定档案访问和分发的流程,为关键文档/档案创建业务连续性计划。针对档案保管制定存档计划,确定保存期限,并根据业务需要、规程、状态和法规要求在生命周期结束后予以销毁。
(2)实现文档/档案管理系统的获取、存储、访问与安全控制
文档可以由文档管理系统创建,也可以通过扫描等方式由系统外部创建。在创建/获取这些文档时,需要同步创建相关信息(如关键字、索引,文档的创建时间、存储日期、创建人等元数据)以便于查找。文档库可以实现登入/登出、版本、协作、比较、归档、状态、迁移,以及转储功能。同时,还可以提供报表、搜索、工作流程、权限管理等功能。
基于数据的重要性及控制要求,可以使用ANSI标准859(2008),它有三个级别:正式、修订、托管。
(3)备份和恢复文档/档案
文档/档案管理系统的备份与恢复应当是整个组织所有数据与信息的备份和恢复的一部分。通过连续性计划来减轻威胁的影响,并在发生灾难时,在最短的业务中断时间内恢复。这些计划应该形成书面的政策、规程和信息。
(4)保留和处置文档/档案
文档/档案的保留计划应当符合法规的要求,在规定的时间段内,规定哪些文档/档案不再其作用而转移到二级存储设备上,并确定如何销毁文档/档案。在处理过程中要注意文档/档案的隐私和数据保护问题。
(5)审计文档/档案管理
定期审计要求确保正确的信息在正确的时间送达给正确的人员,以便做出决策和进行营销活动。如下表所示:
10.2.3 内容管理
内容管理是对数据和资源的组织、分类和构造,以便在不同地方存储、发布和重用。包括数据和信息在生命周期各个阶段中不同形式的成品、内容的完整程度和档案生命周期的不同阶段要求不同的保护措施。
(1)定义并维护企业信息分类标准(信息内容架构)
分类法是一种分类的科学和技术,它包含了一些受到约束的词汇,可用于帮助控制导航和搜索系统。分为4种类型:
扁平式分类体系:所有的类别都是平等的,相互之间没有关系;
多面式分类体系:每个节点都和中心节点连接,每个面都是中心节点的属性;
层级式分类体系:至少有两层的树形结构并且是双向的。
网络式分类体系:同时从层级和多面两种模式来组织内容。在网络式分类中任意两个节点之间的连接都是基于他们的联系。
本体是一种模型,代表一套概念和它们在某个领域内概念之间的关联。本体描述的是个体(实例)、类(概念)、属性和关系。它可以是一系列的分类法和常见词汇库,用于知识表达和信息交换。本体通常由多个类和定义组成一个分类层级。
语义建模是一种知识建模,包含一个概念网络。本体就是一个描述知识的语义模型,包括概念和它们之间关系的集合体。
(2)建立信息内容元数据文档/索引
维护非结构化的元数据实际上是维护各类本地分类与企业级元数据统一分类之间的交叉引用关系。这个工作量比较大,一般会由一个专门的团队来执行。
(3)提供内容访问和检索
一旦内容按照元数据/关键词标记并且按照适当的信息内容架构分类,就可以用于检索了。通过元数据概要文件与各个内容主题进行匹配的技术,可以很方便的找到非结构化数据。
搜索引擎是对用户请求的信息进行检索,从网页内容中包含该关键词的网站获取信息的软件。依靠自然语言、机读信息、模糊搜索方法、资源描述格式(RDF)元数据、本体和XML等技术可以帮助用户找到其想看到的内容。
计算机程序无法直接处理非结构化数据内容,但XML(可扩展标记语言)可以识别和标注非结构化数据内容,使计算机程序能够识别和处理这些内容。非结构化和半结构化数据对于数据仓库和商务智能来说越来越重要,因此,很多数据仓库都包含了帮助使用者查找和分析非结构化数据的结构化索引。
(4)治理内容质量
非结构化数据的管理需要考虑与结构化数据治理相似的动态因素。在一个组织中治理的重点包括文档和档案的保留政策、电子签名政策、报告形式以及报告分配政策。数据管理专业人士负责实施和执行这些政策。
定义档案和内容质量与结构化数据一样存在着困难。
相关文章:

DAMA数据管理知识体系指南之文档和内容管理
第10章 文档和内容管理 10.1 简介 文档和内容管理是对存储在关系数据库以外的信息的采集、存储、访问以及使用的控制活动。文档和内容管理的侧重点在完整性和访问控制上。因此,它与关系数据库的数据操作管理大致相同。由于多数非结构化数据与存储在结构化文件中的…...
C++入门:数据结构
C/C 数组允许定义可存储相同类型数据项的变量,但是结构是 C 中另一种用户自定义的可用的数据类型,它允许您存储不同类型的数据项。结构用于表示一条记录,假设您想要跟踪图书馆中书本的动态,您可能需要跟踪每本书的下列属性&#x…...

C语言实现烟花表白,内含源码!!
虽然现在看烟花有一定难度,但代码式烟花可以随时随地看! 烟花的代码很多,实际上是可以用 Python、HTML5 等语言写烟花,但今天主要想和大家分享用C语言写的烟花代码,非常细致和实用。 同学们一定要亲自敲一遍…...

虚拟机安装CentOS 7(带界面)
目录 一、虚拟机安装CentOS 7(带界面) 1、打开下好的VMware,点击创建虚拟机 2、下一步 3、点击下一步 4、选择Linux,ContOS7,点击下一步 5、修改虚拟机名称和路径 6、下一步 7、点击自定义硬件 8、设置虚拟机大…...

Java测试——selenium具体操作
selenium的前置准备工作可以参考我之前的博客:Java测试——selenium的安装与使用教程 这篇博客讲解一下selenium的常见操作 先创建driver ChromeDriver driver new ChromeDriver();输入网址 driver.get("https://www.baidu.com");常见操作 查找元素…...

电子器件系列32:逻辑与门芯片74LS11
一、编码规则 先看看这个代码的意思:74LS11 74是一个系列(74 表示为工作温度范围,74: 0 ~ 70度。) ls的意思就是工艺类型(Bipolar(双极)工艺) 11是代码 什么是74系列逻辑芯片? - 知乎 什么是…...

LeetCode-101. 对称二叉树
目录题目分析递归法题目来源 101. 对称二叉树 题目分析 首先想清楚,判断对称二叉树要比较的是哪两个节点,要比较的可不是左右节点! 对于二叉树是否对称,要比较的是根节点的左子树与右子树是不是相互翻转的,理解这一…...
使用intlinprog求解指派问题MATLAB代码分享
% 输入指派矩阵C [3 8 2 10 3;8 7 2 9 7;6 4 2 7 5;8 4 2 3 5;9 10 6 9 10];f C(:); %生成一个列向量,作为目标函数系数,matlab默认以列排序[m,n] size(C);Aeq zeros(2*n,n*n); %2*n个等式约束,n*n个变量for i 1:n %这里先生成的是后5个…...

Spark On YARN时指定Python版本
坑很多,直接上兼容性最佳的命令,将python包上传到hdfs或者file:/home/xx/(此处无多余的/) # client 模式 $SPARK_HOME/spark-submit \ --master yarn \ --deploy-mode client \ --num-executors 2 \ --conf "spark.yarn.dist.archives<Python包…...
[数据库]库的增删改查
●🧑个人主页:你帅你先说. ●📃欢迎点赞👍关注💡收藏💖 ●📖既选择了远方,便只顾风雨兼程。 ●🤟欢迎大家有问题随时私信我! ●🧐版权:本文由[你帅…...

Wine零知识学习1 —— 介绍
一、什么是Wine Wine是“Wine Is Not an Emulator” 的首字母缩写,是一个能够在多种POSIX-compliant操作系统(诸如Linux、macOS及BSD等)上运行 Windows 应用的兼容层。Wine不像虚拟机或者模拟器那样模仿内部的Windows逻辑,而是將…...

设计模式--建造者模式 builder
设计模式--建造者模式 builder)建造者模式简介建造者模式--小例子(电脑购买)1.产品类2.抽象构建者3.实体构建类4.指导者类5.客户端测试类小结建造者模式简介 建造者模式有四个角色,概念划分如下: Product : 产品类&a…...

终于周末啦,继续来总结一下Python的一些知识点啦
目录 Python概念梳理 常见概念梳理 Python经典判断题 判断题 选择题 Python概念梳理 常见概念梳理 Python中,不仅仅变量的值是可以变化的,类型也是可以随时变化的 1、Python的变量必须初始化否则提示 is not defined 2、if、while中定义的变量在…...

CUDA By Example(八)——流
文章目录页锁定主机内存可分页内存函数页锁定内存函数CUDA流使用单个CUDA流使用多个CUDA流GPU的工作调度机制高效地使用多个CUDA流遇到的问题(未解决)页锁定主机内存 在之前的各个示例中,都是通过 cudaMalloc() 在GPU上分配内存,以及通过标准的C库函数 …...

02- pandas 数据库 (数据库)
pandas 数据库重点: pandas 的主要数据结构: Series (一维数据)与 DataFrame (二维数据)。 pd.DataFrame(data np.random.randint(0,151,size (5,3)), # 生成pandas数据 index [Danial,Brandon,softpo,Ella,Cindy], # 行索引 …...
less常用语法总结
CSS预处理器 CSS 预处理器是什么?一般来说,它们基于 CSS 扩展了一套属于自己的 DSL,来解决我们书写 CSS 时难以解决的问题: 语法不够强大,比如无法嵌套书写导致模块化开发中需要书写很多重复的选择器;没有变量和合理的样式复用机制,使得逻辑上相关的属性值必须以字面量…...

DHCP Relay中继实验
DHCP Relay实验拓扑图设备配置结果验证拓扑图 要求PC1按照地址池自动分配,而PC要求分配固定的地址,网段信息已经在图中进行标明。 设备配置 AR1: AR1作为DHCP Server基本配置跟DHCP Server没区别,不过要加一条静态路由ÿ…...

“1+1>2”!《我要投资》与天际汽车再度“双向奔赴”!
文|螳螂观察 作者| 图霖 胡海泉老师重磅回归、创始人现场真情告白……新一季的《我要投资》,不仅维持了往季在专业度上的高水准,也贡献了不少高话题度的“出圈”时刻。 在竞争激烈的的综艺节目竞技场,能举办数季的节目,往往都是…...

【分享】订阅金蝶KIS集简云连接器同步OA付款审批数据至金蝶KIS
方案简介 集简云基于钉钉连接平台完成与钉钉的深度融合,实现钉钉OA审批与数百款办公应用软件(如金蝶KIS、用友等)的数据互通,让钉钉的OA审批流程与企业内部应用软件的采购、付款、报销、收款、人事管理、售后工单、立项申请等环节…...
dubbo服务消费
dubbo在服务消费时调用的方法栈比较深,所以得一边看一边记,还是比较费力的。在dubbo服务发现中,我们看到通过ReferenceConfig#get()返回的是要调用接口的代理对象,因此通过接口的代理对象调用方法时是调用InvocationHandler(Invok…...
后进先出(LIFO)详解
LIFO 是 Last In, First Out 的缩写,中文译为后进先出。这是一种数据结构的工作原则,类似于一摞盘子或一叠书本: 最后放进去的元素最先出来 -想象往筒状容器里放盘子: (1)你放进的最后一个盘子(…...
React Native 导航系统实战(React Navigation)
导航系统实战(React Navigation) React Navigation 是 React Native 应用中最常用的导航库之一,它提供了多种导航模式,如堆栈导航(Stack Navigator)、标签导航(Tab Navigator)和抽屉…...

云启出海,智联未来|阿里云网络「企业出海」系列客户沙龙上海站圆满落地
借阿里云中企出海大会的东风,以**「云启出海,智联未来|打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办,现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...
线程同步:确保多线程程序的安全与高效!
全文目录: 开篇语前序前言第一部分:线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案 第二部分:synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块 第三部分ÿ…...

基于Docker Compose部署Java微服务项目
一. 创建根项目 根项目(父项目)主要用于依赖管理 一些需要注意的点: 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件,否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

c#开发AI模型对话
AI模型 前面已经介绍了一般AI模型本地部署,直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。 微软提供了ML.NET来开发和使用AI模型,但是目前国内可能使用不多,至少实践例子很少看见。开发训练模型就不介绍了&am…...

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...

Golang——6、指针和结构体
指针和结构体 1、指针1.1、指针地址和指针类型1.2、指针取值1.3、new和make 2、结构体2.1、type关键字的使用2.2、结构体的定义和初始化2.3、结构体方法和接收者2.4、给任意类型添加方法2.5、结构体的匿名字段2.6、嵌套结构体2.7、嵌套匿名结构体2.8、结构体的继承 3、结构体与…...
Kafka主题运维全指南:从基础配置到故障处理
#作者:张桐瑞 文章目录 主题日常管理1. 修改主题分区。2. 修改主题级别参数。3. 变更副本数。4. 修改主题限速。5.主题分区迁移。6. 常见主题错误处理常见错误1:主题删除失败。常见错误2:__consumer_offsets占用太多的磁盘。 主题日常管理 …...