青岛档案信息网
|      首  页      |   政 务 公 开  |   局 馆 指 南  |   业 务 工 作  |   法 规 标 准  |   征 集 工 作  |   教 育 培 训  |   利 用 效 果 | 
|   青 岛 史 学  |   数 字 青 岛  |   青 岛 大 事  |     特 藏 室    |   藏 品 鉴 赏  |   历史知识库  |   档 案 论 坛  |   数字档案馆 | 
|   照 片 银 行  |   视 频 青 岛  |   学 者 文 库  |     老 青 岛    |   青 岛 风 情  |   青 岛 景 观  |     展 览 厅    |     English   | 
欢迎您: 游客 当前位置: 青岛档案信息网 > 站内搜索
大数据背景下档案信息资源挖掘策略与方法研究
撰稿:杨来青 文章来源:《中国档案》2018年第8期 文章来源:鏉ㄦ潵闈? 发布时间:2018-11-02 16:45:26
【字号: 【打印】 【关闭】

    档案信息资源具有来源多元、内容丰富、信息散布、数据繁杂等特性,对档案部门的档案信息管理控制能力和开发利用能力提出了很高的要求。大数据技术通过新的信息处理模式和技术,解决了一些无法用常规软件工具处理的数据问题,为提升档案信息管理和开发能力提供了新的解决思路和技术手段。

    青岛市档案馆完成的“大数据背景下档案信息资源挖掘策略与方法研究”课题,以大数据技术在档案管理实践中的应用为切入点,就大数据技术与档案信息资源建设、档案信息管理、档案信息开发的有机结合进行了探索,取得了预期的研究成果。该课题荣获2017年度国家档案局优秀科技成果二等奖。

研究成果

1

提出档案信息资源数据化的

档案信息资源建设发展思路

    毫无疑问,传统载体档案的数字化为档案管理带来革命性的变化,极大地提高了档案信息管理和利用效率,也为档案资源长久保存提供了新的手段。但是,受传统数字化理念和技术的影响,早期档案数字化的主要目的是获取图像格式的档案数字化成果,对档案内容的控制和利用主要通过档案目录数据库加以实现,形成典型的“数字图像+档案目录数据库”档案数字化模式。但是,数字化主要承担档案由传统载体转化为电子形态的任务,以满足传统载体档案计算机阅读的需要,并没有直接解决档案内容的控制与开发利用问题。

    随着档案数字化工作的深入开展,特别是“增量电子化”理念和OCR技术的不断发展,为档案信息资源由“数字化”向“数据化”转化提供了基础支撑。

    档案数据化是指将档案信息转化为计算机可以阅读和理解的档案信息资源的过程。数字化对应的基本单元是比特(bits),数据化对应的典型对象则是字节(bytes)和字(words)。档案数据化的目的是实现计算机自动分析、理解和处置档案信息,将利用档案的途径由“页面阅读”转变为“内容控制”“信息开发”。其实现的途径是由计算机识读档案文字,进而借助智慧化的工具转换成计算机可以理解的内容,实现档案利用价值的深度开发。

    与传统的档案信息资源要求内容高度精确不同,在大数据背景之下,精准的档案信息资源虽然弥足珍贵,但并非是资源数据化的必然要求。大数据技术追求的是对概率和趋势的探索与认知,这一目标的实现并非依赖局部或细节的真实性,浩繁而略有瑕疵的大数据所得出的结论比精准的小数据得出的结论更为科学和真实。因此,对档案数据化成果,特别是OCR成果,课题组研究认为,我们完全可以在很大程度上接受其不精确性,这是档案数据化工作的鲜明特点之一。

    考虑到在智慧城市建设的大背景下,数据化档案信息资源具有来源广泛性、类型多样性及数据格式复杂性等特点,课题组研究认为,档案信息资源建设的思路应进一步拓展。在统一的标准和规范体系基础上,建设数字化与数据化、传统资源与非传统资源相结合的档案信息资源库,为通过数据挖掘等技术构建档案信息服务数据库提供基础性信息资源。

2

研究数据挖掘技术在档案

管理中的应用场景与实施策略

面向数据挖掘的档案信息资源体系图


    由于数据化资源包含着丰富的信息,通过数据挖掘,可以帮助我们在档案信息资源建设、管理、开发及档案馆业务管理中发现一些有效的、新颖的模式,对提升档案信息资源管理、开发效率有重要的作用。对此,档案界已经形成了共识。

    但是,在具体实践中,许多档案数据挖掘的研究成果主要是站在纯技术、纯算法角度的解决方案,这与关注档案数据挖掘的人员多是计算机、统计、数学等专业领域人才有一定的关系。课题组研究认为,决定数据挖掘成果价值的,除技术因素外,更加重要的核心因素是“档案意识”和“业务需求”,即应基于档案信息的特性和档案数据挖掘的目标,将数据挖掘技术与档案资源管理、档案信息开发有机结合起来。基于以上认识,课题组针对档案资源建设、档案资源管理、档案资源开发和档案业务管理等4个领域,提出了档案数据挖掘技术的应用场景与实施策略。

    档案资源建设领域数据挖掘技术具有很大的应用空间。其基本原理是对档案资源建设成果进行数据分析,根据数据分析结果建立数据模型,通过数据模型对未来的档案资源建设成果进行比对,以分析存在的问题,发现新的趋势,指导和规范档案资源建设工作。对合规的档案资源建设成果,一方面可以采用数据挖掘技术对其进行分类、聚类,提升档案信息的管理深度;一方面可以通过机器学习,完善数据模型,以更好地开展后续工作。课题组研究表明,通过对机关档案室历年归档文件数量和门类结构、来源结构及保管期限等进行分析,建立归档文件数据模型,对检查归档文件的齐全完整程度和档案保管期限划分的准确性具有明显的辅助作用;通过对归档文件类型的聚类分析,有助于发现新的档案类别和归档工作新趋势,对规范文件材料归档工作具有导向作用。

    再以数据挖掘技术发现档案资源管理中的模式为例。为提高档案检索效率,档案馆(室)需要建立人名索引、文号索引,以往只能靠人工编制,效率低下。在资源数据化的条件下,可以通过构建虚拟人名库、虚拟文件字号库等方式,为解决该问题提供可以接受的替代方案;为便于利用者便捷地浏览档案内容,需要为档案文件建立摘要。数据化条件下,可以通过一定的算法,挖掘首段、尾段,段落首句、段落末句,小标题及“总之”“综上所述”等文字内容,抽取和形成虚拟文件摘要,在一定程度上以低成本满足档案利用的要求。课题组还通过对控制使用档案目录进行词频分析,发现大量与控制使用档案具有相关关系的高频词和具有特定时代特征的词,基于这些分析成果构建的档案开放划控词库,在提高档案开放划控效率方面发挥了积极的作用。

3

构建基于数据挖掘技术的

档案信息资源智能检索模型

    课题组在分析专家利用档案经验和一般利用者查阅档案规律的基础上,构建了11种档案信息检索模型,为一般利用者提供查询利用服务,以求进一步提高档案信息的查全率和查准率。该11种智能检索模型分别为因果关系模型、对象的作用与影响分析检索模型、对象的性质地位分析检索模型、热词检索模型、数据相关关系检索模型、文本相关关系检索模型、递进关系检索模型、类似和相关关系检索模型、近义词检索模型、交叉关系检索模型、人物检索模型。

4

搭建了档案智能检索和共享服务平台

    为探索实现档案信息资源数据挖掘的有效途径,课题组搭建了档案智能检索和共享服务平台,运用关联、分类、聚类等技术设计数据挖掘工具,实现档案资源的智能检索和智能聚合,验证了研究成果的可行性与实用性。

    该平台以档案信息资源的挖掘分析服务为目标,由结构化数据挖掘组件、文本数据挖掘组件、多维建模组件和全文检索组件构成,具有较为实用的数据挖掘和信息服务功能。其中,结构化数据挖掘组件采用分类预测、回归预测、聚类分析、关联分析等主流的数据挖掘技术,以满足不同类型的结构化数据挖掘需求;文本数据挖掘组件由非结构化数据提取模块、语义信息处理模块、基于向量空间模型的文本特征抽取模块等构成,可以满足档案文本信息的数据挖掘功能;多维建模组件采用面向主题的多维数据分析技术,可以从多个角度审视数据,完成多主题、多视角、多层次、多指标及即时、准确的在线数据分析,并支持对关键业务指标的快速比对和预警,最终提供直观、有效的档案服务信息;全文检索组件应用先进的海量中文智能计算技术,如中文智能分词技术、中文概念抽取技术、全文检索技术、自动摘要技术等,从文档的外部特征和内容中抽取信息,以精确的中文智能分词为基础,解决了传统数字档案馆档案信息开发主要采用机械的关键字检索的简单方法,为利用者提供精确的检索结果。

创新点

    一是提出了档案数据化的档案信息资源建设新理念,并针对大数据环境下档案信息资源更加丰富的实际情况,归纳提出数据化档案信息资源的分类标准,为档案信息资源建设的有序开展提供了依据。

    二是拓宽了档案数据挖掘模型的开发思路。课题组通过分析专家检索、应用档案的做法和经验,归纳了档案数据挖掘的一般性规律,提出了常用的数据挖掘算法与档案信息开发有机结合的具体方法,构建了11种智能检索模型,为档案信息资源深度开发利用提供技术支撑。

    三是构建了档案智能检索和共享服务平台。课题组在理论与方法研究的基础上,构建了档案智能检索和共享服务平台,验证了档案智能检索、自动分类、自动聚类、专用词库建设等多项技术的实用性和可行性,为研究成果的推广应用积累了经验。

      作者单位:青岛市档案局

      文章来源:《中国档案》2018年第8期

      图表来源:作者提供

 
 
版权所有:青岛市档案馆 技术维护:青岛市档案馆网站管理中心 技术支持:青岛方天科技股份有限公司
 ICP证号:鲁ICP备18013060号-1 地址:青岛市市北区延吉路148号 邮编:266034  鲁公网安备 37020302370709号