论文部分内容阅读
摘 要:文章解析了档案机构主导的机器学习应用于档案管理的实验项目,旨在充分认识机器学习应用的可行性以及应用逻辑与方法。基于对澳大利亚新南威尔士州机器学习实验的过程分析,发现充足且高质量的数据集、软硬件等基础设施及专业人才是机器学习技术成功应用的重要因素。因此,档案机构应用机器学习技术可从推进档案数据化进程、加强技术型人才储备、立足档案管理实践制定应用方案等方向探索。
关键词:档案管理;档案鉴定;机器学习
分类号:G273
Application and Challenge of Machine Learning in Archives Management
—— Based on the Investigation and Enlightenment of Machine Learning Experiment in New South Wales Archives
Dai Linxu1, Zhang Yujie2
(1.School of Public Administration, Sichuan University, Chengdu, Sichuan, 610065; 2.School of Information Resource Management, Renmin University of China, Beijing, 100872)
Abstract: The article analyzes an experimental project led by an archival institution on the application of machine learning to archival management with the aim of fully understanding the feasibility of machine learning applications and the logic and methods of application. Based on the process analysis of machine learning experiments in New South Wales, Australia, it was found that adequate and high-quality datasets, infrastructure such as hardware and software, and professional talents are important elements for the successful application of machine learning technology. Therefore, the application of machine learning technology by archival institutions can be explored in the direction of promoting the process of archival data, strengthening the reserve of technologyoriented talents, and formulating application solutions based on archival management practices.
Keywords:Archives Management; Archives Appraisal; Machine Learning
数字环境下档案管理工作变得愈加复杂:一方面,数字化、数据化档案资源数量庞大且增长迅速[1],为以人工为主的档案管理工作带来了巨大压力,同时,类型多样、半结构化及非结构化的档案信息或数据也使档案管理工作变得更加烦琐和复杂[2];另一方面,档案服务对象也呈现出多样化趋势,传统的检索及借阅服务已经无法满足用户的个性化需求,档案馆难以提供专业化、知识化的服务内容或特色服务[3]。因此,寻求新技术以提高档案管理效率及现代化程度,促进档案管理工作自动化、智能化已成为迫切需求[4],机器学习作为人工智能中最活跃的技术领域之一,探究机器学习在档案管理中的应用成为实践热点。
在研究层面,机器学习在档案管理中的应用主要从以下方面展开:一是机器学习应用于档案管理的合理性。一方面,数字档案具有直接的机器可读性,计算机算法可以检测、识别和捕捉包括数据结构层次、元数据层次及文件表层的数字档案信息,有助于用户对档案资源进行多方面、多层次的挖掘[5]。另一方面,在数字环境下,档案馆庞大的馆藏与有限的人力资源之间的矛盾愈加凸显,计算机为辅助、人工为主导的管理模式存在效率低、成本高、难以挖掘出档案信息中隐含价值等缺点[6]。二是机器学习应用于档案管理的模式。研究认为,机器学习的应用逻辑是以档案管理需求为导向,以具体应用场景为核心,即档案管理各业务环节中面临着投入大量人力劳动的压力及低效率风险时,需要利用机器学习实现自动化及智能化处理[7]。大量研究已立足于档案管理具体应用场景开展算法设计和可行性验证,如档案类别的重新划分和自动分类[8]、历史档案信息的提取分析[9]、档案的保存期限及密级鉴定[10]、档案检索[11]等。三是在档案管理中应用机器学习的挑战及对策。首先,机器学习的时间成本过高,在数据及信息的识别和理解方面也具有一定的局限性[12]。研究指出,人机协同和融合的档案管理模式有助于实现机器与人两者的优势互补[13]。其次,机器理解具有复杂结构的檔案资源存在一定困难,同时,冗余及低质量、不相关的数据会导致误导性偏差或运行错误[14]。研究认为,可以比较不同算法的训练成果选出最优解,并通过不断地训练提高其精确性。最后,档案本身具有的保密性,应用机器学习必然需要大量的档案数据,存在数据泄露等风险[15]。因此研究认为,需要构建一个结构合理的责任体系和利用规范,避免数据的滥用和盗用[16]。 在实践层面,一些探索性、实验性的实践项目陆续开展,多由档案工作者与技术研究人员等跨界组成研究团队展开,且以文本数据和图像数据作为主要的实验对象[17]。例如2018年,In Codice Ratio团队以梵蒂冈档案馆(VSA)保存的历史档案为实验对象,使用深度学习结构中的卷积神经网络算法开发内容分析工具,识别历史档案中大量的手写文字并进行单词转化,以期为研究人员提供更便捷、高效的检索服务[18];2017年,澳大利亚新南威尔士州档案馆(NSWSAR)团队以机构非结构化档案数据作为实验对象,借助现成的机器学习工具对数据进行分类和鉴定[19];同年,美国自然历史博物馆以其植物标本图像作为实验对象,使用卷积神经网络算法分析图像特征并按照形态相似程度进行自动分类[20]。从大多数实践项目呈现出的实验结果来看,经过充分的训练,算法的准确率能达到较高水平,且在档案管理实践的可容错范围内,这也进一步验证了机器学习应用于档案管理领域的可行性。
综上,现有研究对于机器学习应用于档案管理的可行性及应用模式进行了较为充分的研究,但在实践中,不同领域、不同管理机构、不同全宗形成或持有的档案都有其特殊性,机器学习仍然需要人工识别和预测任务、选择合适的算法、获得足够的训练、花费大量的时间和成本[21],在应用过程中也会面临客观条件受限的可能。而目前缺少案例研究对实践经验进行充分的分析,对机器学习如何应用于档案管理提供的参考较为有限。因而,文章以案例研究的方法对澳大利亚新南威尔士州档案馆机器学习实验进行介绍,以期为我国档案机构探索机器学习的具体应用提供方向。
2.1 实验背景与目标
机器学习在文件及档案管理领域有大量潜在的應用场景,然而在该技术被大量采用之前,需要有经过验证的使用案例来说明这些工具的工作效果,并确定其可能带来的风险[22]。NSWSAR机器学习实验详细记录了其算法及工具选择、数据处理、实验方法、结果评估的全过程,充分反映了机器学习在档案管理实践中的应用效果,且语料库为行政文书类档案数据,相较于其他案例与我国应用现实更相关,实验经验具有很强的可移植性和可操作性;同时,该实验在缺少技术成员支撑与经费支持的情况下采用了低成本及使用现成技术的解决方案,也为档案馆解决应用机器学习的技术障碍提供了新思路。NSWSAR数字档案团队于2017年计划开展内部和外部实验,探索机器学习在档案管理中的应用。首先,该团队于2017年11月至12月完成了一次内部实验。该实验采用现成的机器学习软件,对照该机构档案鉴定的标准与规定对非结构化档案数据的语料库进行分类。这一档案语料库已经过前期的人工鉴定,通过对比机器学习算法的分类结果与人工鉴定结果,测试机器学习算法的准确度。其次,数字档案团队和澳大利亚总理与内阁部(DPC)在2018年6月至7月合作开展了一次外部实验,主要目标是验证内部实验形成的算法模型与DPC提供的电子文件语料库的匹配程度。
2.2 内部实验
在前期准备阶段,一方面,由于资源、预算有限,实验选择针对Python编程语言的免费、开源的机器学习库Scikit-Learn作为技术工具,该工具是为用户提供可进行模型拟合、数据预处理、模型选择和评估的高质量、有据可查的规范化工具集,其优势在于简单有效、支持监督和无监督学习[23];另一方面,项目团队选择用于内部实验的语料库是2016年由州政府某部门迁移至数字档案馆系统中的档案集合,其特殊之处在于它包含了完整的机构文件夹结构。在迁移时,由档案馆与该部门合作,根据分类和处置机构行政文件的一般性标准(GA28)进行了人工鉴定,鉴定结果为:共计12369份档案需要作为国家档案被保存,而完整的档案集合由30GB的数据组成,分为7561个文件夹,包含42653个文件[24]。
在实验测试阶段,项目使用机器学习算法进行自动化分类的具体步骤如下:
(1)文本提取。为确保项目后期的顺利开展和进一步的文本处理,项目选择了容易被提取文本的文件类型如PDF、DOCX、DOC格式的文件,因此在被列为国家档案的12369份文件中,只有8784份文件被选中使用。首先在对样本集进行简单排序后,使用Python算法从文件中提取文本,并列出作为唯一标识符的文件名、所属分类和文本提取内容。
(2)数据清理。项目团队采取了一种非常基本的数据清理方法,即删除文件格式、删除休止符、删除不需要的文件以及将所有字母转换为小写。
(3)文本向量化。机器学习和深度学习算法不能直接对文本进行处理,必须将文本转化为机器学习算法能够理解和处理的数值,因此实验需要将文本转化为数字特征向量,使用词袋模型构建“文档—词项”矩阵,该矩阵描述了文件中主要词项的出现频率。
(4)词频—逆向文件频率加权计算(TF-IDF)。在文本向量化过程中容易将出现频率较高的无意义词条或与文件主要内容相关度较低的词条填充至矩阵中,如“Are”“The”“It”等,但这些词条对于“文档—词项”矩阵表示没有意义。因此项目团队使用TF-IDF权重计算方法判断该词条是否是文件的关键词;之后训练数据和测试数据分组开展实验。实验采用了标准比例,即75%的训练数据和25%的测试数据。项目团队从语料库抽取了预分类“需要作为国家档案”数据集中的75%,并利用这些数据来训练建立模型的算法,项目使用了朴素贝叶斯模型和多层感知模型两种广泛应用的机器学习算法来建立模型。训练完成后,同样的算法和模型被用来处理纳入测试数据集的其他25%的数据。基于此,项目可以评估模型的准确度并确定、比较两种算法准确分类的百分比。
在结果分析阶段,如表2所示,使用多层感知器算法的分类匹配率最高达到84%;同时综合表1及表2,比较两种算法的测试结果以及两种算法在未清理数据和已清理数据中运行的表现,项目团队认为,机器学习技术能够协助对未分类的非结构化数据进行分类处置[25]。另外,项目团队根据实验经验总结了应用机器学习技术的局限性,如算法分类过程中所犯的错误只会随着时间的推移在模型中累积,且不会得到纠正,这将会导致最终测试结果产生偏差。 2.3 外部实验
外部实验的开展主要是为了验证前期内部实验的结果,两者相比,外部实验在参与主体方面涉及一个外部机构合作伙伴;在档案数据方面使用的语料库为数据量更大、涉及更多样处置结果和类别并且带有标签的语料库,这种大规模且更为复杂的档案数据集也非常适用于验证前期内部实验结果;在技术使用方面选择与内部实验相同的多层感知器算法,并将Scikit-Learn恢复为内部实验的初始设置,同时增加使用了Aspose文件格式API工具从电子文件中提取文本,减少数据浪费,为算法模型提供了更多数据。
在前期准备阶段,项目团队首先从DPC提供的语料库中提取出用于本次实验的电子文件共108064个,其次于2018年6月27日至7月5日进行文本提取工作,为算法模型准备测试数据,由于部分文件中包含数字图像或图表数据不适合应用算法模型进行分类测试,未能成功提取文本,最终筛选得到86453个可用的文件,最后团队将电子文件转换为CSV文件格式以便在模型中运行[26]。
在实验测试阶段,算法模型第一次运行后分类预测成功率高达91%和97%(试验1、试验2),项目团队判断该语料库存在数据权重失衡的问题,其中大概三分之二的数据(62988个文件)都属于FA254-02.02.02这个类别,因此该试验的预测结果不具有可信度。为使数据集更具代表性,从而使预测结果更加真实,项目团队决定排除该类别的文件运行测试(测试1),同时使用根据不同类别和保管期限表分类的部分语料进行了一系列测试,以了解预测准确性如何根据语料库包含的处置类别变化而变化(测试2—测试6)。另外,项目团队以21805个物理文件(即没有成功提取文本进行分类的电子文件)的XML元数据作为测试数据集进行最后测试(测试7)。
在结果分析阶段,外部实验测试结果[27](如表 3所示)与内部实验的结果大体相当,验证了机器学习算法的可用性,但为保证分类结果的正确性,仍然离不开人工的检查和微调;同时,本次实验说明了语料库的特征如数据类别覆盖范围的大小以及复杂性对机器学习算法的运行结果有一定的影响。
2.4 实验经验与不足
NSWSAR的实验表明,档案机构可以通过机器学习来实现数字档案的自动化分类以及完成识别具备长久保存价值的数字档案的决策过程,实验数据也反映出使用机器学习具有相当高的准确性,并且原则上,这种算法模型可以很容易地集成到档案馆的数字档案馆系统中,以提高档案分类、鉴定的效率与质量。文章根据NSWSAR实验进行过程中面临的障碍及解决方案总结经验:
首先,充足且高质量的数据集是机器学习实验的关键。正如前文所强调的,数据是机器学习的核心,一方面,机器学习需要大量的数据开展训练,另一方面数据集的规模、质量和特征等要素对机器学习算法模型的学习效果和预测效果都有极大的影响。理论上说,数据量越大,所训练出的机器学习算法模型也就越逼近真实情况;数据集的质量越好,所训练出的算法模型准确率就越高,因此实验前期准备阶段的基础工作如数据清理、数据提取等就显得尤为重要,例如NSWSAR数字档案团队在内部实验中首先在语料库中进行了筛选,其次通过文本提取的方式剔除机器无法读取的信息,最后通过删除休止符、删除文件格式等基础的操作进行数据清理,在外部实验中进一步利用Aspose文件格式API集提升文本提取的质量和效果,有效避免了数据浪费。
其次,软硬件等基础设施及专业人才是机器学习实验的基础。在基础设施上,机器学习实验不仅要有大量的训练数据集,而且还要在本地计算机上拥有足够的计算能力来处理模型,同时在开发内部软件项目时应编写文档齐全、测试良好的代码。在专业人才支持上,实验既需要专门的信息与通信技术或者数据科学方面的知识,也需要了解数据内容和档案管理知識及标准规范的专家。NSWSAR提供的资源有限,数字档案团队仅拥有一台性能强大、具备充足内存和固态硬盘的机器来运行模型,因此在内部实验期间团队接收了一位具有机器学习算法运行经验的计算机专业研究生为实验提供技术支持,利用Scikit-Learn提供的预构建分类器算法减少算法设计开发的成本和时间。
然而NSWSAR开展的实验仅说明了机器学习用于档案管理的可行性,但该实验尚未立足于新南威尔士州档案管理的实践环境进行测试,如要将机器学习具体应用于档案管理实践,还有更多亟需解决的问题,例如引入机器学习技术后如何相应地调整档案管理方法与流程?机器学习算法的偏差如何进行检测?应用机器学习进行档案的分类、鉴定等工作后如何建立问责机制[28]?
把握人工智能发展的战略机遇已成为中国档案事业建设的关注重点,但实践仍处于探索阶段:一方面,人工智能技术应用于档案领域已获得国家层面的鼓励与推动。2017年国务院发布《新一代人工智能发展规划》并提出,在人工智能发展的新阶段把握人工智能技术属性与社会属性高度融合的特征,加大人工智能的研发和应用力度,推进社会治理现代化[29];2018年国家档案局档案科学技术研究所与科大讯飞签署合作协议,共同推动人工智能技术在档案管理中的应用,以实现档案智慧化转型升级[30]。另一方面,整体实践呈现出应用场景集中、应用范围待拓展的状况。目前我国实践项目多采用档案机构与企业、科研机构合作的模式,技术应用场景集中于档案数据化、影像修复、档案分类鉴定等领域[31],如浙江省档案馆与科大讯飞合作并基于人工智能技术实现音视频档案的全文数据化,建立人物人脸数据库[32];但相较而言,档案分类鉴定场景下存在技术应用难度大、风险度高的问题。因此,借鉴NSWSAR机器学习实验的经验,可为我国开展类似实验项目提供探索方向: 第一,推动档案数据化进程。(1)为机器学习的应用提供数据基础。数字档案是文字、图像、视频、音频等多种形式组合的复杂信息,为机器学习提取、理解、分析信息带来挑战,目前的实验项目仅能对档案的文本或图像信息进行识别和处理,应用于档案管理实践则会造成档案信息的损失,同时传统的纸质档案数字化、数据化程度不足,其数字化版本与原生数字档案相比元数据等背景信息不够丰富和完整[33]。因此,推进档案数据化进程,将数字态档案转化为数据态,对档案信息进行拆分、提取、组合和结构化,实现机器的可理解、可分析[34],为机器学习应用于档案管理并实现档案管理智能化奠定基础。(2)设计并建立配套的数据管理制度,实现管理技术工具、政策标准、流程步骤等的内在统一。将机器学习应用于档案管理的具体业务环节,需要档案机构调整原有的档案管理方法或流程,明确融入机器学习且适用于档案数据特征及要求的数据管理具体实践内容,包括数据收集、创建、处理、分析与存储等环节,保障数据管理政策与程序、规则与模型的完整性和长期可持续性。
第二,加强技术型人才储备。机器学习技术的快速更新与发展要求具有相关技能的人才和专家来支持、促进机器学习在档案管理中的应用。因此,当前档案机构机器学习技术型人才和专家的缺乏,阻碍了技术的实施与推广,以至于成为档案机构应用机器学习的一大挑战,也给文件、档案管理人员的专业能力提出了更高要求。为应对此挑战,档案机构需要培养机器学习相关的专业知识和技术运用能力,加强对技术本身的理解,以确保满足未来的文件及档案管理需求。同时,应提高档案人才队伍中高层次、高技能人才的比重,尤其需要补充计算机等专业背景的技术型人才。档案工作者应利用机器学习技术的出现所带来的机会,探索技术潜力以及更广泛的应用场景,并且鼓励跨机构、跨国界交流和展示学习成果,以减轻行业内部的知识和技能差距[35]。
第三,立足档案管理实践制定应用方案。(1)档案机构需要根据其实际情况选择合理可行的技术路线。一方面,档案机构可通过实验对比、评估多种技术路线的实验测试结果,选择最优的算法模型,同时,明确档案数据类型及特征等因素对算法模型预测准确性的影响,调整适应机器学习技术的档案管理方法与流程,促进机器学习技术优势发挥程度的最大化;另一方面,档案机构应判断软硬件条件、项目资金、项目团队是否满足将机器学习应用于档案管理实践的基本条件,机器学习的成本、时间以及算法模型的耐久性、可扩展性、可重复使用性等因素也应纳入参考范围[36]。(2)针对应用机器学习技术可能产生的技术、法律等方面的问题制定保障措施。在技术问题上,档案机构应明确算法模型的评估检测机制,如在机器学习算法运行结果出现异常或者与预期差异较大时,机构可以通过确定问题、系统地测试以隔离错误的来源以及重现问题,形成解决方案以保障算法顺利运行等方式进行故障排除[37]。在法律问题上,档案数据安全的保障及隐私保护应成为档案机构关注的重点。档案机构需要增强机器学习算法识别敏感数据的能力[38],并在分类、鉴定等管理过程中通过标记禁止开放、限制访问权限等方式隔离敏感内容,避免档案数据的泄露。
文章梳理了新南威尔士州档案馆探索机器学习应用的实验项目,分析了该项目的成功经验与不足,据此提出我国档案机构应用机器学习的探索方向。但随着机器学习的可用性和适配性得到实践的验证,并逐步成为推进档案管理智能化、智慧化发展的重要技术工具,大数据时代档案管理的优化与机器学习的应用如何相互支持并形成完整的技术应用方案与策略,还需要持续探索。
注释与参考文献
[1]周枫,吕东伟.基于“智能+”档案管理初探[J].北京档案,2019(9): 39-41.
[2]陈慧,罗慧玉,张凯等.AI赋能档案:AI技术在档案管理中的赋能模式探究[J].山西档案, 2020(4): 76-83+131.
[3][13]陈会明,史爱丽,王宁等.人工智能在档案工作中的应用实践与挑战——以北京市市场监督管理局为例[J]. 档案与建设, 2019(7): 53-56.
[4]趙跃,段先娥.国外公共档案馆发展趋势及启示[J].浙江档案, 2020(10): 26-28.
[5]C. A. LEE. Computer-Assisted Appraisal and Selection of Archival Materials[C].2018 IEEE International Conference on Big Data. Seattle. WA, USA: Curran Associates, 2018: 2721-2724.
[6][8]霍光煜,张勇,孙艳丰,尹宝才.基于语义的档案数据智能分类方法研究[J].计算机工程与应用, 2021(6): 247-253.
[7][15][17][25][33]杨建梁,刘越男.机器学习在档案管理中的应用:进展与挑战[J].档案学通讯,2019(6): 48-56.
[9]F. ESPOSITO,D. MALERBA,G. SEMERARO,etc.Machine learning methods for automatically processing historical documents: from paper acquisition to XML transformation[C/ OL].First International Workshop on Document Image Analysis for Libraries. Palo Alto, CA, USA: Curran Associates, 2004. https://ieeexplore.ieee.org/ document/1263262/.
[10]HUTCHINSON TIM. Natural language processing and machine learning as practical toolsets for archival processing[J].Records Management Journal, 2020(2):155-174. [11]YASSER.A.M,CLAWSON K,BOWERMAN.C.Saving Cultural Heritage with Digital Make-Believe: Machine Learning and Digital Techniques to the Rescue[C/OL].Proceedings of the 31st British Computer Society Human Computer Interaction Conference. Swindon, GBR: BCS Learning &; Development Ltd., 2017. https://doi. org/10.14236/ewic/HCI2017.97.
[12]李子林,熊文景.人工智能对档案管理的影响及发展建议[J].档案与建设,2019(6): 10-13+9.
[14]N. PAYNE, J. R. BARON. Auto-categorization methods for digital archives[C].2017 IEEE International Conference on Big Data. Boston, MA: Curran Associates, 2017: 2288-2298.
[16]隋永.人工智能技术在高校档案管理的应用研究[J]. 电脑知识与技术, 2020(22): 171-172+175.
[18] FIRMANI D, MAIORINO M,MERIALDO P,etc. Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio - Episode 1: Machine Transcription of the Manuscripts[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, 2018: 263-272.
[19][22]GLEN HUMPHRIES. Machine Learning and Records Management[EB/OL].[2021–01–04]. http://machine-learning-and-recordsmanagement/.
[20]SCHUETTPELZ.E, FRANDSEN. P.B, DIKOW.R.B,etc. Applications of deep convolutional neural networks to digitized natural history collections[J]. Biodiversity Data Journal, 2017: e21139.
[21][35]ROLAN G,HUMPHRIES G,JEFFREY L,etc.More human than human Artificial intelligence in the archive[J]. Archives and Manuscripts, 2019 (2): 179-203.
[23]SCIKIT-LEARN.scikitlearn: machine learning in Python- scikitlearn 0.24.1 documentation[EB/OL].[2021–02–27].https://scikit-learn. org/stable/.
[24]GLEN HUMPHRIES. Case Study – Internal Pilot – Machine Learning and Records Management[EB/ OL].[2021–01–04].https:// futureproof.records.nsw.gov.au/casestudy-internal-pilot-machine-learningand-records-management/.
[26][27][28]GLEN HUMPHRIES. Case Study – External Pilot – Machine Learning and Records Management[EB/OL].[2021–01–04].https://futureproof.records.nsw. gov.au/case-study-external- pilot-machinelearning-and-records-management/.
[29]國务院.国务院关于印发新一代人工智能发展规划的通知[EB/ OL].[2020–11–30]. http://www. gov.cn/zhengce/zhengceku/2017-07/20/ content_5211996.htm.
[30]冯丽伟. 国家档案局科研所联手科大讯飞签署全面战略合作协议[J]. 中国档案, 2018(5): 10.
[31]祝成. 加快人工智能技术在档案管理工作中的应用[EB/OL].[2021–01–15]. http://www.zgdazxw.com.cn/ news/2021-01/15/content_316467.htm.
[32]浙江省档案馆电子档案管理处. 省档案馆承担的科技项目通过国家档案局验收[EB/OL].[2021–05–26]. http://www.zjda.gov.cn/art/2021/3/12/ art_1229005493_58922762.html.
[34]赵跃.大数据时代档案数据化的前景展望:意义与困境[J]. 档案学研究, 2019(5): 52-60.
[36][37]R.MARCIANO,S. AGARRAT,H.FRISCH,etc. Reframing Digital Curation Practices through a Computational Thinking Framework[C].2019 IEEE International Conference on Big Data. Los Angeles, CA, USA: Curran Associates, 2019: 3126-3135.
[38]J. R. BARON, N. PAYNE. Dark Archives and Edemocracy: Strategies for Overcoming Access Barriers to the Public Record Archives of the Future[C].2017 Conference for E-Democracy and Open Government. Krems: Curran Associates, 2017:3-11.
关键词:档案管理;档案鉴定;机器学习
分类号:G273
Application and Challenge of Machine Learning in Archives Management
—— Based on the Investigation and Enlightenment of Machine Learning Experiment in New South Wales Archives
Dai Linxu1, Zhang Yujie2
(1.School of Public Administration, Sichuan University, Chengdu, Sichuan, 610065; 2.School of Information Resource Management, Renmin University of China, Beijing, 100872)
Abstract: The article analyzes an experimental project led by an archival institution on the application of machine learning to archival management with the aim of fully understanding the feasibility of machine learning applications and the logic and methods of application. Based on the process analysis of machine learning experiments in New South Wales, Australia, it was found that adequate and high-quality datasets, infrastructure such as hardware and software, and professional talents are important elements for the successful application of machine learning technology. Therefore, the application of machine learning technology by archival institutions can be explored in the direction of promoting the process of archival data, strengthening the reserve of technologyoriented talents, and formulating application solutions based on archival management practices.
Keywords:Archives Management; Archives Appraisal; Machine Learning
1 引言
数字环境下档案管理工作变得愈加复杂:一方面,数字化、数据化档案资源数量庞大且增长迅速[1],为以人工为主的档案管理工作带来了巨大压力,同时,类型多样、半结构化及非结构化的档案信息或数据也使档案管理工作变得更加烦琐和复杂[2];另一方面,档案服务对象也呈现出多样化趋势,传统的检索及借阅服务已经无法满足用户的个性化需求,档案馆难以提供专业化、知识化的服务内容或特色服务[3]。因此,寻求新技术以提高档案管理效率及现代化程度,促进档案管理工作自动化、智能化已成为迫切需求[4],机器学习作为人工智能中最活跃的技术领域之一,探究机器学习在档案管理中的应用成为实践热点。
在研究层面,机器学习在档案管理中的应用主要从以下方面展开:一是机器学习应用于档案管理的合理性。一方面,数字档案具有直接的机器可读性,计算机算法可以检测、识别和捕捉包括数据结构层次、元数据层次及文件表层的数字档案信息,有助于用户对档案资源进行多方面、多层次的挖掘[5]。另一方面,在数字环境下,档案馆庞大的馆藏与有限的人力资源之间的矛盾愈加凸显,计算机为辅助、人工为主导的管理模式存在效率低、成本高、难以挖掘出档案信息中隐含价值等缺点[6]。二是机器学习应用于档案管理的模式。研究认为,机器学习的应用逻辑是以档案管理需求为导向,以具体应用场景为核心,即档案管理各业务环节中面临着投入大量人力劳动的压力及低效率风险时,需要利用机器学习实现自动化及智能化处理[7]。大量研究已立足于档案管理具体应用场景开展算法设计和可行性验证,如档案类别的重新划分和自动分类[8]、历史档案信息的提取分析[9]、档案的保存期限及密级鉴定[10]、档案检索[11]等。三是在档案管理中应用机器学习的挑战及对策。首先,机器学习的时间成本过高,在数据及信息的识别和理解方面也具有一定的局限性[12]。研究指出,人机协同和融合的档案管理模式有助于实现机器与人两者的优势互补[13]。其次,机器理解具有复杂结构的檔案资源存在一定困难,同时,冗余及低质量、不相关的数据会导致误导性偏差或运行错误[14]。研究认为,可以比较不同算法的训练成果选出最优解,并通过不断地训练提高其精确性。最后,档案本身具有的保密性,应用机器学习必然需要大量的档案数据,存在数据泄露等风险[15]。因此研究认为,需要构建一个结构合理的责任体系和利用规范,避免数据的滥用和盗用[16]。 在实践层面,一些探索性、实验性的实践项目陆续开展,多由档案工作者与技术研究人员等跨界组成研究团队展开,且以文本数据和图像数据作为主要的实验对象[17]。例如2018年,In Codice Ratio团队以梵蒂冈档案馆(VSA)保存的历史档案为实验对象,使用深度学习结构中的卷积神经网络算法开发内容分析工具,识别历史档案中大量的手写文字并进行单词转化,以期为研究人员提供更便捷、高效的检索服务[18];2017年,澳大利亚新南威尔士州档案馆(NSWSAR)团队以机构非结构化档案数据作为实验对象,借助现成的机器学习工具对数据进行分类和鉴定[19];同年,美国自然历史博物馆以其植物标本图像作为实验对象,使用卷积神经网络算法分析图像特征并按照形态相似程度进行自动分类[20]。从大多数实践项目呈现出的实验结果来看,经过充分的训练,算法的准确率能达到较高水平,且在档案管理实践的可容错范围内,这也进一步验证了机器学习应用于档案管理领域的可行性。
综上,现有研究对于机器学习应用于档案管理的可行性及应用模式进行了较为充分的研究,但在实践中,不同领域、不同管理机构、不同全宗形成或持有的档案都有其特殊性,机器学习仍然需要人工识别和预测任务、选择合适的算法、获得足够的训练、花费大量的时间和成本[21],在应用过程中也会面临客观条件受限的可能。而目前缺少案例研究对实践经验进行充分的分析,对机器学习如何应用于档案管理提供的参考较为有限。因而,文章以案例研究的方法对澳大利亚新南威尔士州档案馆机器学习实验进行介绍,以期为我国档案机构探索机器学习的具体应用提供方向。
2新南威尔士州档案馆机器学习实 验
2.1 实验背景与目标
机器学习在文件及档案管理领域有大量潜在的應用场景,然而在该技术被大量采用之前,需要有经过验证的使用案例来说明这些工具的工作效果,并确定其可能带来的风险[22]。NSWSAR机器学习实验详细记录了其算法及工具选择、数据处理、实验方法、结果评估的全过程,充分反映了机器学习在档案管理实践中的应用效果,且语料库为行政文书类档案数据,相较于其他案例与我国应用现实更相关,实验经验具有很强的可移植性和可操作性;同时,该实验在缺少技术成员支撑与经费支持的情况下采用了低成本及使用现成技术的解决方案,也为档案馆解决应用机器学习的技术障碍提供了新思路。NSWSAR数字档案团队于2017年计划开展内部和外部实验,探索机器学习在档案管理中的应用。首先,该团队于2017年11月至12月完成了一次内部实验。该实验采用现成的机器学习软件,对照该机构档案鉴定的标准与规定对非结构化档案数据的语料库进行分类。这一档案语料库已经过前期的人工鉴定,通过对比机器学习算法的分类结果与人工鉴定结果,测试机器学习算法的准确度。其次,数字档案团队和澳大利亚总理与内阁部(DPC)在2018年6月至7月合作开展了一次外部实验,主要目标是验证内部实验形成的算法模型与DPC提供的电子文件语料库的匹配程度。
2.2 内部实验
在前期准备阶段,一方面,由于资源、预算有限,实验选择针对Python编程语言的免费、开源的机器学习库Scikit-Learn作为技术工具,该工具是为用户提供可进行模型拟合、数据预处理、模型选择和评估的高质量、有据可查的规范化工具集,其优势在于简单有效、支持监督和无监督学习[23];另一方面,项目团队选择用于内部实验的语料库是2016年由州政府某部门迁移至数字档案馆系统中的档案集合,其特殊之处在于它包含了完整的机构文件夹结构。在迁移时,由档案馆与该部门合作,根据分类和处置机构行政文件的一般性标准(GA28)进行了人工鉴定,鉴定结果为:共计12369份档案需要作为国家档案被保存,而完整的档案集合由30GB的数据组成,分为7561个文件夹,包含42653个文件[24]。
在实验测试阶段,项目使用机器学习算法进行自动化分类的具体步骤如下:
(1)文本提取。为确保项目后期的顺利开展和进一步的文本处理,项目选择了容易被提取文本的文件类型如PDF、DOCX、DOC格式的文件,因此在被列为国家档案的12369份文件中,只有8784份文件被选中使用。首先在对样本集进行简单排序后,使用Python算法从文件中提取文本,并列出作为唯一标识符的文件名、所属分类和文本提取内容。
(2)数据清理。项目团队采取了一种非常基本的数据清理方法,即删除文件格式、删除休止符、删除不需要的文件以及将所有字母转换为小写。
(3)文本向量化。机器学习和深度学习算法不能直接对文本进行处理,必须将文本转化为机器学习算法能够理解和处理的数值,因此实验需要将文本转化为数字特征向量,使用词袋模型构建“文档—词项”矩阵,该矩阵描述了文件中主要词项的出现频率。
(4)词频—逆向文件频率加权计算(TF-IDF)。在文本向量化过程中容易将出现频率较高的无意义词条或与文件主要内容相关度较低的词条填充至矩阵中,如“Are”“The”“It”等,但这些词条对于“文档—词项”矩阵表示没有意义。因此项目团队使用TF-IDF权重计算方法判断该词条是否是文件的关键词;之后训练数据和测试数据分组开展实验。实验采用了标准比例,即75%的训练数据和25%的测试数据。项目团队从语料库抽取了预分类“需要作为国家档案”数据集中的75%,并利用这些数据来训练建立模型的算法,项目使用了朴素贝叶斯模型和多层感知模型两种广泛应用的机器学习算法来建立模型。训练完成后,同样的算法和模型被用来处理纳入测试数据集的其他25%的数据。基于此,项目可以评估模型的准确度并确定、比较两种算法准确分类的百分比。
在结果分析阶段,如表2所示,使用多层感知器算法的分类匹配率最高达到84%;同时综合表1及表2,比较两种算法的测试结果以及两种算法在未清理数据和已清理数据中运行的表现,项目团队认为,机器学习技术能够协助对未分类的非结构化数据进行分类处置[25]。另外,项目团队根据实验经验总结了应用机器学习技术的局限性,如算法分类过程中所犯的错误只会随着时间的推移在模型中累积,且不会得到纠正,这将会导致最终测试结果产生偏差。 2.3 外部实验
外部实验的开展主要是为了验证前期内部实验的结果,两者相比,外部实验在参与主体方面涉及一个外部机构合作伙伴;在档案数据方面使用的语料库为数据量更大、涉及更多样处置结果和类别并且带有标签的语料库,这种大规模且更为复杂的档案数据集也非常适用于验证前期内部实验结果;在技术使用方面选择与内部实验相同的多层感知器算法,并将Scikit-Learn恢复为内部实验的初始设置,同时增加使用了Aspose文件格式API工具从电子文件中提取文本,减少数据浪费,为算法模型提供了更多数据。
在前期准备阶段,项目团队首先从DPC提供的语料库中提取出用于本次实验的电子文件共108064个,其次于2018年6月27日至7月5日进行文本提取工作,为算法模型准备测试数据,由于部分文件中包含数字图像或图表数据不适合应用算法模型进行分类测试,未能成功提取文本,最终筛选得到86453个可用的文件,最后团队将电子文件转换为CSV文件格式以便在模型中运行[26]。
在实验测试阶段,算法模型第一次运行后分类预测成功率高达91%和97%(试验1、试验2),项目团队判断该语料库存在数据权重失衡的问题,其中大概三分之二的数据(62988个文件)都属于FA254-02.02.02这个类别,因此该试验的预测结果不具有可信度。为使数据集更具代表性,从而使预测结果更加真实,项目团队决定排除该类别的文件运行测试(测试1),同时使用根据不同类别和保管期限表分类的部分语料进行了一系列测试,以了解预测准确性如何根据语料库包含的处置类别变化而变化(测试2—测试6)。另外,项目团队以21805个物理文件(即没有成功提取文本进行分类的电子文件)的XML元数据作为测试数据集进行最后测试(测试7)。
在结果分析阶段,外部实验测试结果[27](如表 3所示)与内部实验的结果大体相当,验证了机器学习算法的可用性,但为保证分类结果的正确性,仍然离不开人工的检查和微调;同时,本次实验说明了语料库的特征如数据类别覆盖范围的大小以及复杂性对机器学习算法的运行结果有一定的影响。
2.4 实验经验与不足
NSWSAR的实验表明,档案机构可以通过机器学习来实现数字档案的自动化分类以及完成识别具备长久保存价值的数字档案的决策过程,实验数据也反映出使用机器学习具有相当高的准确性,并且原则上,这种算法模型可以很容易地集成到档案馆的数字档案馆系统中,以提高档案分类、鉴定的效率与质量。文章根据NSWSAR实验进行过程中面临的障碍及解决方案总结经验:
首先,充足且高质量的数据集是机器学习实验的关键。正如前文所强调的,数据是机器学习的核心,一方面,机器学习需要大量的数据开展训练,另一方面数据集的规模、质量和特征等要素对机器学习算法模型的学习效果和预测效果都有极大的影响。理论上说,数据量越大,所训练出的机器学习算法模型也就越逼近真实情况;数据集的质量越好,所训练出的算法模型准确率就越高,因此实验前期准备阶段的基础工作如数据清理、数据提取等就显得尤为重要,例如NSWSAR数字档案团队在内部实验中首先在语料库中进行了筛选,其次通过文本提取的方式剔除机器无法读取的信息,最后通过删除休止符、删除文件格式等基础的操作进行数据清理,在外部实验中进一步利用Aspose文件格式API集提升文本提取的质量和效果,有效避免了数据浪费。
其次,软硬件等基础设施及专业人才是机器学习实验的基础。在基础设施上,机器学习实验不仅要有大量的训练数据集,而且还要在本地计算机上拥有足够的计算能力来处理模型,同时在开发内部软件项目时应编写文档齐全、测试良好的代码。在专业人才支持上,实验既需要专门的信息与通信技术或者数据科学方面的知识,也需要了解数据内容和档案管理知識及标准规范的专家。NSWSAR提供的资源有限,数字档案团队仅拥有一台性能强大、具备充足内存和固态硬盘的机器来运行模型,因此在内部实验期间团队接收了一位具有机器学习算法运行经验的计算机专业研究生为实验提供技术支持,利用Scikit-Learn提供的预构建分类器算法减少算法设计开发的成本和时间。
然而NSWSAR开展的实验仅说明了机器学习用于档案管理的可行性,但该实验尚未立足于新南威尔士州档案管理的实践环境进行测试,如要将机器学习具体应用于档案管理实践,还有更多亟需解决的问题,例如引入机器学习技术后如何相应地调整档案管理方法与流程?机器学习算法的偏差如何进行检测?应用机器学习进行档案的分类、鉴定等工作后如何建立问责机制[28]?
3 档案机构应用机器学习的探索方向
把握人工智能发展的战略机遇已成为中国档案事业建设的关注重点,但实践仍处于探索阶段:一方面,人工智能技术应用于档案领域已获得国家层面的鼓励与推动。2017年国务院发布《新一代人工智能发展规划》并提出,在人工智能发展的新阶段把握人工智能技术属性与社会属性高度融合的特征,加大人工智能的研发和应用力度,推进社会治理现代化[29];2018年国家档案局档案科学技术研究所与科大讯飞签署合作协议,共同推动人工智能技术在档案管理中的应用,以实现档案智慧化转型升级[30]。另一方面,整体实践呈现出应用场景集中、应用范围待拓展的状况。目前我国实践项目多采用档案机构与企业、科研机构合作的模式,技术应用场景集中于档案数据化、影像修复、档案分类鉴定等领域[31],如浙江省档案馆与科大讯飞合作并基于人工智能技术实现音视频档案的全文数据化,建立人物人脸数据库[32];但相较而言,档案分类鉴定场景下存在技术应用难度大、风险度高的问题。因此,借鉴NSWSAR机器学习实验的经验,可为我国开展类似实验项目提供探索方向: 第一,推动档案数据化进程。(1)为机器学习的应用提供数据基础。数字档案是文字、图像、视频、音频等多种形式组合的复杂信息,为机器学习提取、理解、分析信息带来挑战,目前的实验项目仅能对档案的文本或图像信息进行识别和处理,应用于档案管理实践则会造成档案信息的损失,同时传统的纸质档案数字化、数据化程度不足,其数字化版本与原生数字档案相比元数据等背景信息不够丰富和完整[33]。因此,推进档案数据化进程,将数字态档案转化为数据态,对档案信息进行拆分、提取、组合和结构化,实现机器的可理解、可分析[34],为机器学习应用于档案管理并实现档案管理智能化奠定基础。(2)设计并建立配套的数据管理制度,实现管理技术工具、政策标准、流程步骤等的内在统一。将机器学习应用于档案管理的具体业务环节,需要档案机构调整原有的档案管理方法或流程,明确融入机器学习且适用于档案数据特征及要求的数据管理具体实践内容,包括数据收集、创建、处理、分析与存储等环节,保障数据管理政策与程序、规则与模型的完整性和长期可持续性。
第二,加强技术型人才储备。机器学习技术的快速更新与发展要求具有相关技能的人才和专家来支持、促进机器学习在档案管理中的应用。因此,当前档案机构机器学习技术型人才和专家的缺乏,阻碍了技术的实施与推广,以至于成为档案机构应用机器学习的一大挑战,也给文件、档案管理人员的专业能力提出了更高要求。为应对此挑战,档案机构需要培养机器学习相关的专业知识和技术运用能力,加强对技术本身的理解,以确保满足未来的文件及档案管理需求。同时,应提高档案人才队伍中高层次、高技能人才的比重,尤其需要补充计算机等专业背景的技术型人才。档案工作者应利用机器学习技术的出现所带来的机会,探索技术潜力以及更广泛的应用场景,并且鼓励跨机构、跨国界交流和展示学习成果,以减轻行业内部的知识和技能差距[35]。
第三,立足档案管理实践制定应用方案。(1)档案机构需要根据其实际情况选择合理可行的技术路线。一方面,档案机构可通过实验对比、评估多种技术路线的实验测试结果,选择最优的算法模型,同时,明确档案数据类型及特征等因素对算法模型预测准确性的影响,调整适应机器学习技术的档案管理方法与流程,促进机器学习技术优势发挥程度的最大化;另一方面,档案机构应判断软硬件条件、项目资金、项目团队是否满足将机器学习应用于档案管理实践的基本条件,机器学习的成本、时间以及算法模型的耐久性、可扩展性、可重复使用性等因素也应纳入参考范围[36]。(2)针对应用机器学习技术可能产生的技术、法律等方面的问题制定保障措施。在技术问题上,档案机构应明确算法模型的评估检测机制,如在机器学习算法运行结果出现异常或者与预期差异较大时,机构可以通过确定问题、系统地测试以隔离错误的来源以及重现问题,形成解决方案以保障算法顺利运行等方式进行故障排除[37]。在法律问题上,档案数据安全的保障及隐私保护应成为档案机构关注的重点。档案机构需要增强机器学习算法识别敏感数据的能力[38],并在分类、鉴定等管理过程中通过标记禁止开放、限制访问权限等方式隔离敏感内容,避免档案数据的泄露。
4 结语
文章梳理了新南威尔士州档案馆探索机器学习应用的实验项目,分析了该项目的成功经验与不足,据此提出我国档案机构应用机器学习的探索方向。但随着机器学习的可用性和适配性得到实践的验证,并逐步成为推进档案管理智能化、智慧化发展的重要技术工具,大数据时代档案管理的优化与机器学习的应用如何相互支持并形成完整的技术应用方案与策略,还需要持续探索。
注释与参考文献
[1]周枫,吕东伟.基于“智能+”档案管理初探[J].北京档案,2019(9): 39-41.
[2]陈慧,罗慧玉,张凯等.AI赋能档案:AI技术在档案管理中的赋能模式探究[J].山西档案, 2020(4): 76-83+131.
[3][13]陈会明,史爱丽,王宁等.人工智能在档案工作中的应用实践与挑战——以北京市市场监督管理局为例[J]. 档案与建设, 2019(7): 53-56.
[4]趙跃,段先娥.国外公共档案馆发展趋势及启示[J].浙江档案, 2020(10): 26-28.
[5]C. A. LEE. Computer-Assisted Appraisal and Selection of Archival Materials[C].2018 IEEE International Conference on Big Data. Seattle. WA, USA: Curran Associates, 2018: 2721-2724.
[6][8]霍光煜,张勇,孙艳丰,尹宝才.基于语义的档案数据智能分类方法研究[J].计算机工程与应用, 2021(6): 247-253.
[7][15][17][25][33]杨建梁,刘越男.机器学习在档案管理中的应用:进展与挑战[J].档案学通讯,2019(6): 48-56.
[9]F. ESPOSITO,D. MALERBA,G. SEMERARO,etc.Machine learning methods for automatically processing historical documents: from paper acquisition to XML transformation[C/ OL].First International Workshop on Document Image Analysis for Libraries. Palo Alto, CA, USA: Curran Associates, 2004. https://ieeexplore.ieee.org/ document/1263262/.
[10]HUTCHINSON TIM. Natural language processing and machine learning as practical toolsets for archival processing[J].Records Management Journal, 2020(2):155-174. [11]YASSER.A.M,CLAWSON K,BOWERMAN.C.Saving Cultural Heritage with Digital Make-Believe: Machine Learning and Digital Techniques to the Rescue[C/OL].Proceedings of the 31st British Computer Society Human Computer Interaction Conference. Swindon, GBR: BCS Learning &; Development Ltd., 2017. https://doi. org/10.14236/ewic/HCI2017.97.
[12]李子林,熊文景.人工智能对档案管理的影响及发展建议[J].档案与建设,2019(6): 10-13+9.
[14]N. PAYNE, J. R. BARON. Auto-categorization methods for digital archives[C].2017 IEEE International Conference on Big Data. Boston, MA: Curran Associates, 2017: 2288-2298.
[16]隋永.人工智能技术在高校档案管理的应用研究[J]. 电脑知识与技术, 2020(22): 171-172+175.
[18] FIRMANI D, MAIORINO M,MERIALDO P,etc. Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio - Episode 1: Machine Transcription of the Manuscripts[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, 2018: 263-272.
[19][22]GLEN HUMPHRIES. Machine Learning and Records Management[EB/OL].[2021–01–04]. http://machine-learning-and-recordsmanagement/.
[20]SCHUETTPELZ.E, FRANDSEN. P.B, DIKOW.R.B,etc. Applications of deep convolutional neural networks to digitized natural history collections[J]. Biodiversity Data Journal, 2017: e21139.
[21][35]ROLAN G,HUMPHRIES G,JEFFREY L,etc.More human than human Artificial intelligence in the archive[J]. Archives and Manuscripts, 2019 (2): 179-203.
[23]SCIKIT-LEARN.scikitlearn: machine learning in Python- scikitlearn 0.24.1 documentation[EB/OL].[2021–02–27].https://scikit-learn. org/stable/.
[24]GLEN HUMPHRIES. Case Study – Internal Pilot – Machine Learning and Records Management[EB/ OL].[2021–01–04].https:// futureproof.records.nsw.gov.au/casestudy-internal-pilot-machine-learningand-records-management/.
[26][27][28]GLEN HUMPHRIES. Case Study – External Pilot – Machine Learning and Records Management[EB/OL].[2021–01–04].https://futureproof.records.nsw. gov.au/case-study-external- pilot-machinelearning-and-records-management/.
[29]國务院.国务院关于印发新一代人工智能发展规划的通知[EB/ OL].[2020–11–30]. http://www. gov.cn/zhengce/zhengceku/2017-07/20/ content_5211996.htm.
[30]冯丽伟. 国家档案局科研所联手科大讯飞签署全面战略合作协议[J]. 中国档案, 2018(5): 10.
[31]祝成. 加快人工智能技术在档案管理工作中的应用[EB/OL].[2021–01–15]. http://www.zgdazxw.com.cn/ news/2021-01/15/content_316467.htm.
[32]浙江省档案馆电子档案管理处. 省档案馆承担的科技项目通过国家档案局验收[EB/OL].[2021–05–26]. http://www.zjda.gov.cn/art/2021/3/12/ art_1229005493_58922762.html.
[34]赵跃.大数据时代档案数据化的前景展望:意义与困境[J]. 档案学研究, 2019(5): 52-60.
[36][37]R.MARCIANO,S. AGARRAT,H.FRISCH,etc. Reframing Digital Curation Practices through a Computational Thinking Framework[C].2019 IEEE International Conference on Big Data. Los Angeles, CA, USA: Curran Associates, 2019: 3126-3135.
[38]J. R. BARON, N. PAYNE. Dark Archives and Edemocracy: Strategies for Overcoming Access Barriers to the Public Record Archives of the Future[C].2017 Conference for E-Democracy and Open Government. Krems: Curran Associates, 2017:3-11.