论文部分内容阅读
摘要:随着深度学习技术的迅速发展,人工智能逐渐进入行业应用阶段,也为档案工作的智能化发展提供了契机,尤其是文本处理、信息抽取、模式识别、专家系统等技术在档案工作中体现出广阔的应用前景。文章以北京市市场监督管理局为案例,分析了其引入人工智能技术进行档案智能挑选和智能鉴定划控等工作取得的成果,并研究探索了人工智能技术在档案审核和音视频档案管理中的应用思路,最后对人工智能在档案领域中的挑战和对策进行了思考。
关键词:人工智能;档案;深度学习;模式识别;自然语言处理
分类号:G271
近年来,人工智能技术的发展取得了较大的突破,尤其是在大量数据的推动下,深度学习技术日益成熟,在医疗、交通、教育、企业管理等多个领域呈现出良好的应用态势,“人工智能+”在多个行业逐渐落地。世界主要发达国家正在把发展人工智能技术作为提升国家核心科技竞争力的关键目标,将人工智能提到前所未有的战略高度。人工智能呈现出的跨界融合、人机协同等特征,与产业发展的基础层、技术层和应用层相互配合、相互促进,将成为今后人工智能与产业发展融合的主要方向[1]。人工智能技术在档案行业中的应用也正在不断突破发展,“大”数据成为数字时代档案资源的显著特征,为人工智能技术提供了充分的数据储备,使得模式识别、文本处理、信息抽取、专家系统等技术在档案智能管理中能够发挥重要的作用。经过不断迭代,人工智能技术的应用将从很大程度上提高档案管理工作的效率,节省人力物力资源,提升管理和服务质量,并适应档案数据化发展的趋势,推动档案工作的智能化变革。而在未来发展过程中,也要着眼于人工智能技术应用的风险控制路径和人机协作与融合发展问题,以取得更高的效益和提供良好的人机环境。
一、人工智能与深度学习
人工智能是通过人类设定相应的程序并操作,使计算机可以模拟人类思维过程与智能行为的技术,是计算机科学发展到一定阶段衍生出来的产物[2]。经过半个多世纪的坎坷发展历程,近年来迎来新的发展曙光,尤其是云计算和大数据技术的巨大发展,为人工智能的突破提供了强大的计算平台和充实的数据资源。在这一过程中,最显著的便是深度学习的突破。深度学习技术在机器学习技术的基础上发展而来,依托更多的数据资源和更高级的算法,实现更精确的学习输出和效率,在自然语言理解、计算机视觉技术等学习中具有突出表现。机器学习和深度学习的本质是从数据中寻找规律的过程,通过给定的摘要信息或数据对寻找规律,并设计出算法和模型,应用于解决预测问题、分类分析、聚类分析等实践问题。
在档案工作中最常用到的人工智能和深度学习技术主要包括文本处理技术、信息抽取技术、模式识别技术、专家系统等关键技术成果。(详见表1)
二、北京市市场监督管理局的档案智能化应用与探索
企业登记档案是市场监督管理机关依法对企业法人登记注册、监督管理过程中形成的具有保存价值的文字、图表、声像等形式的历史记录,它们对于规范市场主体行为、保障企业合法权益、促进社会信用体系建设具有十分重要的意义。北京市市场监督管理局近几年将人工智能技术和思维引入局内檔案的管理工作中,经过多次迭代,在档案智能挑选、档案智能鉴定划控方面取得了一定的实践应用成果,同时不断探究智能音视频档案管理和智能审核等功能实现方案,是人工智能在档案行业的应用典型。
1.智能档案精准检索
从内容而言,企业登记档案包含了对企业法人登记注册和监督管理过程中形成的公司章程、验资报告、财务审计报告、法人承诺书、企业法人和股东的身份证明和联系方式等数十种材料。但是在档案的查询利用过程中,用户未必要用到一份企业登记档案中的全部材料,可能只需要检索和利用其中一项材料或者一页内容、一条数据,那么如何在短时间内在体量庞大的数十种材料中定位到用户想要利用的目标性内容,是目前企业登记档案利用服务中迫切需要解决的问题之一。
针对这一需求,北京市市场监督管理局引入人工智能技术中的图像识别技术和信息抽取技术等,针对档案利用过程中无法直接查找定位身份证明文件等精细化利用问题,研发了档案图文智能定位与精细化检索工具,实现了对存量数字化图像内容的批量智能自动识别预处理和精确查找定位,目前部分类型的档案智能精确检索率已经超过90%,在很大程度上提升了档案利用效率,提高了用户满意度。
2.智能档案划控鉴定
档案开放是各级各类档案馆和组织机构开展档案利用服务的主要形式,馆藏档案在开放前,都必须要进行划控鉴定。档案划控鉴定是档案馆馆藏档案达到开放年限后经过组织鉴定审查、划控、审核、审批,向社会开放的过程[5]。
北京市市场监督管理局的企业登记档案具有利用率高、共享性强的特点。企业登记档案的利用采用页面级安全控制,但部分早期馆藏没有进行档案页面内容的公开属性鉴定,且不同历史时期档案内容公开属性的鉴定标准有所不同,导致在档案共享利用过程中存在档案信息泄露等安全隐患。面对高达数亿页的海量档案,原来只能根据查询要求进行人工鉴定。针对这一情况,北京市市场监督管理局采用档案图像识别和内容识别等人工智能技术,结合专家系统的应用,研发了某些类型档案的页面公开级别智能鉴定工具。该工具在企业登记档案大数据的基础上,通过大量档案图像数据样本学习训练出可靠的算法模型,首先保证海量图像内容的识别精度,然后再按照现有的鉴定标准,采用批量智能识别处理的模式对存量档案图像页面的公开级别进行全自动鉴定与校核处理,有效消除了档案共享利用过程中的档案信息泄露等安全隐患,促进档案安全体系建设,同时降低了成本、提高了鉴定效率,有效促进了档案管理工作方式的创新。 3.智能档案审核、音视频档案管理
在电子文件增量迅速扩大的背景下,在线电子化归档成为企业登记档案中最主要的归档方式之一,需要提高电子档案的数据质量、归档效率和查询时效性。针对现阶段在线电子归档的质量问题,北京市市场监督管理局发现电子化档案归档审核难度大、效率低,以及档案查询利用的时效性低等,因而研究采用档案图像内容识别等人工智能相关技术,正在设计研发智能化在线归档的处理工具,实现对在线归档的原生电子文件图文质量进行智能化的自动批量校核,包括图像清晰度、内容完整性和规范性等方面的质量检查,在确保企业登记档案大数据质量的同时,有助于提高电子文件在线归档效率及查询时效性。
音视频档案也包含有大量管理性和业务性价值信息,但是大量音视频档案并不便于查询利用,例如行政执法等多媒体档案文件片段多、内容不连贯无规律,利用十分不便。对此,北京市市场监督管理局尝试研究采纳语音识别技术、计算机视觉技术等,探索以视、音频信息服务为主体的多媒体内容分析处理等智能化信息处理工具,研究对行政执法过程的视频和音频文件进行自动分类管理和智能检索利用的工作方法,以提高音视频档案的利用率,同时最大程度地对其中有价值的数据信息进行挖掘和分析。
北京市市场监督管理局的档案管理现实需求构成了人工智能技术应用的驱动力,并将人工智能的深度学习技术真正纳入智能档案管理的实践层面,说明档案领域的人工智能也已经进入实践应用阶段,并且在未来档案行业专家和技术应用相结合的过程中,还将更有可为。
三、人工智能在档案行业应用的挑战与对策
将人工智能应用于档案管理工作中具有重要的价值。首先,效率和成本方面,能够大大提高档案审核、鉴别和检索服务的效率,在准确率方面也超出人工管理的平均水平,同时能够节省大量的人力资源,以二十四小时工作的机器人代替人类完成大量程序性操作。此外,伴随着大数据时代的到来,档案管理的“数据化”趋势也将不可逆转,单凭人脑来分析、处理和挖掘大量档案数据中的信息几乎不现实,人工智能技术的应用是必然的选择。而将人工智能技术应用到档案行业中,尚处于不断摸索的阶段,同样面临着诸多的风险和挑战,需要合理规划和应对。
1.人工智能应用的风险控制
人工智能技术虽然已经大规模应用,但是整体上仍处于“弱人工智能”阶段,是在一瘸一拐的摸索中前行,其自身技术革新的局限性也必然会导致在档案行业中应用的风险。
一方面,人工智能的深度学习技术是建立在大量数据储备基础上的,为了提高操作的準确率和效率,档案应用人工智能技术必然需要大量的用户数据进行机器学习,以提供更加精准和便捷的用户服务,因而存在用户信息安全与隐私保护方面的风险[6]。尤其是随着人工智能技术的大规模应用,机器将有越来越多的机会接触数据,并且是庞大的数据体,那么数据泄露等风险将成为重要性问题。另一方面,人工智能技术是在学习人脑知识和人脑思维的基础上进行应用,机器对于数据和信息的识别和理解能力也具有一定的局限性,技术的不成熟、档案专家系统的不完善等要素,都会成为人工智能应用水平的重要影响因素。因而在实践应用过程中和人类一样会出现操作失误,甚至会犯通常情况下人类并不会犯的错误,易导致档案内容误读、页面安全级别鉴定错误等工作风险。
对此,有必要在人工智能技术引入档案工作实践的同时,充分考虑到其潜在的风险问题,采取风险控制措施。针对人工智能应用存在的数据泄露和隐私安全风险问题,需要建立有效的用户信息安全保护制度,在信息授权、信息传递等方面明确机器学习的权限,有效规避在人工智能应用过程中潜在的信息泄露风险。在人工智能管理者、技术人员和用户之间建立起合理的利用观念,在遵守伦理道德的前提下利用人工智能[7]。同时,面对机器可能造成的失误,在应用测试阶段对人工智能的失误率进行有效评估,不断优化目标函数,并保证在多次迭代达到可控风险的阶段才能真正纳入实践应用,实现人工智能应用的损失控制,在必要时采用人工辅助的手段进行风险保留。
2.人机协作融合的发展走向
将人工智能技术应用到档案工作中,虽然很大程度上是要实现解放人类劳动力,提升工作效率的目标,但并不意味着人工智能要替代人类工作,当然也不可能替代人类工作。相反,技术的局限性和技术为人服务的本质,要求人和机器更好地协作,人机协作和融合才是人工智能行业应用的最佳图景。
人工智能技术在档案行业的应用过程中,必然也要解决人工智能技术迭代和革新过程中的人工参与和人机并存问题。首先,作为设计者和管理者的角色,档案工作者和技术人员应该不断增强自身对档案信息资源的理解能力,增强对用户需求理解的能力,并将这种能力尽可能应用到机器学习和迭代的设计流程中,同时尽可能多地将功能需求、专家系统和纠错方案等要素纳入机器学习过程,对其安全性、可靠性和准确性等进行不断改进,使得机器在学习档案业务的同时也不断学习人类思维,促进人工智能技术的成功应用。其次,人要给机器学习档案工作创造好的条件和环境,此时人将作为协助者的角色,在功能要求、行业知识、档案数据等关键要素设定完备的前提下,在机器学习和运行的过程中,尽可能少地干扰其学习和工作过程,给予其充分自我学习和解决问题的发展空间,充分发挥机器在某些特定工作环境中的主导作用。
人工智能不仅是一种技术,更是一种思维。目前国内外人工智能技术本身及各行业应用的发展速度虽然很快,但其在档案工作中的应用还在起步阶段,仍然存在技术发展欠缺、管理理念落后、资源挖掘不足等问题,可谓机遇与挑战并存。在知识融合和信息大爆炸的时代,相对滞后的档案人工智能行业应用需要主动迎接新技术新思想,结合自身的数据资源优势和行业专家水平,将科学技术与档案人文精神相结合,不断推进人工智能在档案领域的更深层次和高水平的发展。
*本文系国家档案局“人工智能技术在工商档案管理中的应用研究”(课题编号:2018-X-23)及北京市档案局“人工智能技术在工商档案管理中的应用研究”(课题编号:2019- 06)科研项目阶段性研究成果。
注释及参考文献
[1]宋之杰,肖寒.加强人工智能和产业发展融合[N].河北日报,2019-02-13(7).
[2]陈映村,程鹏飞.人工智能的发展现状及应用[J].信息与电脑,2019(2):136.
[3]人工智能/腾讯研究院.人工智能[M].北京:中国人民大学出版社,2017:24.
[4]信息抽取技术及前景浅析.[EB/ OL].[2018-03-09].http://www.docin.com/ p-70263324.html.
[5]张师师.如何做好档案开放中的划控鉴定工作[J].黑龙江档案,2018(4):74.
[6][7]杨九龙,阳玉堃,许碧涵.人工智能在图书馆应用的理论逻辑、现实困境与路径展望[J].图书情报工作,2019(4):35+36.
关键词:人工智能;档案;深度学习;模式识别;自然语言处理
分类号:G271
近年来,人工智能技术的发展取得了较大的突破,尤其是在大量数据的推动下,深度学习技术日益成熟,在医疗、交通、教育、企业管理等多个领域呈现出良好的应用态势,“人工智能+”在多个行业逐渐落地。世界主要发达国家正在把发展人工智能技术作为提升国家核心科技竞争力的关键目标,将人工智能提到前所未有的战略高度。人工智能呈现出的跨界融合、人机协同等特征,与产业发展的基础层、技术层和应用层相互配合、相互促进,将成为今后人工智能与产业发展融合的主要方向[1]。人工智能技术在档案行业中的应用也正在不断突破发展,“大”数据成为数字时代档案资源的显著特征,为人工智能技术提供了充分的数据储备,使得模式识别、文本处理、信息抽取、专家系统等技术在档案智能管理中能够发挥重要的作用。经过不断迭代,人工智能技术的应用将从很大程度上提高档案管理工作的效率,节省人力物力资源,提升管理和服务质量,并适应档案数据化发展的趋势,推动档案工作的智能化变革。而在未来发展过程中,也要着眼于人工智能技术应用的风险控制路径和人机协作与融合发展问题,以取得更高的效益和提供良好的人机环境。
一、人工智能与深度学习
人工智能是通过人类设定相应的程序并操作,使计算机可以模拟人类思维过程与智能行为的技术,是计算机科学发展到一定阶段衍生出来的产物[2]。经过半个多世纪的坎坷发展历程,近年来迎来新的发展曙光,尤其是云计算和大数据技术的巨大发展,为人工智能的突破提供了强大的计算平台和充实的数据资源。在这一过程中,最显著的便是深度学习的突破。深度学习技术在机器学习技术的基础上发展而来,依托更多的数据资源和更高级的算法,实现更精确的学习输出和效率,在自然语言理解、计算机视觉技术等学习中具有突出表现。机器学习和深度学习的本质是从数据中寻找规律的过程,通过给定的摘要信息或数据对寻找规律,并设计出算法和模型,应用于解决预测问题、分类分析、聚类分析等实践问题。
在档案工作中最常用到的人工智能和深度学习技术主要包括文本处理技术、信息抽取技术、模式识别技术、专家系统等关键技术成果。(详见表1)
二、北京市市场监督管理局的档案智能化应用与探索
企业登记档案是市场监督管理机关依法对企业法人登记注册、监督管理过程中形成的具有保存价值的文字、图表、声像等形式的历史记录,它们对于规范市场主体行为、保障企业合法权益、促进社会信用体系建设具有十分重要的意义。北京市市场监督管理局近几年将人工智能技术和思维引入局内檔案的管理工作中,经过多次迭代,在档案智能挑选、档案智能鉴定划控方面取得了一定的实践应用成果,同时不断探究智能音视频档案管理和智能审核等功能实现方案,是人工智能在档案行业的应用典型。
1.智能档案精准检索
从内容而言,企业登记档案包含了对企业法人登记注册和监督管理过程中形成的公司章程、验资报告、财务审计报告、法人承诺书、企业法人和股东的身份证明和联系方式等数十种材料。但是在档案的查询利用过程中,用户未必要用到一份企业登记档案中的全部材料,可能只需要检索和利用其中一项材料或者一页内容、一条数据,那么如何在短时间内在体量庞大的数十种材料中定位到用户想要利用的目标性内容,是目前企业登记档案利用服务中迫切需要解决的问题之一。
针对这一需求,北京市市场监督管理局引入人工智能技术中的图像识别技术和信息抽取技术等,针对档案利用过程中无法直接查找定位身份证明文件等精细化利用问题,研发了档案图文智能定位与精细化检索工具,实现了对存量数字化图像内容的批量智能自动识别预处理和精确查找定位,目前部分类型的档案智能精确检索率已经超过90%,在很大程度上提升了档案利用效率,提高了用户满意度。
2.智能档案划控鉴定
档案开放是各级各类档案馆和组织机构开展档案利用服务的主要形式,馆藏档案在开放前,都必须要进行划控鉴定。档案划控鉴定是档案馆馆藏档案达到开放年限后经过组织鉴定审查、划控、审核、审批,向社会开放的过程[5]。
北京市市场监督管理局的企业登记档案具有利用率高、共享性强的特点。企业登记档案的利用采用页面级安全控制,但部分早期馆藏没有进行档案页面内容的公开属性鉴定,且不同历史时期档案内容公开属性的鉴定标准有所不同,导致在档案共享利用过程中存在档案信息泄露等安全隐患。面对高达数亿页的海量档案,原来只能根据查询要求进行人工鉴定。针对这一情况,北京市市场监督管理局采用档案图像识别和内容识别等人工智能技术,结合专家系统的应用,研发了某些类型档案的页面公开级别智能鉴定工具。该工具在企业登记档案大数据的基础上,通过大量档案图像数据样本学习训练出可靠的算法模型,首先保证海量图像内容的识别精度,然后再按照现有的鉴定标准,采用批量智能识别处理的模式对存量档案图像页面的公开级别进行全自动鉴定与校核处理,有效消除了档案共享利用过程中的档案信息泄露等安全隐患,促进档案安全体系建设,同时降低了成本、提高了鉴定效率,有效促进了档案管理工作方式的创新。 3.智能档案审核、音视频档案管理
在电子文件增量迅速扩大的背景下,在线电子化归档成为企业登记档案中最主要的归档方式之一,需要提高电子档案的数据质量、归档效率和查询时效性。针对现阶段在线电子归档的质量问题,北京市市场监督管理局发现电子化档案归档审核难度大、效率低,以及档案查询利用的时效性低等,因而研究采用档案图像内容识别等人工智能相关技术,正在设计研发智能化在线归档的处理工具,实现对在线归档的原生电子文件图文质量进行智能化的自动批量校核,包括图像清晰度、内容完整性和规范性等方面的质量检查,在确保企业登记档案大数据质量的同时,有助于提高电子文件在线归档效率及查询时效性。
音视频档案也包含有大量管理性和业务性价值信息,但是大量音视频档案并不便于查询利用,例如行政执法等多媒体档案文件片段多、内容不连贯无规律,利用十分不便。对此,北京市市场监督管理局尝试研究采纳语音识别技术、计算机视觉技术等,探索以视、音频信息服务为主体的多媒体内容分析处理等智能化信息处理工具,研究对行政执法过程的视频和音频文件进行自动分类管理和智能检索利用的工作方法,以提高音视频档案的利用率,同时最大程度地对其中有价值的数据信息进行挖掘和分析。
北京市市场监督管理局的档案管理现实需求构成了人工智能技术应用的驱动力,并将人工智能的深度学习技术真正纳入智能档案管理的实践层面,说明档案领域的人工智能也已经进入实践应用阶段,并且在未来档案行业专家和技术应用相结合的过程中,还将更有可为。
三、人工智能在档案行业应用的挑战与对策
将人工智能应用于档案管理工作中具有重要的价值。首先,效率和成本方面,能够大大提高档案审核、鉴别和检索服务的效率,在准确率方面也超出人工管理的平均水平,同时能够节省大量的人力资源,以二十四小时工作的机器人代替人类完成大量程序性操作。此外,伴随着大数据时代的到来,档案管理的“数据化”趋势也将不可逆转,单凭人脑来分析、处理和挖掘大量档案数据中的信息几乎不现实,人工智能技术的应用是必然的选择。而将人工智能技术应用到档案行业中,尚处于不断摸索的阶段,同样面临着诸多的风险和挑战,需要合理规划和应对。
1.人工智能应用的风险控制
人工智能技术虽然已经大规模应用,但是整体上仍处于“弱人工智能”阶段,是在一瘸一拐的摸索中前行,其自身技术革新的局限性也必然会导致在档案行业中应用的风险。
一方面,人工智能的深度学习技术是建立在大量数据储备基础上的,为了提高操作的準确率和效率,档案应用人工智能技术必然需要大量的用户数据进行机器学习,以提供更加精准和便捷的用户服务,因而存在用户信息安全与隐私保护方面的风险[6]。尤其是随着人工智能技术的大规模应用,机器将有越来越多的机会接触数据,并且是庞大的数据体,那么数据泄露等风险将成为重要性问题。另一方面,人工智能技术是在学习人脑知识和人脑思维的基础上进行应用,机器对于数据和信息的识别和理解能力也具有一定的局限性,技术的不成熟、档案专家系统的不完善等要素,都会成为人工智能应用水平的重要影响因素。因而在实践应用过程中和人类一样会出现操作失误,甚至会犯通常情况下人类并不会犯的错误,易导致档案内容误读、页面安全级别鉴定错误等工作风险。
对此,有必要在人工智能技术引入档案工作实践的同时,充分考虑到其潜在的风险问题,采取风险控制措施。针对人工智能应用存在的数据泄露和隐私安全风险问题,需要建立有效的用户信息安全保护制度,在信息授权、信息传递等方面明确机器学习的权限,有效规避在人工智能应用过程中潜在的信息泄露风险。在人工智能管理者、技术人员和用户之间建立起合理的利用观念,在遵守伦理道德的前提下利用人工智能[7]。同时,面对机器可能造成的失误,在应用测试阶段对人工智能的失误率进行有效评估,不断优化目标函数,并保证在多次迭代达到可控风险的阶段才能真正纳入实践应用,实现人工智能应用的损失控制,在必要时采用人工辅助的手段进行风险保留。
2.人机协作融合的发展走向
将人工智能技术应用到档案工作中,虽然很大程度上是要实现解放人类劳动力,提升工作效率的目标,但并不意味着人工智能要替代人类工作,当然也不可能替代人类工作。相反,技术的局限性和技术为人服务的本质,要求人和机器更好地协作,人机协作和融合才是人工智能行业应用的最佳图景。
人工智能技术在档案行业的应用过程中,必然也要解决人工智能技术迭代和革新过程中的人工参与和人机并存问题。首先,作为设计者和管理者的角色,档案工作者和技术人员应该不断增强自身对档案信息资源的理解能力,增强对用户需求理解的能力,并将这种能力尽可能应用到机器学习和迭代的设计流程中,同时尽可能多地将功能需求、专家系统和纠错方案等要素纳入机器学习过程,对其安全性、可靠性和准确性等进行不断改进,使得机器在学习档案业务的同时也不断学习人类思维,促进人工智能技术的成功应用。其次,人要给机器学习档案工作创造好的条件和环境,此时人将作为协助者的角色,在功能要求、行业知识、档案数据等关键要素设定完备的前提下,在机器学习和运行的过程中,尽可能少地干扰其学习和工作过程,给予其充分自我学习和解决问题的发展空间,充分发挥机器在某些特定工作环境中的主导作用。
人工智能不仅是一种技术,更是一种思维。目前国内外人工智能技术本身及各行业应用的发展速度虽然很快,但其在档案工作中的应用还在起步阶段,仍然存在技术发展欠缺、管理理念落后、资源挖掘不足等问题,可谓机遇与挑战并存。在知识融合和信息大爆炸的时代,相对滞后的档案人工智能行业应用需要主动迎接新技术新思想,结合自身的数据资源优势和行业专家水平,将科学技术与档案人文精神相结合,不断推进人工智能在档案领域的更深层次和高水平的发展。
*本文系国家档案局“人工智能技术在工商档案管理中的应用研究”(课题编号:2018-X-23)及北京市档案局“人工智能技术在工商档案管理中的应用研究”(课题编号:2019- 06)科研项目阶段性研究成果。
注释及参考文献
[1]宋之杰,肖寒.加强人工智能和产业发展融合[N].河北日报,2019-02-13(7).
[2]陈映村,程鹏飞.人工智能的发展现状及应用[J].信息与电脑,2019(2):136.
[3]人工智能/腾讯研究院.人工智能[M].北京:中国人民大学出版社,2017:24.
[4]信息抽取技术及前景浅析.[EB/ OL].[2018-03-09].http://www.docin.com/ p-70263324.html.
[5]张师师.如何做好档案开放中的划控鉴定工作[J].黑龙江档案,2018(4):74.
[6][7]杨九龙,阳玉堃,许碧涵.人工智能在图书馆应用的理论逻辑、现实困境与路径展望[J].图书情报工作,2019(4):35+36.