金沙js9线路中心_金沙以诚为本
service tel

400-123-4567
+86-123-4567

站内公告: 诚信为本:市场永远在变,诚信永远不变。

400-123-4567

+86-123-4567
13800000000

广东省广州市天河区88号

当前位置: 首页 > 成功案例 > 案例分类二

基于数据挖掘技术构建辅助档案开放鉴定模型

时间:2025-06-19 09:53:37

 

  随着档案信息化建设水平不断提升,各级综合档案馆在档案开放审核工作中积极运用数字档案馆系统的档案数字资源和开放鉴定流程、敏感词划控等功能,有效提升了开放审核工作效率,加速了馆藏档案开放步伐。由于一些客观原因,馆藏档案开放整体水平和质量仍难以适应“一网通办”环境下人民群众和社会各界对查档服务提出的更高要求,离习关于档案工作“三个走向”的指示精神还有明显差距。运用人工智能技术辅助档案开放鉴定,有助于解决综合档案馆专业人员少、开放鉴定结果存在主观性、局限性和片面性等问题,已成为档案界新的和重要的研究方向。江西省档案馆承担的“基于结构化和文本数据的辅助开放鉴定模型”课题以省级综合档案馆馆藏新中国成立后文书档案为研究对象,课题组采用文献研究、德尔菲法、实验和实证等方法,从分析档案信息特征入手,提出了从16个维度辅助开放鉴定的方法,综合运用关键词匹配技术、数据挖掘技术构建了由递进式辅助开放鉴定双模块、算法模型和档案知识库组成的辅助档案开放鉴定模型(以下简称“鉴定模型”),并将其在省档案馆建设的档案大数据分析应用系统、数字档案集成管理系统投入使用,证明了研究成果的可行性。

  档案开放审核是指依据相关法律法规,按照规范的程序对封闭期已满档案进行鉴别,确定档案可否对外开放的过程。课题将鉴别档案开放或控制的具体过程称为开放鉴定,研究聚焦如何运用数据挖掘技术辅助鉴别档案开放与否,并借鉴敏感词库、DFA算法辅助档案划控的方法,对关键词技术辅助开放鉴定作了拓展和深化。数据挖掘是综合运用统计学、数据库管理技术和人工智能技术,按照预设方向以及相应的数学模型将分布在海量数据中有潜在价值的信息、知识揭示出来,并建立相关关系。数据挖掘的主要任务是预测和描述,技术路线有文本处理、分类预测、聚类分析等类别。课题选用其预测功能研究实现辅助档案开放鉴定的方法,实现路径是按照档案二分类(开放与控制两个类目)预测目标构建鉴定模型,运用合适的技术从已完成开放审核的档案数据中发现隐藏其中的,能够揭示开放或控制档案的内在的信息特征及关系,再用其预测待审核档案的开放与否,而分析提炼档案信息特征、设置维度及其计算规则、技术选型则是构建鉴定模型的研究重点。

  档案信息特征是指开放或控制档案特有的内容和形式特征,分为开放信息特征和敏感信息特征。鉴定模型的维度是由档案信息特征转化而来,它是从不同角度直接或间接揭示档案信息开放或敏感程度的信息特征。文书档案内容极为丰富、主题广泛,形成的时代与职能背景非常复杂,需从不同角度或层面揭示主题、发现内在关联。课题组经过分析、测试,选用了5类档案信息特征,并分别转化为16个维度。

  对在预测中具有一词“一击命中”作用的特定关键词,可细分为7种档案信息特征。

  通常出现在档案题名中,如“关于……职务任免……通知”等关键词(组合词),部分高度敏感档案题名中的揭发、政审、处分、事故调查等关键词。

  如公报、条例等开放文种,会议记录、履历表等敏感文种,通过识别部分特定敏感文种能有效保护个人隐私信息。

  指馆藏中非本地区来文的责任者,包括含在转发文中的该类文件,属于敏感信息特征。

  将7种信息特征分别转化为7个维度,二者的名称分别保持一致。需为前5种维度建立相应的特定关键词库,主要在文书档案题名、相关元数据中搜索、分析,成功匹配一个特定关键词便可直接给出开放或控制意见。

  依据一定规则分别从开放档案、控制档案中抽取的关键词。将该类档案信息特征转化为开放词数、敏感词数2个维度,该类关键词不具有一词“一击命中”的作用,需采用词数与其阈值联合计算方法执行预测任务。实验表明,文书档案全文可以匹配的开放词或敏感词数量较大,对预测产生明显噪声,把匹配范围限定在题名后预测准确率有明显提升。课题组运用中文分词技术创建了档案开放词库和敏感词库,研究确立了新词入库规则,截至课题验收,共形成了24473个开放词、93063个敏感词。

  全宗内文书档案整体敏感程度。因档案形成的职能和历史等背景,许多全宗受控文书档案占比较大,部分小全宗甚至达到100%。本课题将该特征转化为全宗敏感性维度,全宗内控制使用档案在封闭期已满档案中所占比例达到设定标准的为敏感全宗,分别用1、0代表敏感全宗和处于设定标准以下的全宗,也可使用实际占比作为特征值;该维度的运用需不定期更新控制档案占比和敏感全宗名单。

  《各级国家档案馆馆藏档案解密和划分控制使用范围的暂行规定》明确了20类应控制使用的档案范围(以下简称“划控20条”),《中华人民共和国政府信息公开条例》规定了17类应主动公开的政府信息(以下简称“主动公开17类”),国家档案馆通常依据以上法规条款制定实施细则。课题组将三者统称为开放鉴定规则,相当于开放、控制类目下的二级分类类目,大多数文书档案都能归入开放鉴定规则的某一类目。将该类信息特征转化为公开信息文本分类和控制文本分类2个维度,并选用文本分类算法和监督式学习方式创建维度算法模型,用于文书档案二分类预测任务。经过持续监督式学习的文本分类算法模型预测质量较高,但需要提供大量标注有开放鉴定规则任一类目的档案分类语料,对国家档案馆极具挑战性。

  部分文书档案的一段或若干段内容及其形成背景等常具有明确的开放性或敏感性,成为档案是否开放的重要标志。选用对档案语料要求不高的技术路线,将片段信息特征转换为开放文本相似度、互联网文本相似度、控制文本相似度和情感分析等4个维度,运用聚类分析、语义分析技术以及半监督式学习方法创建维度算法模型。开放文本相似度、互联网文本相似度、控制文本相似度的预测结果是表达开放鉴定对象与相应类别档案,如开放档案、控制档案、网页类电子档案的相似程度,情感分析维度则是预测档案内容的开放或敏感色彩、情感倾向程度。凡标注了开放或控制标识的档案数据,以及无需分类标注的政府公开信息、政务网页等都可作为算法模型半监督式学习语料,具有较好的可操作性。

  前述由档案信息特征转化形成的16个鉴定模型维度,前7个维度可直接预测档案开放与否,包括特定开放词、特定敏感词、特定开放文种、特定控制文种、特定责任者、公开属性、密级;其他9个维度是通过预设或算法模型计算得出一个0~1之间的、反映档案开放或控制程度的特征值,主要有开放词数、敏感词数、全宗敏感性、公开信息文本分类、控制文本分类、开放文本相似度、互联网文本相似度、控制文本相似度和情感分析等。按开放、控制方向区分,特定开放词等7个维度用于开放方向的预测任务,特定敏感词等8个维度用于控制方向的预测,情感分析维度则兼而用之。

  鉴定模型所需数据挖掘技术主要涉及“档案数据化”和“数据分析算法”2项关键技术。本课题运用开源机器学习、NLP、数据分析以及数据可视化多种工具构建实验平台,采用测试、调参、验证等方法面向开源数据挖掘技术资源开展关键技术选型研究,并为此准备了含数字原文的多种文书档案分类语料13.45万件,其中包括开放与控制二分类语料、三元组语料和“划控20条”分类语料,还收集、标注了150多万条文书档案文件级机读目录二分类语料,以及“主动公开17类”分类语料10.5万件,互联网情感分析语料2.1万件。

  课题组对Tesseract和PaddleOCR做了比较研究,多轮测试后选定后者为OCR识别工具,并根据档案数据化和应用系统对接需要做了二次开发。PaddleOCR是一款基于深度学习的OCR平台,支持对接第三方应用系统,印刷体识别率、准确率和耗时等指标会随持续应用不断提升。首次识别2.89万件共20.5428万页PDF格式数字副本,每页耗时3.36秒。

  选用“cws_evaluation:中文分词器分词效果评估”数据集,对Jieba、HanLP、LTP、LAC等4种分词工具进行测试,采用精确率和召回率的调和平均F1值为主要测评指标,分词速度为次要评判指标。经测试选择LAC为中文分词工具,课题对其做增量测试与参数微调后,F1值达到0.95,速度为37.1毫秒/字符,分词效果超过其他3种工具。

  可直接预测的部分维度以及开放词数、敏感词数2个维度使用DFA搜索算法。围绕文本分类、文本聚类和语义分析3类算法开展了多轮选型实验。文本聚类算法选用LSI,其针对开放文本相似度、互联网文本相似度、控制文本相似度3个维度的测试结果远优于DBSCAN,测试得分为0.978、0.978、0.883。经文本分类算法选型实验,公开信息文本分类维度选用TextCNN,平均准确率76%,耗时2.35秒/件,测试结果优于朴素贝叶斯算法;选用BERT+Dense、embedding+LSTM等5种文本分类、语义分析算法作测试,控制文本分类与情感分析维度均选用BERT+Dense。

  16个维度以及支撑、驱动维度分析预测所需的各种档案知识库、算法模型是鉴定模型的有机组成部分,为使16个维度执行有序、高效的预测任务,根据预测方法和效果等对各维度进行了分类组合,确定了维度预测流程,在此基础上完成鉴定模型构建任务。

  将鉴定模型预测全过程分为单维直接鉴定和多维加权组合鉴定2个阶段,技术实现方法也由简易跨入智能化。单维直接鉴定运用可直接预测的7个维度,有任一维度输出预测结果,鉴定模型分析流程结束,否则进入下一阶段,该阶段的特点是预测准确率、精确率较高,实验期间的准确率最高达到98.71%,精确率也在90%以上。多维加权组合鉴定运用其他9个维度算法模型做预测并分别输出开放或控制程度特征值,再通过深度学习网络对每个维度值加权计算得出二分类预测结果。经过多轮测试后,深度学习网络剔除了全宗敏感性维度,因其特征值始终为一个定数。

  课题组对多维加权组合鉴定阶段9个维度权重系数配置与计算方法做了深入研究,用准确率和精确率评估实验结果。先后采用德尔菲法、广义线性回归模型(GLM)和深度学习网络开展测试。前2种方法多轮预测平均准确率分别在52%、71%左右,平均精确率分别为68%、70.8%左右,使用t-SNE算法对3.7万件二分类语料作降维处理,结果表明GLM不适合档案开放鉴定场景。深度学习网络能较好实现线性或非线性数据拟合,对输入数据逐层转换并提取特征从而揭示数据内部复杂的结构特征。经测试,选择并构建了含四层隐藏层的深度学习感知器二分类算法模型(以下简称“感知器模型”)专用于多维加权组合鉴定模块维度权重系数配置与集成计算测试。原理是运用9个维度算法模型存量特征值及相应的开放或控制标识对感知器模型作初始化训练,自动分析并生成权重系数配置规则,该规则会随后续优化训练而动态调整;将9个维度算法模型计算结果输入感知器模型,基于前次增量学习形成的权重系数配置规则计算并输出预测结果。使用3.9万件文书档案分类语料做3次实验,模块预测平均准确率和精确率分别为76.71%、75.31%,有明显提高。同时,选用Sigmoid函数计算感知器模型预测结果的置信度,作为预测结果强度参数。

  上述两个阶段以及相应的算法模型、分析过程构成了鉴定模型的核心数学模型,称为递进式辅助开放鉴定双模块(以下简称“双模块”),它以下层开放鉴定规则库、特定关键词库等档案知识库为支撑,通过维度算法模型、机器学习工具和深度学习网络驱动运算。鉴定模型由知识层和智慧层构成,知识层负责为智慧层提供档案知识服务,智慧层负责识别、分析并输出辅助开放鉴定意见,可根据需要增减维度、档案知识库和算法模型,具有较好的弹性和扩展性。鉴定模型经过持续学习和优化,智能水平将螺旋式成长,档案知识库也将不断丰富,如图所示。

  2022以来,江西省档案馆在“十四五”馆藏文书档案开放审核攻坚工作中利用了课题成果,开发并应用了相关系统功能。档案大数据分析应用系统内含鉴定模型,通过中间接口与数字档案集成管理系统对接,按任务单先于人工鉴定完成档案数据接收、OCR识别、分析、预测、反馈和写入开放鉴定流程等智能化操作,已经完成26.526万件档案二分类预测与运用工作。经统计分析,鉴定模型预测率为100%,总准确率为70.68%,总精确率为67.6%,鉴于实际预测对象全宗数、件数和内容丰富程度都数倍于实验数据,可以认为实用预测质量与课题研究成果大体相当。对双模块预测情况分别统计分析,单维直接鉴定模块准确率、精确率分别为93.07%、90.72%,开放和控制方向的准确率为67.39%、99.96%,精确率为91.81%、90.56%,反映了该模块的实用优势;多维加权组合鉴定模块预测结果,置信度在70.21%以上的精确率约为63.78%。

  为进一步发挥鉴定模型作用、提升工作效率,基于对双模块的分析和“四审一议一批”制度,省档案馆实施了预测成果精准使用策略。用单维直接鉴定模块预测成果实行“一审替代”,减少了25%以上人工一审工作量,用该模块控制方向预测成果实行“二审替代”,减少20%以上人工二审工作量;各审级人员可根据多维加权组合鉴定置信度筛选档案数据,将其作为开放鉴定的重要参考;在分发三审任务前用单维直接鉴定模块分析13万件没有应用预测成果、二审为开放的档案数据,将6958件档案修正为控制使用。下一步,省档案馆将持续开展鉴定模型维护、训练与优化工作,根据实用数据分析情况适时拓展鉴定模型精准使用范围,助力不断提高档案开放审核效率和质量。

  数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!

立即在线咨询 关闭
地址:广东省广州市天河区88号    电话:400-123-4567     传真:+86-123-4567
    ICP备案编号:琼ICP备xxxxxxxx号