基于机器学习和深度学习的南海证据性数据抽取算法比较与应用

来源 :现代情报 | 被引量 : 0次 | 上传用户:zhaoml0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]本文尝试从文献载体到文献内容(全文检索)再到数据层面的细粒度的南海证据性数据抽取.首先,能提高南海文献数字资源的检索性能;其次,为专业人员提供充足的证据材料;最后,为南海维权的证据链关联模型构建做好基础.[方法/过程]根据南海维权证据的特点,制定抽取规则.通过文本清洗、文本分段、段分句、分词把非结构化的数据转化成结构化数据.然后分别比较朴素贝叶斯、SVM、随机森林、DNN、TexCNN、Bi-LSTM、LightGBM和XGBoost的证据性数据抽取效果.最后为了进一步提高证据抽取的准确性,增加了“5W”规则过滤和人工校验.[结果/结论]实验结果表明,基于TensorFlow深度学习框架,构建DNN模型的证据性数据抽取效果较好,准确率达0.88.通过进一步融合“5W”规则过滤和人工校验,显著地提高了南海证据性数据抽取的准确率,本文的证据抽取的方法具有一定的可行性.
其他文献
数字人文是以数字化资源为研究对象,通过数字技术统计处理、解读分析,深入挖掘隐藏资源的规律和线索,从而促进人文资源的收集、加工、存储和利用,实现知识聚合与发现.近年来,学者躬耕于数字人文研究,其跨学科性、包容性日益凸显,研究疆域版图日渐拓宽.随着“数智时代”的到来,数字人文研究正掀起一股新的浪潮.
期刊
外语教育教学是一个复杂的生态系统.不同的机构和人员在这个生态系统中发挥着重要的作用.政府是教育政策的制定者,也是教育资源的主要提供者.社会机构,包括教学研究机构、出版机构、考试机构等提供相关的教育教学服务.学校是这个系统中最重要的分支系统.其中,校长、学科负责人和学科教师对外语教育的认识、教学和管理能力以及他们与学生和家长的互动决定了学校的外语教育质量.学生无疑是该生态系统中最重要的起点和终端,其自身又构成一个微系统,包括他们的学习能力、学习动机、学习投入及其与同伴、老师和其他环境因素的互动等,这些因素将