【摘 要】
:
[目的/意义]训练语料的质量对主流的文本分类算法至关重要。消除噪声,尤其是“类别外噪声”,有助于提升训练语料的质量,进而提升文本分类算法的准确率。[方法/过程]本文重点利用语义信息来消除“类别外噪声”。通过对每个类别的训练语料构建“类目-类目关键词”知识库,利用“词嵌入”自动化比较其语义信息来判断该类别下是否存在噪声,并给出“类别外噪声”类目候选列表以及文献候选列表,最后通过人机交互的方式消除噪声。[结果/结论]本文提出的去噪方法能够有效检测并消除大规模文本分类的训练语料中的噪声数据,提升训练语料的质量。
【机 构】
:
中国科学技术信息研究所,富媒体数字出版内容组织与知识服务重点实验室
【基金项目】
:
中国科学技术信息研究所创新研究基金青年项目“大规模文本分类的训练语料去噪研究”(QN2020-10),中国工程科技知识中心建设项目“知识组织体系建设”(CKCEST-2021-2-6)。
论文部分内容阅读
[目的/意义]训练语料的质量对主流的文本分类算法至关重要。消除噪声,尤其是“类别外噪声”,有助于提升训练语料的质量,进而提升文本分类算法的准确率。[方法/过程]本文重点利用语义信息来消除“类别外噪声”。通过对每个类别的训练语料构建“类目-类目关键词”知识库,利用“词嵌入”自动化比较其语义信息来判断该类别下是否存在噪声,并给出“类别外噪声”类目候选列表以及文献候选列表,最后通过人机交互的方式消除噪声。[结果/结论]本文提出的去噪方法能够有效检测并消除大规模文本分类的训练语料中的噪声数据,提升训练语料的质量。
其他文献
[目的/意义]基于中国科技期刊发展现状及相关研究成果,把握《关于深化改革培育世界一流科技期刊的意见》精神,提出建设世界一流科技期刊的目标和路径,以提升中国科技期刊的世界话语权和影响力。[方法/过程]梳理新中国成立以来中国科技期刊的发展成就,剖析世界一流科技期刊的特征和内涵,提出建设世界一流科技期刊的具体目标。[结果/结论]要调整科研评价标准,吸引一流论文投稿,要推动科技期刊出版集团化发展,要做精做强中文科技期刊,要加强编辑队伍建设,培养世界一流水平的编辑队伍。
[目的/意义]探索政务新媒体的传播特点能够对政务新媒体未来发展方向提供更深层的洞见,有助于相关机构或部门在未来的社会治理中更及时地传播信息并且更好地服务民生。[方法/过程]研究工作选取微博、微信、抖音三大政务新媒体信息平台,爬取平台发布的信息内容以及对应的用户点赞量、评论量、转发量。基于各平台的信息传播影响力指标,并结合发布时间、内容类型、推送形式,分析不同政务新媒体平台信息传播影响力。[结果/结论]研究结果表明,短视频政务新媒体平台在信息传播活性方面具有优异的表现;信息内容以及事件类型等差异使其适合不同
“新经管”战略发展的核心任务在于通过办学理念更新、学科专业结构调整、培养目标、培养方式的改变,培养出新时代新技术新变革背景下,具有适应产业结构调整、发展方式转换所需要的知识、能力、素质结构的经济管理人才。通过在人才培养目标、课程设置、培养方案的具体实施等方面与罗格斯大学金融学专业培养方案进行比较,提出在培养目标课程体系建设以及教学内容和手段等方面对金融学专业培养方案进行优化的建议。
[目的/意义]为了系统识别学术期刊数字出版领域当前的主要研究内容、未来发展趋势以及存在的问题,加快实现学术期刊数字化转型和建设期刊数字化出版健康体系,[方法/过程]本文基于CiteSpace可视化分析对2007—2019年中国学术期刊(CNKI)数据库中学术期刊数字出版相关研究的367篇文献进行研究,绘制出相关研究的关键词、发文作者、发文机构的知识图谱,[结果/结论]发现学术期刊数字出版研究以2015年为时间节点,呈现先增后减的趋势;从事相关研究的作者较多,并已经形成核心网络;但相关机构之间的联系较差,合
[目的/意义]调研分析大数据环境下的农村信息服务平台建设现状与建设需求,了解基于大数据的农村信息服务平台建设思路,以期为推动大数据环境下农村信息服务事业创新发展提供参考。[方法/过程]从分析大数据技术与农村信息服务之间的联系入手,从管理层、供给层、用户层3个层面剖析了大数据环境下的农村信息服务创新变革发展,在此基础上综合农村信息服务各要素构建了基于大数据的农村信息服务平台。[结果/结论]大数据环境下的农村信息服务平台建设是一项系统工程,需要充分考虑建设主体、业务面向、信息资源集成、大数据应用等诸多因素,同
[目的/意义]阅读类app在方便人们阅读同时,用户隐私问题也日益得到关注。通过对app用户隐私政策进行研究,促进阅读类app安全健康发展,提供更好的阅读服务。[方法/过程]选取排名靠前的10款阅读类app为调查对象,从隐私政策呈现方式、用户个人信息收集规定、用户个人信息存储规定、用户个人信息共享规定、关于未成年人服务规定方面分析用户隐私政策,并剖析用户隐私保护面临的主要困境。[结果/结论]中国自2020年3月1日起施行《网络信息内容生态治理规定》以来,诸多app更新隐私政策,阅读类app隐私政策呈现方式已
■唐拉提汗惜败■rn唐拉提汗1996年11月出生于新疆阿勒泰市阿拉哈克镇,曾夺得2017年十三届全运会75公斤级拳击亚军.这是唐拉提汗首次参加奥运会,他既紧张又兴奋.7月26日,男子
在针对如何提高口译课堂学生的英语表达能力所进行的两轮行动研究中,通过观察和访谈发现语言输入不够、口语表达练习不够、缺乏口译变通技巧以及缺乏逻辑组块能力是口译课堂学生英语表达能力不足的主要原因,据此制定的行动方案取得了较好的效果。
循证就是遵循证据以确证事件或事物及其效果的真实性。职后教师教育特指入职后的教师在职教育。以循证的视角对职后教师教育课程指导标准、课程开发动力和课程要素关系进行审视,目的是为了促进职后教师教育的实践、研究和决策的专业化与科学化。目前,职后教师教育缺乏完整的国家层面的课程指导标准,而制定课程指导标准要基于国内外课程管理研究成果、教师教育课程改革实践和课程实施中实际问题的调研;职后教师教育课程开发动力不足,要以课程开发动力调研为证据,制定并出台顶层激励政策;职后教师教育课程要素关系缺乏有效联动,应基于循证的课程
尝试探讨构式语法与配价语法外语学习理论如何运用于LSP(Language for Specific Purpose)民航院校空乘专业的通识英语课程教学,以做为编撰教材、训练学生的理论依据。研究发现,构式语法与配价语法各有优势,构式语法能解释结构上无法再细分的一些定型化语块用法,因此在教学时应结合两种理论的理念,同时发挥这两个理论的优势。本文所阐释的方法虽未完全成熟,但相信对LSP的教学研究必有贡献。