利用高频词和互信息面向特定领域提取多字词表达

来源 :太原理工大学学报 | 被引量 : 0次 | 上传用户:JGTM2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在阐述了多字词表达定义的基础上,对面向特定领域的多字词表达提取的技术路线进行了详细说明。以大规模的真实文本为研究对象,利用领域高频词和互信息统计量提取多字词表达,确定了多字词表达的最大提取长度,并通过停用词表法对候选多字词表达进行噪声处理。实验结果表明:笔者提出的方法在处理对象规模、效率等方面均有所提高。
其他文献
采用浸渍法制备了阴极Pt/C催化剂,用XRD和TEM对催化剂中铂晶粒大小及分布进行了表征,并考察了载体的预处理、pH值、还原剂和稳定剂的用量对Pt/C催化剂活性的影响,又考察了不同载铂
院校研究主要着眼于解决本校管理实践问题,提供咨询决策服务是其主要工作职能;与国外院校研究相比,中国院校研究的竞争优势和特色,体现在开展适应中国高校发展实际的院校研究
社科类学术期刊论文在编辑时,编辑层面的工作,除了格式的规范性之外,还包括论文标题、中文摘要以及论文结构的相关修改。论文标题的修改应以准确简练为上,中文摘要的修改应考
中国古代产生了具有自然主义倾向的法律思想,主要体现为刑德观和刑罚观,二者强调的重点有所不同。自然主义是我国古代法律的主要特征,是一直支撑着古代法律成长的中心思想,强
2001年9月7日,福建省三明市中级人民法院作出终审裁定:驳回福建省计划生育科学技术研究所等上诉人的上诉,维持泰宁县人民法院作出的一审判决,即判处福建省计生科研所犯有非法
使用粗糙集理论对训练集进行属性约简,再使用决策树算法得到决策树规则;然后,根据规则信息量及规则可信度的概念提出两条规则筛选准则,并将两条准则应用于极小极大规则学习方法,形
基于连通集的定义,引入了c-理想的概念,得出了连通代数domain中每一个元都是相容紧元,当且仅当它的每个c-理想都是主c-理想,给出了连通代数domain满足升链条件。研究了连通完
利用一个临界点存在性定理,结合上下解方法,获得了该边值问题有解的新的充分条件,并证明了一类二阶非线性离散边值问题至少存在四个解。