独立于语种的文本分类方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:wedededi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现,并获得了较好的分类性能。
其他文献
汉语在词类这个语言层次上存在着歧义结构,这给汉语的自动句法分析带耿了难以逾越的障碍。通过寻找汉语语义类之间可能存在的句法关系建立汉语语义关联网,这为用汉语语义知识来
使用统计方法可以对汉英机器翻译的词性标注和句法语义分析阶段产生的歧义进行消歧,在估计过程中往往使用最大可能方法,但是并不是在所有的情况下取最大值都是正确的.为了从
长期以来,词义排歧一直被认为是自然语言处理的难题之一,本文用机器可读词典《现代汉语辞海》提供的搭配实例作为多义词的初始搭配知识,采用适当的统计和自组织方法自动扩大搭配
“翻转课堂”与传统课堂有很大的不同,其以微课为基础,让学生利用微课进行自主学习,教师在课堂上为学生解答疑问,将更多的时间用于学生进行讨论学习,以发挥学生在学习中的主
关联词语在一些汉语议论文章中占很大的比重,因而,对此类汉语文章的分析,关联词可以起到非常重要的作用。本文主要讨论如何将机器学习应用于汉语关联词的歧义辨别-原因,方法和效果
选取对数正态分布为产量预测模型、Compertz模型为含水预测模型,注采关系曲线为油汽比模型,联立求解,进行开发指标预测。矿场实例计算结果表明,该方法可对稠油油藏注蒸汽开发所有
汉字是表义文字,具有丰富的语义内容,汉字是一个有限的封闭集,它的数目是有限的,而汉语的词是一个开放系统,它是无限的.本文以"字义基元化、词义组合化"为基本思想,从字义着
现如今,在小学数学教学课堂,采取开放式教学模式取得良好成效,开放式教学模式也被广泛认可,为进一步分析,本文结合具体教学实际,进一步总结了开放式教学的重要性,也提出了具
以网络技术和多媒体技术为核心的信息技术的广泛应用和不断发展,使世界由此进入了一个人机交互的多媒体化、网络化、信息化时代。互联网,迅即改变了人们传统的时空观念,更引
<正>~~
期刊