基于信息提取的面向行业应用文本分类算法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:fuyao698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明:该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法.
其他文献
在城乡一体化进程中,在国家“办人民满意教育、促进高位均衡发展”的大时代背景下,如何在小学音乐课堂教学这一微观世界中寻找最为贴切的均衡。也许每个学生学习音乐、感受音
合成课程的思想强调师生共同参与、共同承担责任,强调思维、情感与行动的整合,强调课程内容与学生的基本需要及生活有密切联系,并对学生的情感和理智都具有指导意义,强调自我
在漆包线生产过程中,传统的漆包线检测技术已难以适应现在的要求,在分析了现有的漆包线检测方法不足的基础上,提出了一种适用于漆包线在线检测的整体方案--非接触式直流高压
胜东社区老年管理中心共建老年站女职工队伍存在一定的优势和不足,为打造卓越女工队伍,运用“十大锦囊”,取得了一定的成效.启示和建议:打造女工队伍是需要循序渐进的,要发动
一堂出色的语文课,要能充分激发学生的求知欲,引发学生浓厚的学习兴趣,教师就要运用“教学艺术”。针对在课堂教学过程中所采用的情境艺术、幽默艺术、板书艺术、肢体艺术等
对文本的解读,实质是读者和作者、读者和主人公、读者和自己内心交流的过程。在这个过程中,文本的基本内容和思想感情、文本内涵、文本的语言表达形式是必须了解的要素。如果
课堂教学是小学语文教学的主要途径,然而课堂教学往往被教师摆在唯一的位置,忽视了课外阅读与课堂教学相结合的重要性。 Classroom teaching is the main way of Chinese te
该文着重讨论矩阵变换器的建模与仿真.文中给出了矩阵变换器的两种模型;基于间接空间矢量调制法的模型和基于功率守恒方程的模型,详细介绍了这两种模型建立的理论基础和建立
本文力图从《夜》女性形象特点出发,分析中世纪阿拉伯社会对女性的所扮演性别角色期待.不仅仅只是分析在当时的社会文化背景下,理想妇女的道德标准和当时“好女人”应该警惕
中国文学现代化的历史,就文艺思想与外国的关系而言,是与外来文学思潮的影响有着极为密切的联系.中国的社会变革是文学革命的内因,很显然,外来的文学思潮的影响是文学革命的