【摘 要】
:
文本分类算法主要是用来处理文本数据的,它首先对自然语言进行分析,过滤干扰信息,在给定类别的前提下,对文本的内容进行分类处理,最终成功的对文本进行分类。现阶段,虽然文本分类模
论文部分内容阅读
文本分类算法主要是用来处理文本数据的,它首先对自然语言进行分析,过滤干扰信息,在给定类别的前提下,对文本的内容进行分类处理,最终成功的对文本进行分类。现阶段,虽然文本分类模型已经趋近于成熟,但也并没有达到完美。随着网络技术的飞速发展,远程教育系统在网络上应用的越来越广,智能答疑系统也随之产生,并成为一个非常值得研究的课题。它允许用户进行自然语言提问,无需用户手工查找,就能够返回给用户精准的答案。与传统的关键字匹配技术相比,智能答疑系统能更好地满足用户的查询需求。但是目前的智能答疑系统,回答问题的精准度和时间效率都不够理想。论文在参考大量文献的基础上对文本分类的重点、难点和主要算法进行了分析,并针对特征选择算法中的信息增益算法进行了改进;用信息增益改进算法,联合相似度计算方法,对KNN分类模型进行改进。论文把改进的算法和改进的KNN分类器运用到智能答疑系统中,构建出一个精准度更高、时间效率更好的智能答疑系统模型。该模型在关键词查找阶段,用信息增益改进算法提取关键词,进行匹配;在问题库分类阶段,用改进的KNN分类模型进行分类。实验结果证明,文本分类算法应用到智能教学系统中是可行的,它提高了系统的准确率,缩短了查询时间。
其他文献
大学生是旅游客源市场的重要组成部分之一,分析大学生的旅游偏好,有助于有效开发这一市场。文章通过问卷调查采集大学生的旅游偏好数据,从大学生的旅游信息决策、目的地选择
科研实验中经常遇到大批量、多脏器组织病理石蜡切片的制作,统一的脱水、透明、浸蜡处理条件十分重要。我中心经过长时间的探索,发现小鼠多脏器组织石蜡切片制作程序可以统一
近年来,随着我国综合模块化航空电子系统(IMA)的发展和对这一系统质量保证问题的重视,关于IMA测试方法的研究逐渐成为了科技人员关注的焦点。由于IMA的高复杂性,高综合性的特点,给
《品德与社会》是我国新一轮基础教育课程改革中在小学三至六年级开设的一门综合课程,它取代之前的小学《思想品德》课,是对小学生进行德育的重要途径。《品德与社会》这门课程
<正>递推公式是给定数列的一种重要的方式,已知数列的前n项和递推公式求数列通项公式的试题在数学高考和竞赛中也屡见不鲜.在高中数学中,求数列的通项公式有累加,累乘和通过
<正>背景新的课程标准下,平面解析几何的学习以数形结合思想为指导,以坐标法为核心,建立曲线的方程,从而研究曲线的简单几何性质.但江苏省近几年高考对解析几何内容的考查已
本文论述了隐含条件的概念及挖掘隐含条件的七种方法:从定义与性质中挖掘隐含条件;从类比中挖掘隐含条件;从联系中挖掘隐含条件;从数形结合中挖掘隐含条件;从推理中挖掘隐含
随着我国经济的快速发展和人们生活水平的日益提高,人们的健康意识也随之增强,参与体育锻炼的人数更逐渐增多,给国内外体育用品市场提供了一个很好的发展机遇。体育用品企业为
当今时代,竞争越来越激烈,人们感受到的压力也越来越大,特别是知识型企业工作人员的压力。根据前人的研究成果,工作压力会影响员工的组织承诺的高低。本研究视图验证这两者之
目的检测X型胶原、基质金属蛋白酶13(MMP-13)在发育性髋关节发育不良(DDH)大鼠模型不同时期关节软骨中表达的改变情况,探讨X型胶原、MMP-13与软骨早期退变的相关性。方法选取