基于自然语言处理和机器学习的文本分类及其应用研究

被引量 : 33次 | 上传用户:djsfhkjthrekl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文讨论了基于自然语言处理和机器学习的文本分类任务,提出了文本分类中新的特征降维方法,并结合两种不同的机器学习算法,观察了不同的降维方法和机器学习算法相组合完成文本分类的性能随特征空间维数变化的现象,并尝试探讨了造成这种现象的原因。具体描述了完成分类任务所需要的自然语言处理、降维和机器学习的算法及其理论基础。设计了紧凑的数据结构和算法过程来实现本文提出的降维方法。分析了文本分类对搜索在效果和效率上的帮助,阐述了文本分类在信息过滤中的应用,并结合招聘信息服务系统的设想分析了其在主动信息服务方面的应用。本文还分析了文本分类各个阶段可能的改进发展方向。 文本分类分为两个阶段完成,分别采用了自然语言处理和机器学习的技术。因此,文本分类在理论研究上的价值体现在对这两种技术的推动。然而文本分类的意义远不如此。分本分类对于提高网上信息检索的效果和效率很有帮助,是推进个性化服务,改进信息获取模式的重要方面,也是内容安全的基础。因此好的分类性能是关注的焦点。研究文本分类任务的理论和工程问题,将具有重要意义。
其他文献
结合工程设计人员的实际需求,针对上海地区《地下铁道建筑结构抗震设计规范》(DG/TJ 08-2064—2009)中列出的可供选用的四种抗震设计方法进行了详细介绍,重点对比了这些方法
为了迎接即将到来的老龄社会,世界各国纷纷建立多支柱的养老保障体系。我国政府也实施了养老制度改革,于2004年5月基本确立了包括基本养老社会保险、企业年金和个人储蓄性养
在具体分析信息化对制造业企业工艺创新影响的基础上,结合制造业企业工艺创新柔性化、智能化、集成化的发展趋势,提出了构建制造业企业工艺创新能力评价指标体系的设计原则,
<正>课堂教学评价的目的是为了全面考察学生的学习状况,诊断学生在学习中存在的困难,及时调整和改善教学过程,帮助学生认识到自己的长处和不足,激励学生的学习热情,从而使学
电子废件的回收加工同其他废料的加工一样分为两个阶段,即对废件进行预处理,以便取样并备料用于后续加工的第一阶段和采用已知的各种火法和湿法冶金工艺,由备料中回收贵金属的第
复杂适应性系统理论的研究方法,为剖析经济组织结构类型如何影响经济效率提供了新的研究视角。以NK模型作为典型的理论方法,介绍了该理论具体应用于实际区域经济研究中的一般
针对如何评价我国高校科研项目质量的监管水平,在总结我国高校科研项目评价方法的基础上,以高校科研项目质量管理有效性评价为目的,利用层次分析法,形成了过程管理措施、科研
通过对地震影响系数曲线段表达式的数值对比分析,考虑抗震设防烈度、设计基本地震加速度、设计地震分组和场地类别4个场地地震条件参数的影响,提出地震影响系数对比常数的概
突破性技术创新是战略性新兴产业产生的必要条件,战略性新兴产业的意义在于能够引领技术创新走向。在战略性新兴产业技术创新研究文献的基础上,探讨了战略性新兴产业的技术范
文章设计了一个具有自己独立工作目录的Linux应用沙箱,可为用户对不信任的应用程序提供一个独立和安全的运行环境,应用程序在沙箱中所做的操作对主机不会造成任何影响。该沙