中文文本分类算法比较研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:whp_cac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,文本信息的数量也日益增加,文本信息的自动处理也变得越来越重要。文本分类作为自然语言处理的一个基本问题,是文本信息处理中的一项主要技术,受到文本处理领域越来越多的关注。本文对文本分类技术的研究主要分为两个部分:第一部分,设计了一种基于类别核心词上下文矩阵的文本表示方法。该方法首先把在文本的标题、摘要、关键词和文章开头结尾部分出现的特征词提取为类别核心词。虽然类别核心词能比较好地表示文本的类别特征,但是却不能体现出文本的上下文关系。针对这一不足提出了类别核心词上下文矩阵,该矩阵把词条按照对类别核心词信息量大小的不同排列在矩阵的不同位置,使得上下文关系与类别核心词较好地联系起来。其次,根据词条在文章的不同位置以及类别核心词上下文矩阵中的不同位置重新进行权重计算,进而更有效的表示文本。第二部分,讨论了贝叶斯(NB)、K-近邻(KNN)、支撑向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行比较研究。
其他文献
随着计算机系统的广泛应用和Internet技术的飞速发展,现代企业的运营对于信息技术的依赖程度日益增强,特别是,各类数据已经成为企业正常运作的重要基础。数据容灾在这种大背
随着计算机、网络、以及多媒体技术的迅猛发展,图像处理技术的研究与应用尤其是音视频编解码技术引起了更广泛的关注。同时,嵌入式系统继计算机网络技术之后成为IT领域又一个
中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个重要环节,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎而言,
随着医疗信息化进程的不断发展,健康数据资料日益累积,传统医疗健康行业逐步迈入大数据时代。对健康大数据进行分析处理,不仅可以提供疾病预测、辅助诊断、决策支持,还能实现
近年来,物流产业飞速发展,更有效的配置物流资源以及更合理的个性化服务是提高物流产业竞争力的关键因素。这样首先要解决数据异构问题,然后针对不同的需求匹配相应的服务,达
移动Ad hoc网络是一种不依赖与固定设施的、自组织的无线网络,其组网方便、快捷,不受时间和空间的限制,既可应用于救援、会议、战场、探险或危险环境中的目标监控等场合,又可用于
大量计算机应用对于存储规模和性能的迫切要求导致基于商业化部件的存储集群系统产生和发展。存储集群将每个存储设备作为一个存储节点,所有的节点通过高速互联网络连接起来
远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。它利用物理位置上分离的存储设备所具备的远程数据连接功能,在远程维护一套数
随着网际网络的快速发展,Web生活与人们的日常生活休戚相关。然而网路环境复杂多变,用户的讯息很容易被截获和复制。认证用户身份的合法性,保护用户敏感数据隐秘性,将倍受关
语言模型(Language Model)是描述自然语言内在规律的数学模型,在机器翻译、语音识别、文字处理、信息检索等领域中占据着十分重要的地位。一个可靠的语言模型对于提高机器翻