LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比

来源 :信息资源管理学报 | 被引量 : 0次 | 上传用户：hualanfengyi

【摘要】

：

本文以信息资源管理中的网页、图书期刊的书目或题录信息等主要数字文本为对象,使用概率主题模型(LDA)建模,通过对比分析KNN、类中心向量法、SVM等三种常见的分类算法所产生

【作者】

：

李湘东潘练

【机构】

：

武汉大学信息管理学院,武汉大学信息资源研究中心

【出处】

：

信息资源管理学报

【发表日期】

：

2015年04期

【关键词】

：

LDA 数字资源书目信息自动分类分类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文以信息资源管理中的网页、图书期刊的书目或题录信息等主要数字文本为对象,使用概率主题模型(LDA)建模,通过对比分析KNN、类中心向量法、SVM等三种常见的分类算法所产生的不同分类效果,研究数字文本资源管理中的自动分类特性。实验表明LDA模型下三种分类算法的分类正确率基本都能达到80%左右,SVM算法分类准确率相较另两种算法大约高0.7~22%左右。本文的结论可为数字文本分类系统使用LDA对文本建模时选择合适的分类算法提供一定的依据。

其他文献

基于虚拟数据库的网站开发

通过分析虚拟数据库技术与XML语言，结合虚拟数据库技术的特点与XML标准的具体内容，提出基于虚拟数据库的网站开发模型，定义了开发模型的建立原则，并在项目应用中作了一定的实践，为

期刊

网站开发虚拟数据库XML软件工程环境开发模型WEB数据管理virtual database XML software engineeringenv

土墩墓一墩多墓问题讨论

对作为吴越文化主要遗存的土墩墓的研究成果累累,对其埋葬特点、文化内涵、文化性质、时代等,学术界已墓本达成共识,但对是否存在一墩多墓的问题,意见不一。本文根据对南岗山

期刊

吴越文化土墩墓一墩多墓讨论

SaaS外包服务用户满意度与持续使用的实证研究

通过梳理IS持续使用理论和服务管理中用户满意度研究的发展脉络,借鉴其成果并结合SaaS系统的特点,提出了SaaS用户满意度与持续使用的理论模型,并通过问卷调查的方法收集数据,

期刊

SAASECM-ISC满意度持续使用影响因素SaaS ECM-ISC Satisfaction Continuous usage Influential

EasyIP技术应用研究

分析了目前采用的NAT方式的缺点和限制,探讨了EasyIP技术的特点和工作过程,并与NAT方式进行了比较,给出一个应用实例.

期刊

EasyIPINTERNETNATPATDHCPPPP技术特点互联网地址转换工作原理EasyIP Internet NAT PAT DHCP

中国鞋业市场难寻“鞋模”

<正>在中国,模特是新崛起的职业,它伴随着经济改革的步伐而诞生。随着社会的发展,社会分工越来越细致,每一年都会有很多新鲜的职业出现。作为特种模特(包括鞋模、手模、唇模

期刊

鞋业市场

四川:互联网+标准+精准=智能化

<正>四川紧扣群众异地就医报销难题,从本地医保工作实际出发,贯穿"便利群众"一条主线,秉承"医保人多跑路、参保人少奔波"的服务理念,提出了"参保地待遇、就医地结算、就医地

期刊

异地就医四川省直接结算数据标准结算平台参保人员医保基金

警察心理健康状况及影响因素研究

期刊

PolicemanAnxietyDepressionLife eventWay of coping

幼儿园中班音乐游戏的组织

音乐游戏能使老师与幼儿都获得喜悦感和成功感。一节优秀的音乐游戏活动,可以通过选用适宜的选材;创造融洽的气氛;创造灵活的形式;建立良好的秩序;注重个体的差异这些方法,以

期刊

中班音乐游戏组织

老运河复合潜流人工湿地对济宁污水处理厂中水深度净化处理技术与方案研究

南水北调是解决我国北方地区水资源严重短缺问题的特大基础设施项目，而调水水质是调水工程能否顺利运行和发挥作用的关键。因此，工程沿线调蓄湖泊的水质状况对调水水质安全至关

学位

复合潜流人工湿地中水深度处理方案设计

LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比

其他学术论文