论文部分内容阅读
随着互联网技术的高速发展,各个行业都开始与互联网整合,当然医疗行业也不例外。在线医疗网站上积累了大量的患者对医生的评价信息,这些评价信息是患者选择一个医生的依据,患者一般在浏览了大量其他患者的评价后才能决定选择哪个医生为其诊治,但是这往往会花费患者很多时间和精力,而且患者也不可能把医生的所有的评论都阅读一遍。基于这个问题,论文提出设计和实现一个基于网络数据的医生口碑分析系统,为患者提供选择医生的参考指标,帮助患者快速选择医生。该系统采集网上患者对该医生的评论信息进行文本挖掘分析,从而得出医生的口碑评分以及满意评价比例、一般评价比例、不满意评价比例。该系统主要分为信息采取模块、评论文本预处理模块、评论文本模块、信息展示模块等模块。数据爬取模块使用一款开源的爬虫框架Web Magic,从医疗网站上采集医院、医生、患者评价等信息。评论文本预处理模块负责评论文本的分词和文本到向量的转换等工作,分词工具使用的是Ansj分词工具。评论文本挖掘模块通过逻辑回归实现算法评论的分类。评论最终会被分成“满意”、“一般”、“不满意”三类。评论的类别作为医生口碑评分的依据。信息展示模块负责展示爬取的医生信息、评论信息和口碑评分结果等信息。展示模块采用B/S架构,使用Spring MVC、Spring、My Batis等主流Web开发框架搭建一个Web服务器。整个系统使用My SQL数据库进行数据的存储。在测试环境中,该系统从挂号网采集到了1000多条医生数据和50000多条评论数据,训练出了评论分类模型,分类模型的准确度约为86%,满足系统应用需求。然后实现了评价的分类和医生的口碑评分的计算。最后实现了口碑分析结果的展示功能,用户可以登录系统,查看到医生的信息和医生的评分结果。整个系统实现了预期的功能。