论文部分内容阅读
摘要:基于如何能够更好地利用互联网医院的评论信息,使其能够有利于指导医院改進提高,让人们能够更好地了解以往患者就诊的情况,同时探讨更好的提升文本情感分析效果的方法。该文首先使用python爬虫爬取乌镇互联网医院的评论信息,其次在hownet词典的基础上,构建新的情感词典、否定词典、程度副词词典以及连词词典,构建了相应的情感分析规则。同时,根据评论信息分词后的词频数据运用R语言进行数据的可视化分析。得出使用情感词典和语义规则对互联网医院评论信息进行分析是有效的结论,同时指出了评论者关注点主要在态度、效果、耐心、治疗、预约、病人、时间等方面上。
关键词: 互联网医院;文本分析;情感分析;情感词典;语义规则
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)03-0180-04
随着我国互联网的高速发展,越来越多的传统业务借助互联网实现业务的转型升级。加上我国医疗改革的呼声日益高涨,互联网医院开始悄然兴起。互联网医院是代表医疗行业发展的新方向,它对解决我国现在医疗资源严重不平衡以及人们日益增加的医疗资源的需求之间的矛盾具有巨大的推动作用,是目前我国卫生部门积极引导及推动的医疗发展新模式[1]。
互联网医院除了将传统的挂号、疾病咨询、处方等流程搬到互联网上[2],还为患者或患者家属提供了向互联网医院传达医院服务水平、表达自己在医院服务感受的平台,即面向大众的互联网评论。患者及患者家属可以通过平台对互联网医院的服务环节、具体环境、资源分配等各个方面发表自己的看法,一方面向医院传递医院值得肯定的地方及医院需要改进的环节等信息,从而提升患者的体验,另一方面给想要了解互联网医院服务状况的患者及患者家属提供了良好的信息通道。由于互联网医院评论数量非常多,而且多为一百字以内的语句级短文本,如何能够快速准确地从这些语句级评论中分析出评论者的关注点以及对互联网医院的服务的正负向评价从而给医院的改进提供方向,成为了亟须解决的研究课题。
1 相关研究情况
本文是对互联网医院评论的文本信息进行分析和研究,根据评论信息判定其情感的倾向性及关注点内容。就文本情感分析而言,目前学术界已经有许多专家和学者研究如何快速高效的进行情感的倾向分类。根据是否训练学习可以将情感分类的方法分为基于语义规则的情感分类和基于机器学习的情感分类[3]。根据文本的处理粒度的大小不同,则可以将文本情感分类分为篇章级分类、语句级分类、词语级分类[4]。本文采用的是基于情感词典与语义规则的语句级分类方法进行分类。
对于基于情感词典与语义规则方面的研究,徐琳宏、林鸿飞等通过计算待分类文本词汇与知网中已标注词汇之间的相似度,选取倾向性明显的词汇作为特征词,采用SVM及语义规则相结合的方法,提高对文本褒贬的识别强度[5]。赵鹏、赵志伟等提出了基于语义的TriPos模式的分类方法,将统计分析与语义分析相结合,提高了主客观分析的准确率、召回率和F值,取得了良好的效果[6]。吴江、唐常杰等通过Apriori方法对金融文本属性进行抽取,然后使用语义规则的分析方法对web金融文本进行情感分析[7],取得的结果优于ku[8]的算法结果。杨立公、樊孝忠等提出了最大限度地综合利用各种语言的词典信息,对候选词进行情感语义归类,适用于没有其他知识背景的情况,具有一定的实用价值[9]。王志涛、於志文等根据微博的特性,对微博的不同语言层次制定不同的语义规则,结合微博文本的粒度和表情符号,对微博文本进行情感分类,并验证了该方法的有效性[10]。赵天奇、姚海鹏等则通过把微博表情引入情感加权的方式,使得微博情感分类有了一定程度的提高[11]。陈国兰在已经标注的微博语料的基础上,构建包括程度副词、关系连词、否定词的词典,使用SVM分类,取得了较好的效果[12]。杨佳能、阳爱民构建了表情符号词典和网络用语词典,并使用依存句法分析构建情感表达树,并制定语义分析规则计算微博文本情感强度进行情感分类,证明了加入表情符号和网络用语有助于情感分类[13]。
2 评论文本的获取与处理
2.1 评论文本的获取
本文是选取乌镇互联网医院(挂号网)中的复旦大学附属中山医院的患者的评论信息作为研究对象进行文本情感分析。作者通过借助Python爬虫完成挂号网账号的登录、验证码的识别、评论信息的下载等任务,共获取4315条评论信息。
2.2 评论信息的预处理
1)由于评论信息中存在同一个评论者连续评论多次,且每次评论的内容都相同的情况,所以需要对多余的评论信息进行删除处理。
2)对评论信息进行中文分词处理。目前分词工具比较多,使用较多的有jieba分词、中科大的NLPIR系统分词、庖丁解牛分词等等,本文使用中科大的NLPIR系统进行分词。该分词方法在分词、词性标注等方面取得较好的效果,同时方便添加词典。
3 相关词典的构建
3.1 网络用语情感词典的构建
由于目前网络信息非常多且更新的非常快,每时每刻都会产生新的网络用词代表使用者的情感倾向,比如“然并卵”、“日了狗”、“猴赛雷”等等。这些词在使用者使用时是作为一个完整的词来表达他们特定的情感,但是由于分词系统并不能及时将这些新的词纳入到分词词典中去,从而导致在分词的过程中,将一个完整的词拆分为若干部分,如“日了狗”被拆分为“日”、“了”、“狗”,“猴赛雷”被拆分为“猴”、“赛”、“雷”,从而失去了原来的意义,不利于评论者情感倾向的分析。
本文认为在同一句内,如果分词后的若干个词一起连续出现的次数超过一定的较小的阈值但又同时小于一个较大的阈值,则可以初步判断若干词连续组合起来有可能形成一个新词。例如“日了狗”作为一个网络用词可能会有较多的评论者在评论时用到,但是对整个评论的数量而言,仍然是少数的,同时,“听了”、“好了”等一些常见的一起出现的组合却不应该作为一个新词对待。根据该原则,本文构建获得新词的算法通过以下伪代码实现: [算法3.1 查找新词\
关键词: 互联网医院;文本分析;情感分析;情感词典;语义规则
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)03-0180-04
随着我国互联网的高速发展,越来越多的传统业务借助互联网实现业务的转型升级。加上我国医疗改革的呼声日益高涨,互联网医院开始悄然兴起。互联网医院是代表医疗行业发展的新方向,它对解决我国现在医疗资源严重不平衡以及人们日益增加的医疗资源的需求之间的矛盾具有巨大的推动作用,是目前我国卫生部门积极引导及推动的医疗发展新模式[1]。
互联网医院除了将传统的挂号、疾病咨询、处方等流程搬到互联网上[2],还为患者或患者家属提供了向互联网医院传达医院服务水平、表达自己在医院服务感受的平台,即面向大众的互联网评论。患者及患者家属可以通过平台对互联网医院的服务环节、具体环境、资源分配等各个方面发表自己的看法,一方面向医院传递医院值得肯定的地方及医院需要改进的环节等信息,从而提升患者的体验,另一方面给想要了解互联网医院服务状况的患者及患者家属提供了良好的信息通道。由于互联网医院评论数量非常多,而且多为一百字以内的语句级短文本,如何能够快速准确地从这些语句级评论中分析出评论者的关注点以及对互联网医院的服务的正负向评价从而给医院的改进提供方向,成为了亟须解决的研究课题。
1 相关研究情况
本文是对互联网医院评论的文本信息进行分析和研究,根据评论信息判定其情感的倾向性及关注点内容。就文本情感分析而言,目前学术界已经有许多专家和学者研究如何快速高效的进行情感的倾向分类。根据是否训练学习可以将情感分类的方法分为基于语义规则的情感分类和基于机器学习的情感分类[3]。根据文本的处理粒度的大小不同,则可以将文本情感分类分为篇章级分类、语句级分类、词语级分类[4]。本文采用的是基于情感词典与语义规则的语句级分类方法进行分类。
对于基于情感词典与语义规则方面的研究,徐琳宏、林鸿飞等通过计算待分类文本词汇与知网中已标注词汇之间的相似度,选取倾向性明显的词汇作为特征词,采用SVM及语义规则相结合的方法,提高对文本褒贬的识别强度[5]。赵鹏、赵志伟等提出了基于语义的TriPos模式的分类方法,将统计分析与语义分析相结合,提高了主客观分析的准确率、召回率和F值,取得了良好的效果[6]。吴江、唐常杰等通过Apriori方法对金融文本属性进行抽取,然后使用语义规则的分析方法对web金融文本进行情感分析[7],取得的结果优于ku[8]的算法结果。杨立公、樊孝忠等提出了最大限度地综合利用各种语言的词典信息,对候选词进行情感语义归类,适用于没有其他知识背景的情况,具有一定的实用价值[9]。王志涛、於志文等根据微博的特性,对微博的不同语言层次制定不同的语义规则,结合微博文本的粒度和表情符号,对微博文本进行情感分类,并验证了该方法的有效性[10]。赵天奇、姚海鹏等则通过把微博表情引入情感加权的方式,使得微博情感分类有了一定程度的提高[11]。陈国兰在已经标注的微博语料的基础上,构建包括程度副词、关系连词、否定词的词典,使用SVM分类,取得了较好的效果[12]。杨佳能、阳爱民构建了表情符号词典和网络用语词典,并使用依存句法分析构建情感表达树,并制定语义分析规则计算微博文本情感强度进行情感分类,证明了加入表情符号和网络用语有助于情感分类[13]。
2 评论文本的获取与处理
2.1 评论文本的获取
本文是选取乌镇互联网医院(挂号网)中的复旦大学附属中山医院的患者的评论信息作为研究对象进行文本情感分析。作者通过借助Python爬虫完成挂号网账号的登录、验证码的识别、评论信息的下载等任务,共获取4315条评论信息。
2.2 评论信息的预处理
1)由于评论信息中存在同一个评论者连续评论多次,且每次评论的内容都相同的情况,所以需要对多余的评论信息进行删除处理。
2)对评论信息进行中文分词处理。目前分词工具比较多,使用较多的有jieba分词、中科大的NLPIR系统分词、庖丁解牛分词等等,本文使用中科大的NLPIR系统进行分词。该分词方法在分词、词性标注等方面取得较好的效果,同时方便添加词典。
3 相关词典的构建
3.1 网络用语情感词典的构建
由于目前网络信息非常多且更新的非常快,每时每刻都会产生新的网络用词代表使用者的情感倾向,比如“然并卵”、“日了狗”、“猴赛雷”等等。这些词在使用者使用时是作为一个完整的词来表达他们特定的情感,但是由于分词系统并不能及时将这些新的词纳入到分词词典中去,从而导致在分词的过程中,将一个完整的词拆分为若干部分,如“日了狗”被拆分为“日”、“了”、“狗”,“猴赛雷”被拆分为“猴”、“赛”、“雷”,从而失去了原来的意义,不利于评论者情感倾向的分析。
本文认为在同一句内,如果分词后的若干个词一起连续出现的次数超过一定的较小的阈值但又同时小于一个较大的阈值,则可以初步判断若干词连续组合起来有可能形成一个新词。例如“日了狗”作为一个网络用词可能会有较多的评论者在评论时用到,但是对整个评论的数量而言,仍然是少数的,同时,“听了”、“好了”等一些常见的一起出现的组合却不应该作为一个新词对待。根据该原则,本文构建获得新词的算法通过以下伪代码实现: [算法3.1 查找新词\