论文部分内容阅读
随着药物副作用带来的危害越来越大,药物安全问题日益受到人们的重视并逐渐成为医学界和民众关注的热点,因此如何发现药物的副作用具有重大的理论与实用价值。而Web2.0技术的发展使得互联网上出现了不少医疗健康类社交网站,人们在上面分享用药经历并对药物进行评论。这些网站上的用户评论数据日益丰富,其中蕴含的药物副作用相关信息开始受到研究人员的关注,并逐渐形成从用户评论中挖掘副作用信息这样一种快捷、有效的药物副作用发现机制。在从用户评论中挖掘药物副作用时,由于人们可能采用不同的表述方式来描述副作用,而新药的上市与用药者的差异性会造成新的副作用出现,因此从评论中识别新的副作用名称并进行标准化十分重要。针对该问题,本文第3章工作利用条件随机场模型识别评论中的副作用,对识别出的副作用名称进行标准化,最后获取药物的副作用。实验结果显示,条件随机场模型可以识别出已知的与新的副作用名称,而标准化技术将副作用名称进行聚合与归并,有利于药物副作用的发现。本文通过将挖掘出的药物已知的副作用与数据库记录进行对比验证了本文方法的有效性,同时得到一个按评论中的发生频率排序的药物潜在副作用列表。从用户评论中识别副作用名称是药物副作用发现中基础却关键的步骤,但由于评论内容在语法上的不规范性与副作用名称的多样性,从评论中识别副作用实体具有较大的挑战性。针对该问题,本文第4章实现了一个融合不同方法的副作用实体识别系统。第一种方法将滑动窗口中的短语与词典中的名称进行词袋匹配识别副作用实体,并在匹配时考虑了编辑距离;第二种方法利用条件随机场模型进行识别,其中应用了向前选择法找出最佳的特征集合,并通过试验找出效果最好的词语上下文特征组合方式。将两种方法的识别结果进行融合,得到的融合后结果比单一方法具有较大提升,说明通过融合可以弥补单一方法识别的不足。与其他文献中的副作用实体识别方法相比,本文方法的识别性能与之相当甚至可能优于他们,从而证明本文提出的融合方法的有效性。