【摘 要】
:
传统搜索引擎在服务广大网民的过程中存在很多缺陷,包括返回信息繁琐、答案质量不佳等,尤其在互联网数据急剧增长的状态下,无法保证用户答案的准确性。如何准确了解用户意图,
论文部分内容阅读
传统搜索引擎在服务广大网民的过程中存在很多缺陷,包括返回信息繁琐、答案质量不佳等,尤其在互联网数据急剧增长的状态下,无法保证用户答案的准确性。如何准确了解用户意图,快速、简捷地返回答案,减少用户搜索时间以及提高答案准确性,是有待深入研究的问题。论文选择医疗领域作为特定领域,研究受限领域智能问答系统及其各主要部分,在问句分类中,为提高问句分类的准确率,提出了基于类间与类内分布的TFIDF特征权重计算算法;在问句检索方面,为提高问句检索的精确度,设计了基于LDA主题模型相似度计算的问句检索模型;并实现了医疗领域智能问答原型系统。本文主要研究内容包括:(1)数据获取与预处理。利用爬虫技术,获取新浪爱问网站中的健康医疗类问句集和39健康网中的相关数据,构建问题答案对和领域词典。运用NLPIR分词技术,借助医疗领域词典,得到问句分词结果和词性标注;并使用停用词表,去掉分词结果中的虚词、叹词等,得到最终词语-文档集合,实现数据预处理。(2)特征权重计算和问句分类。借助《同义词林》扩展特征词;重点研究特征权重计算方法,针对传统TFIDF忽略词语与类别之间关系的缺点,引入互信息和信息熵的概念,提出了基于类间与类内分布的TFIDF特征权重计算算法;结合用户实际需求确定问句分类体系,以特征词权重值作为训练集,运用粒子群算法优化SVM分类器参数,将测试集应用到分类模型中,实现问句分类;对传统特征权重计算方法与改进方法进行对比实验及结果分析。(3)基于LDA主题模型相似度计算的问句检索模型。重点研究了LDA主题模型,设计了基于LDA主题模型相似度计算的问句检索模型,运用Gibbs采样进行参数估计,并分析与LSA、VSM模型的对比实验结果。(4)设计并实现医疗领域智能问答原型系统。实现了问句分类、信息检索和答案显示等功能,并展示系统界面。
其他文献
目的:通过观察盐酸甲氧氯普胺穴位注射对术后胃瘫综合征(PGS)患者临床症状及疗效的影响,探索中西医结合治疗该病的新途径。方法:选择临床确诊的腹部PGS患者46例,按接受治疗的
财政部分别于2006年和2014年颁布施行《企业会计准则第3号——投资性房地产》和《企业会计准则第39号——公允价值计量》,旨在推动公允价值计量模式在实务中的规范应用,但至
以新疆野豌豆为材料,研究不同浓度NaCl(0,50,100,150和200mmol/L)和Na2CO3(0,10,20,30,40mmol/L)胁迫对种子萌发和幼苗生理状态的影响。结果表明,1)随着两种胁迫浓度的升高,
针对传统单电桥测温精度已不满足精密温度测量系统需求的问题,在分析双电桥测量微小电阻值原理的基础上,从线性度、准确度和灵敏度角度考虑,通过研究改进,完成了基于四线制的
2011年,我国提出了新的扶贫战略目标,加大扶贫投入,中国的扶贫工作也随之进入第五阶段。但是,大量扶贫投入是否增加国贫县农民收入,能否增强国贫县的三次产业自我发展能力和
有色噪声是一种分布广泛、频谱多样、频率能量分布不均匀的随机信号;有色噪声根据功率谱密度不同可划分成不同“颜色”的噪声,不同“颜色”的噪声在不同领域发挥着各自重要的
选用Li Ni1/3Co1/3Mn1/3O2材料制成了锂离子动力电池,将该单体电池进行循环寿命实验,通过对电池进行拆解分析,分别对正极极片、负极极片、隔膜等进行形貌与成分分析,研究了电
本文旨在探索中国英语专业学生分别用母语(中文)和外语(英语)在拒绝邀请、请求、提议和建议时所采用的语用策略以及差异。武汉某知名高校英语专业大二两个平行班的学生参与了
小学生处于生长发育的黄金时期,他们的思维活跃,性格活泼。在信息科技课上采用情趣教学法,可以激发他们的学习兴趣,培养他们的信息素养。本文将以《四格漫画创作》项目活动为
以位于邯郸永年区的河北工程大学降雨-径流-灌排试验场为依托,进行数场人工模拟降雨试验;分别探讨了邯郸东部典型平原区河道径流、地表径流和各层壤中流出流的退水特征.对各