基于两阶段特征选择的医疗敏感文本分类

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:xliang677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为完成对医疗数据的敏感性分类,采用文本分类技术从对医疗敏感数据的分类的角度对医疗信息隐私保护进行了研究。在传统的医疗文本分类基础上,提出基于LSI-TF-IDF两阶段特征选择的文本分类方法对医疗文本数据进行敏感性分类。分别采用基于TF-IDF的传统文本分类方法和基于LSI-TF-IDF的两阶段特征选择的文本分类方法对糖尿病文本数据进行敏感性分类,利用朴素贝叶斯、KNN、SVM三个分类器进行实验比较,采用准确率、召回率和F 1值作为评价标准。实验结果表明,基于LSI-TF-IDF两阶段特征选择的文本分类方法
其他文献
从心理语言学角度看,语感是语言的社会变体——言语直接作用于让人的各种语言感觉器官,使人脑产生对言语现象的个别属性的反映。语感在个体的发展过程中,跟人的语言实践活动密切