论文部分内容阅读
五千年中华民族的文化底蕴是中医药发生、发展的基础。中医药领域的无数临床实践与理论研究积累了大量的科学知识,这些知识包含在中医药古籍文献以及当前的研究文献中。面对如此海量的中医药数据,如何有效地利用这些宝贵资源就成了发展中医药必须面对的一个问题。中医药学有其自身的思维模式,具有系统性、整体性、复杂性、不确定性等特点,不适宜运用传统的还原论的方法研究。数据挖掘可以从海量的数据中寻找潜在的规律,完成普通人不能完成的任务。目前,数据挖掘相关技术和方法已经较为成熟,且存在着一套行之有效的方法。因此,应用数据挖掘技术进行有效模式、知识的获取研究,必将加速推进中医药国际化、现代化、规范化和知识化进程,对中医药学的长期稳定发展具有重要意义。数据挖掘(DM)是近20年来随着人工智能和数据库技术发展起来的,是一门涉及人工智能与数据库、统计学、机器学习等不同学科和领域的交叉学科。本文中数据挖掘采用广义观点,即等同于KDD,为从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。面对中医药数据描述多样化且不完备等现象,在标准化处理的同时,还必须对现有的数据挖掘技术进行改进和发展。本文以KDD方法为基础,创建了一种人机互动的数据挖掘模型。人工作业仅为编排及指定,最小化人为建档的工作量,并留下原始文本数据的换行断词噪声,作为操作标的,分析其产生结果。本程序可直接由文本数据作为处理标的。值得注意的是,基本辨认语料库必须正确,方有正确的结论。而数据资料的标准化则是可做可不做,重点在于我们对结论精度范围的要求。将此模型应用于选定的中医药文献资料进行挖掘研究,结果表明:(1)可以按照中医学理、法、方、药顺序做出标示及索引,能够揭示六名医家常用的相同或相似药物。(2)通过对《傅青主女科》方药规律的数据挖掘,发现当归、人参、川芎、酒、白芍、茯苓等药物及其配伍药对、药团最为常用,生化汤使用频率最高,提示补血调血及补气健脾的重要性。其中,对酒的普遍运用非常例外,这在之前的文献研究中很少述及。(3)通过对487首治噎膈病方剂的较为深入地研究,发现理气药所占频次最高,陈皮、木香、甘草、肉桂、人参等药物及其配伍药对或药团最为常用,而对于温里药及诃子的重视与现代临床用药有较大差异。还有,在剂型方面多选用散剂和丸剂,寓缓消渐散之意;在服法方面多选用不拘时候、内服、噙服,意在延长了药物与病灶局部的接触时间以提高药效。