论文部分内容阅读
以中医方剂药物组成信息提取为背景,描述了突破中医药信息化过程中非结构化数据制约的一种方法,介绍了文本信息提取的主要技术步骤。所提出的信息提取框架涵盖了个性化中药词库建立、页面方剂信息定位、方剂组成文本分割、以及药物组成信息提取等。方剂信息的提取以基于正则表达式为主,同时考虑了中医药书籍的特殊性。组成文本分词采用了NPOS最短路径分词算法,提取药物时针对中医方剂中名词、量词、动词的特殊情况做了相应处理。实验表明,该方法能得到较高的提取正确率。