论文部分内容阅读
21世纪是生命科学的世纪,生命科学的发展迅猛无比,在整个自然科学中占据着极其重要的地位。国内外生物科学工作者已取得诸多令人瞩目的科研成果,随着internet的发展,充分利用和高效检索海量的科技成果导致对文献信息检索的准确性和全面性要求更为严格。要在浩如烟海的生物学文献中查找所需要的文献,需要建立数据分类更加明确简单,检索更加方便快捷的文献数据库。对文献进行准确标引能提高检索的查全率和查准率。手工标引存在工作量大、效率低下、难以规范化等缺点,开展对标引工作的自动化——自动标引研究已是一项非常重要而紧迫的任务。 当前,由于在生物学文献的手工标引过程中存在着工作量大、效率低下、难以规范化等缺点,数字化的生物学文献在网络上无歧义地快速交换受到了严重的制约,并成为实现生物学文献交互的瓶颈。本文研究将改进的MM算法应用在生物学文献领域的自动分词中,通过在生物学文献的自动分词过程中同时引入正向匹配算法和逆向匹配法,从而实现对生物学文献的自动分词,并以此为基础实现基于词典的生物学文献的自动标引系统。本文的主要工作包括: 基于现存的生物学文献主题词表资源,提出了生物学文献词表的构建过程和构建方法。依据生物学文献,本文构建了生物学停用词表、生物学特例词表、生物学关键词表、以及生物学文献统计词表,形成了生物学学文献抽词词典。该词典构建方法使手工标引的过程简化,减少了领域专家的参与度,为生物学文献的自动标引的实现打下了基础。 本文通过分析主题词表的特点,提出了基于改进的MM自动分词算法的生物学文献的自动标引模式,并利用本文建立的生物学抽词词典实现了基于词典的自动标引系统。该自动标引模式充分利用了改进的MM自动分词算法的优点,提高了生物学文献的自动标引正确率。 基于生物学文献数据挖掘,利用词频反映生物学研究规律,识别新词,完