论文部分内容阅读
随着教育信息化的迅速发展,网络成为获取教学资源越来越重要的途径,电子格式学习资源的数量也越来越庞大。然而,庞大的资料数目为学习者提供宽广选择范围的同时也降低了筛选效率。从海量信息中快速选择出所需资源变得越来越重要。自动文摘技术能够对文档内容进行压缩和筛选,提炼出原始文档的核心内容,帮助用户快速了解文章主要内容,进而对文章进行筛选。本文在现有自动文摘技术基本概念和方法的基础上,通过对国内外研究成果的分析梳理,对汉语特征词提取算法以及文章主题句抽取多种方法进行了分析研究。在关键词抽取和文摘句提取的算法选择方面,本文主要采用了基于词频的计算方法对文章进行关键词提取,并使用综合词权、位置、句型等多种特征的方法计算文章中每个句子的权重。最后,本文以思源网络教学平台为依托实现了一个实验性质的自动文摘系统,该系统能够生成效果较好的自动文摘。系统首先对获取的教学资源文档进行文本格式转换,提取出其中的纯文本内容以备后续分析使用。对于符合条件且需要生成自动文摘的文档资源,系统会对其篇章结构进行浅层分析。分词是自动文摘技术的重要前提,本文选用分词效果较好的中科院汉语分词系统,并使用人工语料库进行文章关键词和候选文摘句的提取。然后通过基于语义词典的语义相似度计算方法降低同义句造成的冗余,并根据预定义的简单关联词规则对所生成自动文摘进行连贯性处理,提高其可读性。系统最后能够实现关键词和自动文摘的双重呈现。