论文部分内容阅读
在互联网技术迅速发展的今天,人们通过网络获取信息日益便捷。但同时也引起了信息冗杂、超量等问题。在这样的条件下,通过挖掘文本来获取关键信息成为改善互联网用户体验、提高工作与阅读效率的重要手段,关键词抽取即信息获取的重要实践之一。本文基于TextRank和Log-Likelihood (对数似然比)算法,设计并实现了一款谷歌Chrome浏览器中文关键词抽取插件。该插件可获取到用户当前浏览页面,并通过适当的业务逻辑,生成网页内容的关键词云。TextRank算法基于图论和图模型,对图中的点计算权重,并以权重值作为排序算法。本文针对文本应用场景,应用TextRank算法,抽取关键词并返回用户;而Log-Likelihood算法则根据频数与对照语料库,通过计算对数似然比来确定关键词并返回。词云是一种关键词显示方式,通过字体大小与相对位置关系以清晰、直接地向用户展示文章关键词。在得到两种算法的计算结果后,为所有关键词赋权,并将关键词与权重用于生成词云。网络架构上,本文采用了以Nginx为基础服务架构的服务器,采用事件驱动的编程模型,搭建了服务器端,并使用Node.js作为后端网络逻辑层。通过有效、轻量的通信机制,完成数据的传递。在文本处理与关键词提取算法的实现上,本文采用服务器端运行Python脚本的方式,完成了文本清洁、转码、分词、关键词提取等工作。插件采用异步方式,保证了服务器响应速度,同时减轻了负载。此外,插件的设计与开发过程中,本文还对数据安全性和程序稳定性、扩展性等进行了论证。经过设计与开发,本文基本达到了预期目标,完成了一个能为用户提供词云的浏览器插件。对插件进行的测试表明,插件可返回准确率较高的关键词列表。但是插件在功能的丰富程度、美观性、性能等方面依然有改进空间。作为语料库语言学研究的扩展和应用,本文的设计与开发的插件能够通过关键词的抽取,帮助用户快速了解网页内容和重点,方便他们的网络生活。此外,本文还希望插件成为语料库语言学研究与网络技术紧密结合的案例,并看到未来更多类似的研究出现。