基于TextRank与Log-Likelihood的Chrome浏览器中文词云插件的设计与开发

被引量 : 4次 | 上传用户:barbaraxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术迅速发展的今天,人们通过网络获取信息日益便捷。但同时也引起了信息冗杂、超量等问题。在这样的条件下,通过挖掘文本来获取关键信息成为改善互联网用户体验、提高工作与阅读效率的重要手段,关键词抽取即信息获取的重要实践之一。本文基于TextRank和Log-Likelihood (对数似然比)算法,设计并实现了一款谷歌Chrome浏览器中文关键词抽取插件。该插件可获取到用户当前浏览页面,并通过适当的业务逻辑,生成网页内容的关键词云。TextRank算法基于图论和图模型,对图中的点计算权重,并以权重值作为排序算法。本文针对文本应用场景,应用TextRank算法,抽取关键词并返回用户;而Log-Likelihood算法则根据频数与对照语料库,通过计算对数似然比来确定关键词并返回。词云是一种关键词显示方式,通过字体大小与相对位置关系以清晰、直接地向用户展示文章关键词。在得到两种算法的计算结果后,为所有关键词赋权,并将关键词与权重用于生成词云。网络架构上,本文采用了以Nginx为基础服务架构的服务器,采用事件驱动的编程模型,搭建了服务器端,并使用Node.js作为后端网络逻辑层。通过有效、轻量的通信机制,完成数据的传递。在文本处理与关键词提取算法的实现上,本文采用服务器端运行Python脚本的方式,完成了文本清洁、转码、分词、关键词提取等工作。插件采用异步方式,保证了服务器响应速度,同时减轻了负载。此外,插件的设计与开发过程中,本文还对数据安全性和程序稳定性、扩展性等进行了论证。经过设计与开发,本文基本达到了预期目标,完成了一个能为用户提供词云的浏览器插件。对插件进行的测试表明,插件可返回准确率较高的关键词列表。但是插件在功能的丰富程度、美观性、性能等方面依然有改进空间。作为语料库语言学研究的扩展和应用,本文的设计与开发的插件能够通过关键词的抽取,帮助用户快速了解网页内容和重点,方便他们的网络生活。此外,本文还希望插件成为语料库语言学研究与网络技术紧密结合的案例,并看到未来更多类似的研究出现。
其他文献
文章通过从煤耗和厂用电率两个方面分析我国发电能源利用效率情况发现,价格垄断、机组容量比重不合理、燃料管理缺陷和电煤品质不匹配等是导致发电能源低效的主要原因。文章
低压电力线通信作为传输数据的媒介,网络覆盖的非常广,而且成本低廉,连接方便,是一种逐渐活跃在人们视线中的一种新型通信方式。一般对其采取的调制技术是正交频分复用技术,它是一
铝合金是一类具有诸多优良力学性能的轻质材料。其工业使用量仅次于第一大金属材料钢铁,特别是在高端装备制造中,各种系列铝合金扮演着重要角色。如:6XXX系列铝合金是一类大量应
经济的高速增长丰富了国民物质文化生活,但是受限于污染密集型发展模式,经济扩张带有非可持续性,影响了社会总体福利。为避免环境危机带来的生态与经济损害,世界各国都规划了
随着经济的发展,中小企业在经济中的地位越来越重要,贡献也越来越大,但是其内部控制存在的问题也越来越多。主要问题是成长环境不完善,管理制度不健全,员工素质较低,监督机制
随着无线网络技术的日益成熟,无线传感器网络技术在工业生产、人类生活中的地位越来越不容忽视。由于其具有的低功耗、成本低、组网复杂度低、实现简单等优点,在很多领域都得
针对智能电网中低压电力线载波通信网络拓扑复杂,信道存在噪声干扰和多径衰减,需要对低压电力线信道和组网效率进行研究。针对现有的路由算法搜索时间过长,效率不高,提出了一种新
人类活动(开采、排放污染物和工农业活动)对可利用的水资源影响不断加强,在全球众多地区已经出现了水资源枯竭和水质恶化的地下水环境问题。地下水的开采量严重超过了天然补
从专属性试验、定量限、回收率、精密度4个方面,对头孢拉定残留溶媒的分析方法进行了确认,证明了其分析方法在实验室条件下的适用性。
电力通信网作为电力系统的专用通信网络,对保证电力系统安全、稳定、可靠运行起着至关重要的作用,是传统电网向智能电网转变的通信基础。随着智能电网的发展,电力网络规模日