Web信息抽取在书签系统中的应用研究与实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:xinshuai99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化书签系统是Web信息资源收集、管理、分享的有效工具,但是它的社会化功能取决于用户量与资源量。本文主要的研究内容是如何将Web信息抽取等自然语言相关研究应用于书签系统中,解决书签系统的冷启动问题,提高用户体验。本文首先研究并实现了Web信息抽取算法。本文的Web信息抽取算法以Goose项目为基础,改进了Web网页数据抓取,添加了对网页编码的自动识别,通过观察与总结大量网站的HTML结构特征,优化了对网页的预处理,并添加了对中文网页信息抽取的支持,最后对正文进行格式化处理,以优化阅读体验。最终实现了基于ElementTree的Web信息抽取模块。该模块能够用于生产系统中,具有较强的实用性。同时本文基于Web信息抽取的结果与Web网页的元数据,实现了基于资源的标签推荐算法,并简单实现了网页摘要功能。本文设计并实现了书签系统,基础架构采用Tornado作为Web服务器兼Web开发框架,MongoDB作为数据库服务器,客户端使用AngularJS框架、j Query框架,同时使用BootStrap3样式风格,实现了响应式布局与扁平化网格的客户端应用,并实现了Chrome浏览器插件。系统实现中整合了Web信息抽取模块,为用户提供书签内容阅读编辑等功能,有效的提高了用户体验。基于信息抽取的结果,本文书签系统的搜索功能能够采用了全文搜索实现,避免了传统书签系统中通常只针对标签或标题进行搜索的局限性,也避免了对整个Web页面进行全文搜索存在的噪音信息。本文实现的系统不同于当前热门的推荐阅读系统,更注重书签管理而非阅读,如果能将书签系统与笔记系统结合使用,可以有效实现信息的二次过滤。
其他文献
气体检测标准装置主要有质量法和标准表法。简述了检测装置的组成和工作原理,为了改善原有气体在线检测装置检测过程中的重复性和准确性,设计了一套基于气体在线检测标准表法的气体仪表检测装置,检测系统集成了具有高速脉冲计数器接口的PLC,可实时采集温度、压力、流量等检测参数信号,实现在线检测和检测报表生成的全自动控制。对系统的不确定度进行了初步分析,并估算出系统不确定度,同时给出了保证检测结果准确性和可靠性
近日,科学服务领域的世界领导者赛默飞世尔科技(以下简称:赛默飞)凭借IonTorrent半导体测序平台在高通量测序上的领先技术和卓越性能,先后帮助中国疾控中心和解放军军事科技院从血
科学技术和现代工业的发展使得大量废弃电器电子产品随之产生,带来了环境污染和资源浪费问题。世界各国对此制定了很多强制性法律。为了追求废弃电器电子产品蕴藏着的经济价
为设计和研究某型飞机飞行控制系统,首先确定了该飞机纵向运动的非线性数学模型,然后基于小扰动法将该非线性模型线性化,再基于MATLAB S函数实现线性化后的数学模型,最后基于
美国农业部(USDA)预测在2012年主要原料奶生产大国的奶产量都会出现温和增长,乳制品进口需求会保持相对稳定,发展中国家、尤其是具有关键意义的亚洲市场,经济将会保持增长。不断增
冠词的用法是初中英语中的一个语法项目,也是中考试题的一个考点。本文以近三年全国部分省市中考冠词试题为例,归纳中考冠词的考查热点,希望能帮助同学们掌握冠词的用法,提
露天矿山开采后,形成多台阶高陡岩质边坡,结构面揭露,大量发育的结构面对岩质边坡的稳定性起控制作用。通过立体投影与矢量代数理论建立的运动学分析方法,广泛应用于受结构面
广东省是生鲜农产品生产和消费大省。随着人民生活水平的不断提高,广东城乡居民从开始主要关注生鲜农产品的价格变得越来越关注生鲜农产品的品质安全问题,对生鲜农产品的新鲜
压缩机由于加工精度、轴承的磨损、入口气带液等因素产生强烈的振动,针对该问题,介绍了一种离心式压缩机喘振检测方法:采用单取压管线引出式差压测量系统测量喘振气体的脉动
设计了一种基于工作流技术的油田问题井管理系统,给出了系统的整体设计与相关功能模块.利用工作流引擎技术上报问题井核实单,按照业务流程建立工作流驱动模型,实现业务流转;