【摘 要】
:
随着个人计算机和网络的广泛应用,以及光学字符识别(optical character recognition,OCR)技术的发展,把纸质文档转化为数字形式变得非常方便,这也促进了互联网上数字图书数量
论文部分内容阅读
随着个人计算机和网络的广泛应用,以及光学字符识别(optical character recognition,OCR)技术的发展,把纸质文档转化为数字形式变得非常方便,这也促进了互联网上数字图书数量的急剧增长。数字图书的增加让用户获取和学习知识的过程变得十分方便,但与此同时也引来了信息过载的问题。当用户想要了解一个主题的相关知识时,可以查询得到与其相关的成百上千本图书。但是,由于图书编者的个人风格和侧重点不同,这些图书往往会呈现出各种各样的组织形式。如何将这成百上千本存在差异的图书融合起来,并从中挖掘出一个清晰的学习脉络是一个十分有意义的任务。基于此,我们设计了基于大规模图书的知识脉络服务系统,对主题相关的成百上千本图书进行知识挖掘,总结出几条具有丰富知识点、流畅度好、覆盖度高的学习路径,由这些学习路径构成知识脉络图,并仿照地铁图的形式进行可视化展示,从而帮助用户高效地进行知识学习。论文的主要工作如下:(1)实现了一个通用的数字图书结构化分析处理系统。使用OCR工具识别图书文本内容,然后综合运用文档的布局特征、视觉特征和功能性特征对图书的目录和段落进行识别提取,最终得到结构化的数字图书。(2)提出了一种基于加权词嵌入的无监督方法来解决短文本匹配问题,然后结合聚类算法将相似图书的所有章节聚类得到知识单元集合。(3)提出了一个综合考虑信息度、流畅度和覆盖度的学习路径选择算法。根据图书章节之间的前后序关系将知识单元集合构建成知识图,然后用路径选择算法从中选择出TOPK条信息度高、流畅度好、覆盖度高的学习路径构成知识脉络。(4)仿照地铁图的形式将知识脉络可视化,基于此实现了知识脉络服务系统。
其他文献
在互联社会背景下,先进的制造模式需要从信息、社交和服务等方面实现企业内部、跨企业间的协作。在云计算、物联网、大数据分析、信息物理融合系统等新兴技术的基础上,社群化
微波加热适用于绿茶加工;研究出一台可用于名优绿茶加工的茶叶微波加工设备;设备的微波输出功率为6kW(2450MHz);输送带宽度为42cm;速度无级变速。绿茶加工中;微波杀青时间需2
<正>党的十八大以来,习近平总书记的一系列重要讲话、文章、访谈等,形成了独具个性的风格,人们爱听、爱读、爱看。习近平总书记的语言之所以引人入胜,一个重要原因就在于他善
背景城市化进程在哮喘和过敏性疾病的发展中起着重要的作用。有研究表明,与生活在城市环境中的儿童相比,生活在农场或经常与农场接触的儿童患哮喘和过敏性疾病的几率更低。人们大部分时间都是在室内度过的,室内微生物群是我们日常生活环境的重要组成部分,它与人类的健康关系密切,因此其组成对直接影响人类健康非常重要。室内灰尘是一种含有大量微生物的无机和有机物质的复杂混合物。长期以来,儿童和成人在环境中暴露于微生物及
机器人路径规划问题是机器人学中一个重要的研究领域,机器人路径规划算法是当前机器人路径规划问题研究中的热点和难点之一。本文分析了机器人路径规划问题的国内外研究现状,总
从网络边缘获取内容是内容分发网络(Content Deliver Network,CDN)加快用户对大文件、高清视频等高带宽内容获取以及降低中心服务器访问压力的重要思路。但CDN昂贵的部署和管理成本使其规模化扩展变得非常困难,CDN-P2P通过引入点对点技术(Peer to Peer,P2P)实现CDN分布式部署,主要在大规模分布式的用户节点上缓存内容,从而代替大型服务器的缓存工作。然而缓存技术存
“十三五”期间我国核电站所需外运乏燃料约为“十二五”期间的五倍多,运输量急剧增加。从长远看,我国目前的乏燃料公路运输模式不可持续,急需开展适合大批量长距离的铁路运
结合土壤图、Landsat8影像、DEM等,以松嫩平原典型土壤类型(黑土、黑钙土、草甸土、风砂土)的149个耕层(0~20 cm)土样的高光谱数据为研究对象,通过重采样、包络线消除法对数据进行
在实际生产过程中会出现各种各样的不合格项目,为解决这些不合格问题,就需要使用一些工具和方法来彻底分析产生不合格品的原因,从根本上解决,使其不再重复发生。为了制造出高质量
色织物缺陷检测是纺织品制造中质量控制的核心。然而,传统的人工检测方法存在误检率高、检测速度慢及劳动强度大等缺点,且检测结果易受到主观因素和外界环境的影响。由于色织物缺陷种类繁多,现有的检测算法难以满足准确性和普适性的要求。本课题将色织物缺陷检测算法作为主要研究内容,以算法的准确性和普适性为目标。具体工作如下:(1)针对图案织物缺陷检测问题,采用LBP和HOG特征相结合的检测算法。首先,对图案织物进