【摘 要】
:
如何评估一个词对于文件集合中的一个文件的重要程度是大数据处理系统面向文本挖掘领域中的一个比较关键的问题。词频-逆向文件频率(TF-IDF:Term Frequency-Inverse Document
【出 处】
:
中国科学院大学(中国科学院工程管理与信息技术学院)
论文部分内容阅读
如何评估一个词对于文件集合中的一个文件的重要程度是大数据处理系统面向文本挖掘领域中的一个比较关键的问题。词频-逆向文件频率(TF-IDF:Term Frequency-Inverse Document Frequency)是一种用于文本检索与文本挖掘的常用加权技术,其广泛应用于搜索引擎系统。目前基于大数据处理系统实现TF-IDF算法实时计算开源界还没有成熟的解决方案,更多是被商业公司掌握,技术不对外公开。论文首先介绍了大数据系统的相关技术及其国内外发展现状,详细分析了大数据分析处理流程和TF-IDF算法。接着,搭建了流式处理计算平台JStorm,设计实现了基于JStorm计算平台的TF-IDF低延迟算法;搭建了批处理框架Spark,设计实现了基于Spark计算平台的TF-IDF批处理算法;论文最后进一步提出了批处理视图和实时计算视图集成算法,构建了批处理与实时计算融合架构,改善了计算精准度和实时性,并通过实验测评验证了系统的功能完备性和计算速度的优势。论文的研究成果已经得到实际应用。论文的研究成果初步解决了在大数据实时处理系统上实现TF-IDF算法应用的问题,基本实现了低延迟和准确率都达到预期的程度,满足搜索引擎、文本相似度计算、情感分析、文本摘要、热词计算等应用场景在海量数据生产环境中应用TF-IDF算法。
其他文献
<正>"双十一"凌晨,美颜控李潇潇在温暖的被窝里,消费了2000多元的面膜。她选择的是品牌店,价格的确比平时优惠。当她发现面膜比去年"双十一"贵了1元时,有些哭笑不得。与传统
<正>宁明:打响推进"双高"蔗糖产业扶贫攻坚战近期,广西宁明县立足实际,将"双高"糖料蔗基地建设作为最大的扶贫产业项目。为确保"双高"糖料蔗基地建设的顺利实施,宁明县国土资
肺癌的发病率和死亡率逐年增加,其预后较差,长期生存率低,是我国目前的第一大癌症。针对肺癌的治疗方法包括手术、放化疗及生物治疗几个方面,单一的治疗方法早已转型为综合治
一、抓住课文中有关想像的提示性句子设计相应的训练这类句子往往直接留下想像空间。人教版七年级下册《邓稼先》这篇课文中的句子“也不知道邓稼先在蓬断草枯的沙漠中埋葬同
随着卵巢癌在世界范围内发病率的不断提高,其死亡率已经跃居为妇科恶性肿瘤首位,成为严重威胁妇女健康和生命的疾病之一。近年来科学技术迅速发展,推动了基础和临床医学领域
通过构建有关VLCC船舶关键营运数据的分析谱系,采用向量自回归模型(VAR)分析目标混合动力船型的船价、运费、燃油价格等关键经济变量相互间的动态影响路径和机制。研究结果发
在当今的中国山水画坛上,有人只注重临摹和研究古人的绘画样式;有人仅注重个人图式创造。其实这是两个极端,在这两个极端中又出现了两种倾向:一种倾向是在想起了老祖宗的时候,忘记了自我;另外一种是在创造的过程中迷恋西方,也忘记了自我。从两个不同的极端出发来进行艺术创作,都有一定的学术价值,如果说作为一个艺术段落,也是值得研究的,并不应该轻意地加以否定。但是我认为一位出色的画家在创作的时候更应该表现自己的感
史诗《失乐园》是17世纪清教诗人、革命家弥尔顿的代表作,写的是人类始祖亚当夏娃偷食禁果而被上帝逐出乐园的故事。本文试图从生态批评的角度,对作品进行生态主义解读,揭示
利用数据库存储过程产生软件开发测试表中的模拟数据是一个非常有效的方法,而标准SQL是非过程化的语言,和程序设计语言相比,高度非过程化的优点也造成其一个弱点:缺少流程控
以汽车动力性、经济性仿真分析为研究对象,提出一种基于Matlab程序计算整车动力性、经济性和分析变速器传动比与发动机是否匹配的方法,研究并应用Matlab语言的矩阵运算方法,