【摘 要】
:
随着广大民众对教育的日益关注,教育已经成为了社会焦点话题之一。由于网络的迅速发展和大数据时代的到来,传统话题检测方法已经无法从海量新闻数据中快速获取教育热点话题。
论文部分内容阅读
随着广大民众对教育的日益关注,教育已经成为了社会焦点话题之一。由于网络的迅速发展和大数据时代的到来,传统话题检测方法已经无法从海量新闻数据中快速获取教育热点话题。分布式计算框架具有高速处理数据的特点,因此,基于分布式下热点话题发现的研究在教育领域有着很好的理论价值和现实意义。本文主要研究了网络教育热点话题发现的一系列理论与算法。基于开源工具Nutch进行二次开发,获得预处理后的文本数据。针对传统的向量空间模型没有考虑到语义影响的问题,使用能够发现潜在语义关系的主题模型LDA对文本数据进行建模。提出了一种使用单通道(Single-Pass)和变色龙(Chameleon)算法相结合的多层次聚类方法用于发现热点话题。针对当今网络中海量数据新闻的状况,使用Hadoop分布式框架实现热点话题发现方法,提高数据处理速度。通过对多层次聚类算法效率、不同节点数及不同数据量下算法的运行时间、热度值排序的准确性等方面进行理论证明和实验,验证了本文所提方法的有效性。
其他文献
<正>随着新课程改革和中考评价制度改革的全面推进,思想品德学科中考试卷在非选择题的结构及设题方式上越来越注重让学生走出教材的范畴,开拓视野,从多角度考查学生多方面的
近些年来,由于公务员的社会地位、福利待遇等因素的影响,大学生选择报考公务员的热度越发升温,每年的公务员考试越来越激烈。大学生热衷于公务员的现状并不代表社会的健康发
英语语法课如果不创新教学,上起来枯燥、听起来乏味。本文通过对初中牛津英语七年级下Unit3 Grammar名词所有格的教学的创新,打造了英语语法课的活跃课堂、高效课堂,实现了英
当前招投标市场投标报价分析方法通常有三种:常规测算法、经验分析法、成本分析法。其中常规测算法又可分为固定权重测算分析法、随机权重测算分析法和复合权重测算分析法;经
三网融合是指电信网、计算机网和有线电视网三大网络通过技术改造,能够提供包括语音、数据、图像等综合多媒体的通信业务,其中互联网是核心。三网融合将使网络从各自独立的专
开放创新的贵州,已经成为一片充满生机的热土,正昂首阔步走向世界。
通过对社会称呼语系统中的职衔称呼语、拟亲属称呼语、通用称呼语、姓名称呼语和人称代词称呼语进行对比分析,反映了汉越社会称呼语的异同及我们的社会思想、传统文化对越南
目的探讨外科手术感染情况,加强手术后的观察及抗菌药物的合理使用。方法对11 208例手术患者采用回顾性医院感染调查,全面阅读病历,以中华人民共和国卫生部2001年1月下发的《
<正>人才是发展之基,转型之要,跨越之本。对于正处于后发赶超的贵州来说,要确保"两个100年"战略目标的第一个100年不掉队,与全国同步全面建成小康社会,人才是发展之基,转型之
近几年,公文语言在文学作品中的运用开始多了起来。这种运用,对于进一步开拓文学的表现领域,丰富文学的表现手法,增强文学语言的形象性和感染力,起着一定的积极作用。这种特