【摘 要】
:
摘要:随着信息技术的飞速发展,互联网上每天都会产生数量极其庞大的数据。如何从海量数据中更准确、更快捷的发现话题,并对其相关话题进行分析追踪是近年来的一个研究的热点。
论文部分内容阅读
摘要:随着信息技术的飞速发展,互联网上每天都会产生数量极其庞大的数据。如何从海量数据中更准确、更快捷的发现话题,并对其相关话题进行分析追踪是近年来的一个研究的热点。本文从文本信息到向量空间的转换开始入手,首先介绍了现有常用的文本向量空间建立方法,并在分析其不足的基础上,结合网络博客的特点,提出了一个利用更适用于博客话题发现的改进TFIDF算法来构建文本向量空间的方法,以求达到更准确的文本向量转换效果。其次,在特征选择的基础上,本文试图通过特征重构的方法,来进一步实现文本话题向量空间的降维。通过对基于特征矩阵分解的潜在语义索引方法的详细介绍与实验验证,分析了其在话题发现应用上的有效性以及可行性。再次,本文通过对现有各种思想的聚类方法的比较分析,分别总结了其优势所在及缺点不足,并在此基础上,进一步提出了一个新的HD-K-means聚类算法,主要解决现有算法中对初始值选择的敏感性问题、对输入参数选择的依赖问题、聚类结果容易陷入局部最优问题等一系列问题。通过对聚类结果的分析,针对每一话题提取一对标签,简单的通过细粒度话题分析的方法实现了话题的发现。接下来,本文通过对各种分类算法的分析比较,结合博客信息以及话题追踪的特点选取朴素贝叶斯分类器来实现话题追踪的分类过程,重点对其分类特征属性的选择和类条件概率的计算的方法进行了改进,并简单的实现了话题的追踪报道。最后,基于以上工作,本文对基于博客的网络话题发现及追踪进行了仿真实现,并在分析结果的同时,总结了本文研究的不足之处以及今后的研究重点和研究方向。
其他文献
随着数控机床的日益推广与普及,数控系统使用中的一些问题应运而生,本文对FANUC数控系统的PMC地址信号进行了阐述,帮助FANUC数控机床使用者提高系统的应用能力。
从医院、社区、个人、移动电子产品4个方面对痛风健康教育模式进行综述,提出现阶段痛风健康教育存在的问题,并提出相应的建议与对策,以期为探索更适合我国痛风病人的健康教育
前庄村位于榆社县河峪乡西部,地势平坦,现有农户80余户,人口300人,劳动力65人,耕地1300余亩,林地800亩,全村人均耕地4.3亩,种植业以玉米、谷子、蔬菜为主,林果业以酥梨、杏、核桃为主
沉船残骸的打捞清除是海事管理中一个难点问题。目前由于费用不到位、技术不成熟等原因,沉船残骸不能得到及时打捞,我国水域内存在一定数量的沉船。对具有危险性的沉船残骸,
唐英是雍乾时期的著名督陶官,不仅在督陶制瓷方面取得了杰出成就,而且在文献编撰方面也留下了丰硕成果。《陶冶图说》的编撰,就是其最突出的文献编撰成果之一。通过对其内容
韩国文化产业为韩国带来了滚滚财源,并使其跻身文化产业大国行列。政府主导、政策支持、把文化产业的发展与弘扬本国传统文化相结合以及为文化产业发展创造宽松的环境是韩国
近年来人口老龄化趋势加剧,老旧小区中高龄人口比重不断加大,逐渐演变成老年住区.社区养老是为了把家庭养老和机构养老的最佳结合点集中在社区,让老人住在自己家里,在继续得
交通系统是一个典型的复杂巨系统,依靠传统的交通管理方式,单从道路和车辆的角度考虑,很难解决近年来不断恶化的交通拥堵、事故频发、环境污染等问题。基于车车、车路信息交
主要针对侧装煤车的链传动机构,利用实体建模和动力学仿真分析相结合的方法,分析影响输送链运行平稳性的原因,总结出装煤链传动优化设计的方向。
资管新政对商业银行适当性义务提出了新要求。基于近三年商业银行适当性义务案件的实证研究发现,适当性义务问题并非新政所能全部涵盖,其在适当性行为内涵,法律责任两方面都