【摘 要】
:
Blog网络是一个由复杂超文本所组成的巨大信息源,而且以很快的速度在不断的扩大。针对这样一个不断变化的信息源,如何利用和发现Blog网络中的有用信息变得越来越具有挑战性。
论文部分内容阅读
Blog网络是一个由复杂超文本所组成的巨大信息源,而且以很快的速度在不断的扩大。针对这样一个不断变化的信息源,如何利用和发现Blog网络中的有用信息变得越来越具有挑战性。在Blog发展的过程中产生和演化了大量的社区,这些社区是web中非常重要的组织结构,也包含了大量有用信息。Blog社区可以为用户提供有价值的、可靠的、及时的信息,并且代表着Blog网络中的社会活动。对Blog社区的深入研究有助于了解Blog的知识信息及其组织结构的发展状况。本文对目前较为流行的一些Blog社区发现技术进行了分类和回顾,在此基础上提出了结合文本内容分析和社会网络分析的Blog社区发现方法。并且通过对比实验来和仅使用结构分析进行社区发现的方法进行比较,验证本文方法的可行性和有效性。本文着眼于提高社区挖掘的效率以及社区的质量,同时尝试进一步地挖掘社区中的信息。本文在使用社会网络分析理论,对链接结构特征进行分析的基础上,加入了Blog文章和评论内容分析的环节,使得找到的社区的凝聚性更强,稳定度更高。另外,将概率分布和统计的思想引入到社区的主题发现方法中,给出了利用主题词频率、文章时空分布以及评论反馈等统计结果和行为特征挖掘社区主题的方法。该方法既考虑了关键字的频率等文本内容,又充分利用了评论的内容与文章内容的联系以及人们发表文章的行为特征来挖掘社区中的有用信息。实验证明,本文给出的内容与结构分析相结合的社区发现方法在一定程度上提高了社区发现过程的执行效率和性能,并且所得到的Blog社区的质量较高。另外,本文给出的社区主题信息发掘方法,为进一步对Blog社区进行深入的研究和数据挖掘提供了基础和保证。
其他文献
1968年初捷克斯洛伐克兴起的“布拉格之春”是一场社会主义体制改革运动,其经验教训对于我们今天的改革开放大业,对于建设有中国特色的社会主义市场经济有着重要的鉴戒意义。
目的探讨伊立替康和紫杉醇联合顺铂二线治疗小细胞肺癌的疗效及用药安全性。方法选择我院2012年4月~2013年1月收治入院的经确诊的小细胞肺癌共76例患者,均为一线EP方案治疗失
目的探讨前列腺偶发癌的临床病理特征。方法对16例前列腺偶发癌临床病理特征进行回顾性研究,并进行文献复习。结果前列腺偶发癌患者平均发病年龄为71.6岁,其组织形态多以单个
社区文化是社区建设的核心和基础。在当前和谐社会的构建中,社区文化建设地位十分重要,在当前文明城市的创建中扮演着重要的角色。在我国当前的社区建设策略中,社区文化日益
TD-SCDMA移动通信网络即将投入商用,直放站作为其重要组成部分,各个厂商正在加紧研究。在TD-SCDMA移动通信网络建设的初期,尤其需要大量的直放站优化网络的覆盖范围,因此TD-S
已有的汽液固三相流研究采用的是以还原论为基础的稳态线性分析方法,这往往难以揭示系统内存在的非线性特征,从而影响对三相流机理的认识和该技术的推广应用。本文运用确定性混
针对东北老工业基地经济发展落后的现状,分析了经济发展滞后的主要原因和全面振兴东北老工业基地的可行性,并提出了深化国企改革、调整产业结构和经济结构、加强区域经济一体化
本论文在研究硬脂酸固体脂质纳米粒给药系统基础上,以多糖的细胞核趋向性理论为核心,设计以硬脂酸化学嫁接低分子量壳聚糖(壳寡糖),制备具有糖脂类化学结构的新型纳米载体材料
会计作为一个信息系统,旨在生成信息并报送信息,投资者对投资领域的兴趣会促使他们越来越关注公司披露的信息。当今,上市公司的财务报告成为其对外进行信息披露的重要内容,资
随着Internet的发展,越来越多的人参与到网上电子商务中来,网上电子交易逐渐成为人们的一种生活方式。但是由于Internet的自身安全缺陷,电子交易过程存在各种安全隐患。研究