Web挖掘中的主题模型扩展

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户：mabimabide

【摘要】

：

微博如今已经成为非常流行的信息交流平台,对于微博的短文本数据,传统使用词作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间

【作者】

：

亓晓青

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2013年01期

【关键词】

：

主题模型潜在狄利克雷分配数据挖掘降维

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博如今已经成为非常流行的信息交流平台,对于微博的短文本数据,传统使用词作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。针对微博短文本高维稀疏的特点,主题模型被广泛研究用于微博文本聚类。潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)模型是主题模型的经典代表,作者主题模型(Author Topic Model,简称ATM)作为用作者信息对热门主题模型LDA的有效拓展也用于微博文本挖掘。然而ATM模型具有两个缺点：首先文档的单词生成概率只能按照一个作者的主题多项分布,其次针对微博这种文本形式,没有考虑到其中所包含的结构信息。针对以上缺点,本论文的研究内容包括以下三个方面：1)对多种主题模型进行了深入研究和分析,并就其中的LDA、 ATM两种模型,利用自然语言处理与信息检索(Natural Language Processing and Information Retrieval,简称NLPIR)数据集实现了文本降维。2)结合微博的特点,提出用户与关联扩展LDA模型(User and Link Latent Dirichlet Allocation,简称ULLDA),在每篇文档的生成过程中,当由作者列表中选择了作者之后,之后生成文档每一个词的时候,作者所对应的主题分布不再只是由作者一人决定,而是根据微博的特点,使微博中的相关人员对应的主题分布也能影响该分布,从而克服了上述两个缺点。3)应用NLPIR数据集,对提出的改进算法进行了验证,并与传统的LDA, ATM模型得到的结果进行了比较,证明了改进模型的有效性。

其他文献

快速多维标度及有偏定位方法研究

随着物联网概念的兴起,无线定位技术将在人们的日常生活和国防军事领域扮演日益重要的角色。需求的多样化和定位场景的复杂性给传统定位技术带来挑战的同时也推动着定位技术

学位

无线定位技术最小二乘算法多维标度有偏估计

单叶细辛对实验性肺水肿大鼠肺功能的影响

目的：细辛为中医临床常用药物，其性辛温有小毒，归肺、肾、心经，功能祛风散寒，通窍止痛，温肺化饮；用于寒饮伏肺，气逆喘急证及风寒感冒、头痛、鼻渊、牙痛、痹痛等证的治疗。细辛品种很

学位

单叶细辛辽细辛肺水肿肺通气肺泡表面活性物质药效学

无线双向中继系统中的功率控制及节点选择研究

无线中继是下一代网络中提供可靠传输、高吞吐量和广域覆盖的关键技术,特别是在直传链路状况较差的情况下更能发挥作用。由于传统无线单向中继(One-way relay)系统存在固有频

学位

双向中继认知无线电功率分配中继节点选择

重组鼠抗人纤维蛋白单链抗体的构建和表达

深部静脉血栓症在世界范围内是一种致死率和致残率都相当高的疾病，其及时诊断和治疗显得尤为重要。临床上，医生常依据症状和体征得出初步判断，然后选用一些辅助检查如D一二聚体

学位

血栓症单克隆抗体单链抗体纤维蛋白基因工程血栓显像剂

淇河鲫CYP19基因的克隆、表达模式分析及免疫组化定位

与高等脊推动物相比，鱼类的性腺在胚胎发育早期更明显地表现为双向分化潜能，各种外部环境因素都可能在不同程度上影响鱼类的性别分化。目前内源性类固醇激素在鱼类性腺分化中的

学位

性别决定性别分化淇河鲫雌核发育两性型群体CYP19基因半定量RT-PCR免疫组织化学胚胎发育

天目铁木种子萌发生理的初步研究

学位

LRRK2蛋白的脑组织分布和细胞定位以及LRRK2结构域的原核表达

帕金森病是一种老年神经退行性疾病，以运动徐缓、肌肉强直、静止震颤以及运动失衡等运动系统功能障碍为主要临床症状。大部分帕金森病是散发性的，但是约5％-15％的病人表现出明显的

学位

帕金森病LRRK2脑组织分布细胞定位原核表达

全氟辛烷磺酸(PFOS)慢性暴露诱导斑马鱼肝脏脂质堆积的分子机制研究

全氟辛烷磺酸(PFOS)是一种持久性有机污染物，因其化学结构的稳定性及其在生产生活中的广泛应用，虽已下令停止生产，但仍会在未来的长期内继续存在于环境中。现有的研究表明，PFOS是

学位

全氟辛烷磺酸多器官毒性脂质代谢

论利用信息技术让学生自主探究语文的方法

摘要：课程改革最终的教育目标是培养学生要学会学习、终身学习。为了实现这最终目标，任务中心是必须关注学生的学习过程和方法，关注学生是通过什么途径获得知识。由于获得知识的过程和方法不同，所以带给学生真正意义上的收获也会不同，并且对学生终身发展的影响也就有会不同。随着现在科学技术的不断发展，学习条件的不断完善，学习者通过自身的不懈努力获得真才实学的途径大为拓宽，更加灵活、方便、自主的终身教育，将把成材的

期刊

信息技术中学语文自主探究措施

Web挖掘中的主题模型扩展

其他学术论文