【摘 要】
:
当前,我们处在一个瞬息万变的互联网时代。近几年来,以SNS、微博、微信等为代表的新型网络社交工具迅速崛起,各自拥有了数量巨大的用户群体。微博凭借着实时性强,内容简练(14
论文部分内容阅读
当前,我们处在一个瞬息万变的互联网时代。近几年来,以SNS、微博、微信等为代表的新型网络社交工具迅速崛起,各自拥有了数量巨大的用户群体。微博凭借着实时性强,内容简练(140字以内)和发布方式多样等优点,已经成为网上信息发布和传播的主要平台之一。微博在短时期内就能够聚集大量的文本数据,如何在这些杂乱、无序的微博文本数据中快速地提取出精炼的、有价值的话题,是一项艰巨的任务,需要对现有的话题检测技术进行发展和提高。本文提出了一种基于LDA-SP(Latent Dirichlet Allocation-Single Pass)的微博话题检测算法。首先分析了话题检测的基本流程,阐述了各个环节使用技术的基本原理和实现细节。针对在传统话题检测中,以向量空间模型作为文本模型表示存在着维度过高、语义表现缺失等缺点,本文改进了传统方法,采用潜在狄利克雷分配模型对微博文本建模,采用Single-Pass算法作为微博话题检测中聚类的实现方法,将两者结合使用。对照实验的结果表明,本文提出的算法在解决了预设话题数的缺点的同时,还保证了话题检测的精度。本文提出了一种微博事件的同一性计算方法。该方法用来区分微博数据集中具有相似内容的不同事件。由于这种“难分”问题的存在,主题模型无法对相似内容的不同事件进行分辨。本文首先考虑两条语义上相似的微博,然后计算它们在时间、地点等事件特征上的同一性评分,从而推断出它们是否表述同一个事件。将此方法与Single-Pass算法相结合,最后引入微博数据集进行实验。实验表明,相比之前的算法,改进相似度后的算法在“难分”问题上具有更好的事件检测效果。
其他文献
随着计算机和图像处理技术的发展,数字图像拼接技术在现实生活中发挥着越来越大的作用,其应用前景也越来越广泛。本文详细阐述了图像拼接技术的关键技术要点,并从特征点匹配和光
连接查询操作是联机分析处理系统(OLAP)的重要操作之一,也是企业决策人员从海量数据中提取信息的重要手段。而多表连接运算一直是连接查询操作的主要瓶颈。随着大数据时代的
随着卫星技术和计算机技术的飞速发展,数字遥感卫星影像已经在各行各业中发挥着越来越大的作用。但是遥感卫星影像在实际应用前必须经过预处理,而目前的处理方法还存在着很多
作为一种特殊的分布式计算框架,网格的动态、异构、多域等特性决定了网格安全的重要性。网格安全主要是解决实体之间的认证和授权问题。Globus项目中的安全基础设施GSI(Grid
Internet中存在着大量的化学信息资源,在这些海量信息面前,用户要查找自己需要的信息,必须要借助于搜索引擎。目前,很多化学结构信息采用了系统命名法、线性码等方法进行描述
伴随着计算机网络技术和多媒体技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,并成为人们生活的重要组成部分。随之而来的副作用是有恶意的个人或团体有可能在没
随着多媒体技术和网络技术的日趋成熟,在互联网发展内在需求的驱动下,作为两者交叉领域的流媒体技术的应用和研究也取得了长足的进步。多媒体数据量大,对网络带宽要求很高。
近年来,基于P2P网络的资源共享技术发展迅速,P2P数据库是该领域的一个重要研究方向。P2P数据库内容认证,即判断数据库内容是否被篡改,是成功构建P2P数据库系统的关键之一。通
语义推理技术是自然语言处理中的一项基础而重要的技术,能够帮助我们更好地理解文章的内容及上下文的语义推理关系。语义推理一般分为论据和论点两部分,论据是从文章内容中提
近年来,随着信息技术的飞速发展,移动通讯与互联网的融合日趋明显,作为电子商务领域的新生力量——移动商务,开始成为传统电子商务的有益补充,显示出巨大的发展潜力和成长空间。移