【摘 要】
:
从人们开始接触可视化领域,便知道,在可视化研究中,一个重要的目的便是为了将数据通过各种可视的方法展现出来,以便让人们更好地去理解和分析数据。在文本数据的可视化研究中,词云作为一种高效并且必要的方法经常被人们使用。在许多实际生活的应用中,一种常用的手段是用词云去表示一篇文档的语义以达到降低人们理解的难度,快速掌握中心思想并减少花费的时间的目的。所以,很多研究人员投入了大量的时间和精力,去研究词云,包
论文部分内容阅读
从人们开始接触可视化领域,便知道,在可视化研究中,一个重要的目的便是为了将数据通过各种可视的方法展现出来,以便让人们更好地去理解和分析数据。在文本数据的可视化研究中,词云作为一种高效并且必要的方法经常被人们使用。在许多实际生活的应用中,一种常用的手段是用词云去表示一篇文档的语义以达到降低人们理解的难度,快速掌握中心思想并减少花费的时间的目的。所以,很多研究人员投入了大量的时间和精力,去研究词云,包括词云的布局算法,以及词云的属性比如形状,字体,颜色,单词间距等等。在文档生成词云的过程中,一个普遍的常识是词云中字号的大小与文档中词的词频是相关的,所以,一个重要的问题是怎样去设置词云中每个单词的字号大小,来满足最优的词云表达语义的效果。所以,本文设计了一系列的控制实验来验证这个问题。首先,在本文中,提出了一个新颖的描述词云中各个字号大小的方法,称为字号的相对大小,通过实验设计,从一个宏观的全局的角度探究字号的相对大小(文中称为scale)对人们理解词云语义产生的影响。本实验的另一个问题是,如何构建一个严谨的实验环境,将文档生成的词云这样一个包含多样的丰富的语义内涵的概念准确并且量化地表示出来。为了达到这个目的,本文运用了一种基于多次组合的LDA方法,通过交互式地主题选择,获得了一个客观的量化的语义数据集。本文通过两个预实验和两个正式实验来进行相关内容的研究。两个预实验确定了正式实验中实验研究的角度和方向。通过第一个正式实验,根据完成实验的正确率,完成时间以及完成的满意度,发现词云的scale不同确实会对人们理解语义产生影响,探究了二者之间的一般性规律。在第二个正式实验中,对实验结果细化并分类,进行了更加细致的研究,探究了由于词云之间的差异性,scale对词云表达语义不同的影响模式。最后,根据实验的结果,本文为读者提出了合理化建议,以达到更好的词云表达语义效果。
其他文献
移动互联网的普及和发展给人们生活的各个方面带来了很大的便利,但是与此同时,为了使用这些便利的功能,人们需要通过互联网传输大量包含个人信息的隐私数据。各种原因导致的数据泄露也得到越来越多的关注。本文对于现有的数据泄露检测技术进行了调查研究,通过对比分析国内外的相关工作可以发现,目前的数据泄露检测方法存在一定的不足。一方面,大部分方法无法保证检测中数据的安全,另一方面,部分使用云端计算能力的方法,检测
利用复杂网络分析方法,对复杂系统中的关系结构及属性进行分析,识别网络中社团结构具有重要研究意义。课题组构建了基于复杂网络算法进行人、物、组织及相互关系的感知、理解、预测的情报分析框架IAF,从基于社会/物理/网络空间中人类电子足迹的大规模社交关联网络(复杂网络)中进行社团检测,是智能情报分析框架中理解模块中的关键功能。本文提出融合网络结构和节点属性的社团检测方法,并进行了实证。首先,提出了结合属性
细粒度图像识别,是一个著名的计算机视觉任务,其目标是识别子类下的辨别性特征,由于不同类别内部具有很大的差异性,不同类别之间具有很大的相似性,这使细粒度图像识别任务增加了难度。现有的方法主要通过视觉的标注信息和基于视觉局部区域定位方法来提取特征,但是这些方法不但对图像数据有大量的标注需求,而且仅仅使用单一视觉模态信息对数据的表示能力有限,无法全面表征物体。因此,为改进上述现有问题,本篇论文提出了利用
随着信息技术的发展,现代社会的正常运转越来越依赖于计算机和互联网,保护计算机系统和网络的安全至关重要。一直以来,恶意代码都是计算机安全的巨大威胁,它常见于各种形式的网络攻击,威胁到个人的隐私和财产安全,甚至危害到国家的安全。因此对恶意代码的检测至关重要。传统的恶意软件检测技术基于恶意代码的签名,这种的方法依靠恶意代码分析人员人工分析并提取出指纹。随着诸如加密、变形和多态等混淆技术的兴起,已有的恶意
社会上不同群体对某个事件的意见可能有所不同,这些意见随着事件的发展而互相影响。探究网络上不同群体意见流的变化与新闻媒体或政府机构对大众的影响力对于政府机构、新闻媒体、大型企业等管理者了解舆情传播影响具有重要的意义。我们提出了一个主题流动模型来理解社会群体内部或跨社会群体间的意见流。首先利用动态主题模型对单个群体的意见流进行分析。然后用余弦相似度从时间相关性与内容相关性两个方面构建多群体间的意见相关
接警日志同时包含时间、空间和案件描述信息,属于典型的非结构时空数据。与时空社交媒体相比,接警日志的数据项之间存在较少的联系,没有形成复杂的网络关系为挖掘数据模式提供有价值的线索,因此,其分析更加依赖对其中丰富语义的挖掘和语义时空模式的探索。实现大规模非结构时空数据的交互探索是一项挑战,主要体现在以下方面:1.非结构化的文本数据处理时间较长,准确率低。2.数据中包含多个维度,同时对多维数据处理耗时长
Meltdown漏洞利用现代处理器体系架构提供的乱序执行(Out-of-Order Execution)技术,打破进程用户空间和内核空间隔离,获取计算机中的隐私数据。为了避免微体系架构水平上的数据泄露,Intel紧急推出了KPTI(Kernel Page Table Isolation,内核页表隔离)补丁,在用户态将用户页表和内核页表隔离成两个页表,保护内核数据。此方法增加了进程在用户空间和内核空
图像区块是指图像特征点附近的像素区块,可以反映图像的本质特征。图像区块匹配的应用范围广泛,包括图像拼接、物体识别、三维重建、增强现实等,在计算机视觉任务中有着十分重要的作用。本次课题的主要目标是探究深度学习在图像区块匹配中的应用,并提升图像区块匹配的准确率。对于图像区块匹配的早期研究是基于特征工程的,例如SIFT等,是由研究员手工设计的。然而,随着带标签的训练数据越来越多,计算机的计算资源逐步增加
基于Map Reduce计算模式以及内存的数据处理框架(例如Apache Spark)使得大数据分析变得格外简单和高效。但是,“落后者”任务,即执行时间远远超过其他并行的子任务,显著降低了整体作业性能。在硬件资源层或者应用层方面存在许多可以导致落后者问题的因素,例如,硬件异构性、计算干扰、数据本地性,以及数据倾斜。现在最前沿的落后者任务缓解方法已经给出了基于数据倾斜和数据本地性的部分解决方案,文中
大量软件服务不断涌现,在人们的工作和生活中发挥着愈来愈重要的作用,这些服务已经形成了一个服务生态系统。为了给用户提供良好的体验,在新需求出现或性能改进等动态演化的环境下,服务及服务生态系统会不断变化。由于服务间的变化会互相影响,可能造成竞争不充分的现象。因此,对演化机制进行研究以改善和调控生态系统,具有重要意义。本文提出了一个基于价值分析的服务生态系统演化模型。首先,针对软件服务生态系统的特点,给