【摘 要】
:
近几年来,文本数据量随着自媒体时代的到来呈现爆炸式的增长。基于关键字的百度搜索引擎新闻数据是各家新闻媒体或网站的汇总数据。当人们得到或者看到这些数据的时候,通常不
论文部分内容阅读
近几年来,文本数据量随着自媒体时代的到来呈现爆炸式的增长。基于关键字的百度搜索引擎新闻数据是各家新闻媒体或网站的汇总数据。当人们得到或者看到这些数据的时候,通常不清楚这些数据涉及几个主题,LDA主题模型可以提取文本数据中的语义主题信息,但是文本数据中潜藏的语义主题信息被LDA主题模型提取的时候,主题数目需要人为指定,通常情况下需要用户自己根据经验指定。当人们得到这些数据的时候,通常也不清楚这些数据的重点词汇,词云(标签云)可视化可以有效地突出重点词汇,但是现有的词云可视化技术大多需要用户自己按一定的格式排版并导入固定位置,效率特别低下。针对这些问题,本文主要做了如下几方面的工作:(1)提出了一种评价LDA主题模型的指标Perplexity,通过该指标可以得到LDA主题模型的最优主题数目。通过实验显示,当评价指标Perplexity最小的时候,LDA主题模型达到最优,得到的结果最贴近实际情况。(2)设计并实现了基于LDA主题模型的可视化。该功能的实现,首先通过网络爬虫得到文本数据,然后进行中文分词并对分词后的数据去停用词,再用LDA主题模型得到去停用词之后数据的语义主题信息并在Web端进行词云可视化。(3)设计并实现了基于词频的词云可视化和基于时间分类的词云可视化。该功能的实现,首先对去停用词后的数据进行统计词频和按时间分类,再将统计和分类后的数据在Web端进行词云可视化。以上各项功能的研究与实现,解决了LDA主题模型选取最优主题数目的问题并为LDA主题模型自适应选取最优主题数目的研究打下了坚实的基础,实现了文本数据基于LDA主题模型、词频和时间分类的词云可视化,系统具有操作简便易懂的优点。
其他文献
<正> 该系统属于国际、国内领先的高技术成果,是国家计委、国家经贸委、科技部《当前优先发展的高技术产业化重点领域指南》和科技部《中小企业技术创新项目指南》中重点支持
<正> 在中型发电机中磁极铁心与磁轭(材料为锻钢35)的连接通常采用燕尾槽结构,因此磁轭燕尾槽的加工质量是比较重要的。我厂在没有专用设备的情况下,采用成型铣削的方法,设计
近年来,超声医学规范化培训医生(简称规培医生)的临床带教问题越来越受重视,如何在有限的规范化培训周期内结合超声新技术进行临床带教,提高规培医生的超声扫查及诊断水平,是
最近,网上叫卖一种叫做“万能钥匙”的开锁工具,称只需很短时间,就可以将家庭门锁打开,并且对锁本身不会造成损害。经调查后发现,一些专业锁具公司只顾赚钱,不需要任何验证手续,就出
基于现代资本市场理论,运用双重差分模型,检验了沪港通对标的证券股价崩盘风险的影响。研究发现,相比于控制组公司,沪港通开通以后,处理组公司的股价崩盘风险显著降低。进一
关于交流电动机供电电压的波形上海电器科学研究所(200063)郭钟工业电网电压波形通常均为近似的正弦波形。除基波外,尚含有一系列谐波。电网的容量越大,电压的波形越接近正弦波。容量
2009年,占规模以上工业增加值比重32%左右的原材料工业增速达到12%,比上年提高1.6个百分点;今年1-2月增速达到20.7%,主要是去年同期基数较低(增速仅为3.1%)。预计随着投资增速的回落,2010年
机动夹紧转子离心铸铝机天津市电机总厂(300210)沈新民我厂于1975年将转子离心铸铝机改造为机动夹紧,摆脱了原来用人工夹紧和松开工件(转子铁心)的沉重操作。经过连续20年的使用,效果良好。它比
人人都爱喝咖啡,偶有闲暇能够喝上一怀香气馥郁的咖啡,无论是精神还是身体上的压力都将会随着那袅袅轻烟而烟消云散,你会由衷的感叹:世界是多么的美好。
中国钢铁工业协会常务副会长罗冰生表示,钢铁业2010年表现将好于2009年。