【摘 要】
:
随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的
【机 构】
:
北京大学信息科学技术学院,高可信软件技术教育部重点实验室,北京大学(天津滨海)新一代信息技术研究院
【基金项目】
:
国家自然科学基金No.61472007;国家自然科学基金No.91646107
论文部分内容阅读
随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼。主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中。本文提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了本文所提的多源数据分析框架的有效性。
其他文献
本文对国内铸钢件生产中采用的发热冒口材料配方进行了实验分析,对发热冒口材料的放热化学反应机理进行了探讨。通过实验阐明低铝热剂的发热冒口起不到应有的发热作用,而只是
新课程背景下使小学英语教学知识编排、教学方法、教学内容、学习模式等多方面具有显著的革新与优化。通过新课程明确了当前小学英语教学的重点内容,运用绘本阅读教育来吸引
<正> 国内办公自动化的开发商一直面临着巨大的挑战,一方面客户对输入、输出界面的要求非常之高,要符合直观、高可用性、高安全性和低维护成本。另一方面由于语言和技术支持
目的:探索钙离子通道β2亚基(CACNB2)基因rs4373814位点的多态性与东北汉族人群(黑龙江省及周边地区)原发性高血压易感性的关联性。方法:采用病例—对照研究方法,在哈尔滨医
马口铁气雾剂产品因为腐蚀而泄漏的现象非常普遍。马口铁的腐蚀严重地影响到产品的质量和发展,但许多生产厂家都未能找出解决的有效方法。文章从产品泄漏的实例出发,提出泄漏
知识付费本来是件好事,但不要夸大疗效$$目前,国内的知识付费经济,风起云涌,迅猛发展。知识付费平台的快速发展,是人们对知识消费的需要,是人们自我发展、适应社会、获得更多知识技
目的 miRNA的异常表达会导致肿瘤包括肾癌的产生与增殖。但是miRNA如何促进肾细胞癌的产生与增殖目前仍不十分明确。本研究旨在比较769-P人肾癌细胞株与正常肾组织中表达的mi
坡屋顶在具有明确的物质功能性的同时还饱含人文关怀,给人以温馨亲切的感觉。在思想解放、技术进步的今天,当代建筑变得更加多元与自由,兼具实用功能与精神功能的坡屋顶建筑