论文部分内容阅读
随着数字化和网络化的普及,与企业相关的信息和情报大多为来源多元化,结构多样化的多源异构数据。从这些多源异构数据中科学、准确、及时地识别、追踪科技前沿,能够为企业提供及时有效的信息服务。基于此,该文收集了电线电缆行业内不同来源的相关数据,以LDA主题模型为研究工具进行主题抽取、主题强度分析和主题演化分析,把握电线电缆行业发展的前沿问题及其走势,为电线电缆企业了解市场行情和制定战略规划推荐具有较高参考价值的信息。该文主要从以下几个方面展开研究:首先,利用LDA模型分别对国内外电线电缆行业不同来源的数据(包含期刊论文、会议论文和专利)按照时间片进行主题抽取,获取与电线电缆相关的主题及词项。结果发现:在主题分类上国内外的数据类似;在内容上国内侧重基础实践,国外侧重科学研究,创新性比国内高;新闻数据抽取的主题主要包括行业检查和行业内关注的产品、技术等。其次,为了获取描述文本内容能力更强的主题,该文在主题抽取结果的基础上进行了主题强度分析。通过分析主题强度值的总体趋势,将主题分为热门、普通和冷门主题。分析发现:国内热门主题从电线电缆的材料和实体性能逐步转为应用效果;普通主题大部分以电线电缆的性能、材料以及经验交流为主,在最近才出现了和新兴技术有关的主题;冷门主题涉及电线电缆的机械、材料、性能和所属机构等。国外,电线电缆的热门主题以阻燃性能为主;普通主题2005年以前以材料和性能为主,2005年后以电线电缆在其他领域的应用为主;冷门主题与国内类似。从新闻数据的分析发现,关于行业监管方面的主题属于热门主题,电线电缆的相关技术属于普通主题。再次,主题强度分析只能突显主题的静态特征。为了进一步揭示主题的动态发展过程,本文开展了主题演化分析。研究发现:在国内,技术方法类、产品类和其他类主题具有重要参考价值;机构类、材料类、性能类和会议类主题需要和其他类别的主题结合才能发挥比较重要的作用。在国外,产品类、技术类、性能类和其他类的主题具有较高的参考价值,机械类和材料类包含部分需要关注的主题,但总体参考价值不高。最后,根据主题抽取、主题强度分析和主题演化分析结果,将主题划分为“没有价值的主题”、“有价值的主题”和“具有发展前景的主题”,并结合主题所包含的具体词项进行解析,从而确定向企业推荐的信息内容。从研究结果来看,利用LDA主题模型对多源异构数据进行主题挖掘可以获取语义较清晰,文本描述能力较强的主题。其主题分析结果不仅可以反映市场行情、技术热点还能够与主题涉及的其他领域进行交联映射,形成语义知识网络。从而验证了以企业为服务对象,利用LDA主题模型对多源异构数据进行主题挖掘并进行信息推荐方法的的合理性有效性。