【摘 要】
:
针对传统民族文献主题识别不精准,缺乏深层次语义理解等问题,提出一种基于LDA模型和文本聚类的水族文献主题挖掘算法。通过Python抓取中国知网水族文献990篇,利用LDA模型挖掘
【基金项目】
:
贵州省教育厅青年科技人才成长项目(黔教合KY字[2016]172)
论文部分内容阅读
针对传统民族文献主题识别不精准,缺乏深层次语义理解等问题,提出一种基于LDA模型和文本聚类的水族文献主题挖掘算法。通过Python抓取中国知网水族文献990篇,利用LDA模型挖掘水族文献主题分布特征,融合水族特征词典进行文本聚类,并挖掘出水族文化、体育、音乐、医学和水书五大主题的关键词,通过准确率、召回率和F特征值进行实验评估。实验结果表明,该方法有效地挖掘出水族文献主题关键词及热门研究领域,使得水族文献的主题脉络更加清晰,为下一步水族引文分析和数字化保护民族文献提供帮助,具有一定的应用前景和实用价值。
其他文献
将太阳能转化为化学能并储存在氢气中,被认为是解决能源和环境问题最理想的途径之一。因此,利用太阳光的能量来催化水分解产氢的光催化剂受到了广泛关注。其中,二氧化钛(TiO_2)由于其廉价、稳定、无毒以及环境友好的优点,吸引了许多研究者的目光。但TiO_2表面活性位点少、光生电子和空穴容易复合等缺点限制了其光催化性能。针对以上情况,为了提高TiO_2的光催化产氢性能,本论文分别设计了两种基于TiO_2纳
目的分析对冠心病患者进行尿微量白蛋白联合凝血检验的结果及意义.方法选取在本院接受诊治的69例冠心病患者作为研究对象,根据临床症状进行分组,将稳定性心绞痛患者设为研究1
对豆天蛾的人工饲养、营养价值和综合利用等方面进行了总结分析,针对豆天蛾目前开发研究的现状,对其今后的开发利用提出了一些建议。
本论文利用全国721个站点1961-2007年的高密度观测资料,阐述了我国霾现象的时空分布特征,揭示中国霾现象在年际和年代际时间尺度上的演变规律。定义年霾日在1天以上的站点组
大数据时代,科研成果层出不穷,为了让科研工作者在海量文献中精准识别出文献的核心作者和科研群体,挖掘出作者间的合作关系,文章提出了一种基于综合指数和知识图谱的水族文献
目的分析骨科大手术后下肢深静脉血栓形成的循证护理要点。方法选取2013年10月至2016年7月我院收治的108例骨科大手术患者作为观察对象,按照抽签法分为参照组和观察组,参照组
<正>资产档案在医院资产管理中具有重要意义,是医疗卫生事业在新时代条件下发展和生存的需要,也是考核医院等级的一个重要考核项。资产档案是资产由购入到投入使用过程中形成
<正> 1981年出版的《中国近五百年旱涝分布图集》,是根据2100多种地方志并参考了各类史书加工整理出来的。该图集给出了1470—1979年历年汛期5—9月旱涝分布图和全国120个站
随着科技的发展和商业环境的变化,企业很难凭借现已取得的成果长久保持竞争力。很多新兴企业快速崛起,原来领先的企业也必须对环境变化快速响应。如何在组织发展中充分发挥员