【摘 要】
:
在文本特征选择中,由于词语概率空间和词义概率空间的差异,完全基于词语概率的主题特征往往不能很好地表达文章的思想,也不利于文本的分类。为达到主题特征更能反映文章思想
【机 构】
:
河北大学电子信息工程学院,河北大学数学与计算机学院
【基金项目】
:
国家自然科学基金项目(60903089), 河北大学博士项目(Y2009157)
论文部分内容阅读
在文本特征选择中,由于词语概率空间和词义概率空间的差异,完全基于词语概率的主题特征往往不能很好地表达文章的思想,也不利于文本的分类。为达到主题特征更能反映文章思想这一目的,提取出一种基于词义降维的主题特征选择算法。该算法通过在词林基础上构建"同义词表",作为词到词义的映射矩阵,构造一个基于词义之上的概率分布,通过LDA提取文本特征用于分类,分类准确率得到了明显提高。实验表明,基于此种方法所建立的主题模型将有更强的主题表示维度,通过该算法基本解决文本特征提取中词语概率和词义概率之间差异的问题。
其他文献
从事机械设计24年,徐工集团高级工程师孙丽至今还记得自己大学毕业进厂时听到的那个故事。 1995年,徐工集团设计出了具有自主知识产权的履带起重机,尽管只有50吨,仍是可喜的突破。彼时,德国利勃海尔的起重机已经达到800吨。徐工集团派人去利勃海尔参观,德国工程师很热情地说:“你们可以用摄像机录制下来。”紧跟着又说了一句,“反正你们再怎么学,也永远做不到。” 从那一刻起,孙丽就下定决心,为了徐工,
18年里,不论是白天黑夜、刮风下雪,余家军划着小木船,每日来往于东西两岛之间为村民看病。这条木船也被村民亲切地称为“水上120” 在安徽省六安市金寨县的大别山深处,有一个名叫响洪甸的水库,1400多平方公里,山水相连,河汊纵横。 水库的深处,有一个被称为“海岛”的孤岛。孤岛的东岛岸边,常年停靠着一个船屋,外面挂着“麻埠镇齐山村海岛卫生站”的牌子。 39岁的余家军是船屋的主人,也是齐山村唯一的
通过比较精制盐与营养盐的不同,分析黑龙江省营养盐目前的销售情况,运用SWOT分析方法对营养盐市场情况和潜在竞争情况进行细致的分析,列出产品的优势、劣势、机遇和挑战,进而
美国的商业秘密保护制度的演进和发展表明,美国对商业秘密保护的高度关注.美国有效的商业秘密保护区分了一般商业秘密侵权和经济间谍行为,并平衡了私人利益和社会公共利益,是
分析了一般SMC专用液压机在汽车生产中的应用现状,介绍了带有排气程序控制功能的SMC专用液压机在汽车生产领域中的优势及其广阔的发展前景.
我校教学现状,上演的仍是教师独角戏,课堂上,老师卖力的讲,学生除了少数死气沉沉听讲的就是睡觉的,还有一部分是一言不发想心事的,有的班甚至还有伺机捣乱的.有些教师感叹说"
本文对大型液压机满足快锻的方法与途径在实践基础上进行总结、论述,并对大型自由锻造液压机实现快锻最新控制方法和途径加以描述,为获得最佳快速锻造控制集成系统提供帮助。
30年,杨银科从山顶到山脚,又从山脚到山顶,背烂了几十个邮包,穿烂了不知道多少双鞋,走的山路可绕地球5圈。 1987年至今,30年时间,杨银科一直承担着山内与山外的邮递工作。 60岁的杨银科是山西长治市平顺县虹梯关乡佛堂村人,也是全乡仅有的两名邮递员之一。虹梯关乡境内高山峻岭、河谷纵横,最高海拔1400余米,最低500余米。在这茫茫大山中杨银科经常背着重重的包裹,穿行在陡峭的山路之上。 在这
海量数据环境下要求存储系统具有高扩展性、高可靠性和低成本等特点。大规模存储系统的节点因数目巨大而易频繁失效,为保证节点的可用性,系统会利用冗余数据对失效节点进行修复。作为一种新的容错技术,再生码可有效降低分布式存储系统中失效节点修复时需要的下载数据量。基于简单再生码,为分布式存储系统设计一种新的编码方式。它不仅可容忍多个节点同时出错并进行修复,而且编码形式简单并具有较高的码率。
金融危机对全球经济造成巨大冲击,金融学教学也面临挑战。由金融危机所引发的诚信危机、风险恐惧.是将来从事金融工作的学生必须要克服的。信用是金融市场运作的根本,一定培养学