中文文本挖掘基本理论与应用

被引量 : 0次 | 上传用户:gmtt123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘的应用前景十分广泛,中文文本较西方语言文本有其独特性,本文研究的对象是中文文本。此文首先对文本挖掘的背景和发展简要综述,并介绍中文文本挖掘的概念和流程,其中重点介绍了特征的提取、降维及分类算法。介绍了R中文本挖掘相关的包,以及CHQ’S文本多分类系统,并应用此系统对文档进行分类。本文重点是借助被广泛应用的开源工具构建自己的中文文本挖掘系统。根据中文文本挖掘的流程,详细的描述了自己对系统的探索,利用LTP系统进行分词,然后借助Weka的StringTOWordVector完成了从非结构化数据到结构化数据的转化,最后用LibSVM做中文文本多分类模型的训练和预测。
其他文献
承德作为京津冀经济圈的重要城市,近年来经济平稳发展、职业技术人才需求稳步攀升,特别是近十年来,承德职业教育有了长足的发展,突出表现在办学数量的不断增加和学校招生规模的不
随着市场经济逐步走向全球化,企业之间的竞争越发激烈了,面对琳琅满目的商品,如何使它们从货架上进入消费者的视野变得非常重要。这也使得商品包装的重要性逐渐凸显出来,让人们深
针对H公司生产线的效率低下,各工序安排不合理,等待浪费现象严重等问题,运用生产线平衡、5W1H、ECRS等方法对生产线进行分析,从而调整工序工位,合理安排各工序工作,改进工装
随着我国航运事业的不断发展,我国正在从航运大国向航运强国迈进,这就要求翻译人员正确恰当的翻译海事文献。对于译者来说,翻译的过程中经常要面临名词修饰语的翻译,其中有修
有理数是基础教育的重要内容,也是七年级学生学习的重难点.很多人认为理解有理数的学习并不困难,但事实并非如此,在中国传统式教育理念下,对于有理数的内容,老师多半只是强调机械
随着经济社会的发展,生育率的下降,人均预期寿命的延长,老年人口数量的增加,人口老龄化已成为世界人口发展的必然趋势。人口老龄化会影响一个国家或地区社会、经济和人口发展的各
中国作为一个航运大国与世界各国的交流日益频繁,国内对当今国际海事知识的需求日渐增长。因此,时刻关注国际海事规则的进展,及时准确地将英文原版文献译成汉语变得越来越重
西部地区包括四川、重庆、贵州、云南、广西、陕西、甘肃、青海、宁夏、西藏、新疆、内蒙古十二个省、市和自治区,土地面积686.7万平方公里,占全国国土面积的71.5%。2012年西
《南风粤韵》是广州杂技团近年创作的一台既表现中国传统文化,又具有浓郁地方特色,展示广东民俗风情的大型杂技晚会。在这台晚会上,你看到的不再是一个接一个由技巧表演组合
随着改革开放的不断深入和我国经济社会建设的持续发展,国民接受高等教育比例逐年呈上升趋势,高等院校毕业生数量剧增,就业压力加大,用人单位在人才使用上“超前消费”的现象比比