切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
期刊论文
基于栏目的藏文网页文本自动分类方法
基于栏目的藏文网页文本自动分类方法
来源 :中文信息学报 | 被引量 : 0次 | 上传用户:clarain
【摘 要】
:
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表
【作 者】
:
胥桂仙
向春丞
翁彧
赵小兵
杨国胜
【机 构】
:
中央民族大学信息工程学院,国家语言资源监测与研究中心少数民族语言分中心
【出 处】
:
中文信息学报
【发表日期】
:
2011年4期
【关键词】
:
藏文信息处理
文本分类
藏文网页分类
Tibetan information processing
text classification
classifi
【基金项目】
:
国家科技支撑计划资助项目(2009BAH41B00)
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。
其他文献
事件信息结构分析
该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本
期刊
事件词
事件信息结构
主线信息链
副线信息链
event word
event information structure
the main informa
藏语自动分词中的几个关键问题的研究
在分析现有的藏语自动分词方法基础上,该文通过分析藏文构词规则、句法结构、词的前后词性关系、后加字(R)的添接法和格助词的用法等来重点研究了未登录词、紧缩词和交集型歧义
期刊
未登录词
紧缩词
交集型歧义
out-of-vocabulary word
abbreviation
overlapping ambiguity
商品品牌名称挖掘
百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识,能够弥补普通词典词汇覆盖面小的缺点。在商品品牌名称挖掘中,该文提出了发现新的品牌名称的
期刊
商品名挖掘
半监督学习
图算法
brand name mining
semi-supervised learning
graph method
面向冗余度控制的中文多文档自动文摘
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。
期刊
冗余度控制
多文档自动文摘
中文自动文摘
reduandancy control
multi-document summarization
Chinese
与本文相关的学术论文