【摘 要】
:
本文主要考察只有规模很小的标注语料可用时,如何进行产品特征的自动识别。特别地,产品特征应按句子进行识别,因此识别过程可看为二元分类问题。本文中产品特征候选用二值向
【机 构】
:
北京大学计算语言学研究所 北京 100871
论文部分内容阅读
本文主要考察只有规模很小的标注语料可用时,如何进行产品特征的自动识别。特别地,产品特征应按句子进行识别,因此识别过程可看为二元分类问题。本文中产品特征候选用二值向量表示,并用朴素贝叶斯分类器进行分类。训练语料足够大时,仅用朴素贝叶斯进行分类可取得不错的效果,但本文的目标是:在小规模的已标语料以及大规模的未标语料基础上,逐步扩大已标语料的规模。本文提出了一种半监督的自学习方法对产品特征进行迭代学习。实验结果表明,当已标语料规模较小时。自学习方法取得的效果优于有监督方法.
其他文献
利用互联网上丰富的信息资源来挖掘出专业术语的翻译选项可以应用在计算机辅助学习、机器翻译和跨语言检索等多个领域。如何挖掘出Web上所有可能的标注对形式并获取候选译文
本文介绍了我们参加国际信息检索比赛NTCIR中所使用的方法。我们首先利用传统的伪相关扩展方法检索文档,得到单个文档与查询之间的相似度:然后将前n篇文档聚类,再次计算类别
本文提出了一种基于投影函数和梯度方向相结合的眼睛自动定位方法。首先利用水平投影曲线和垂直投影曲线确定眼睛区域,然后根据眼球的梯度方向信息定位眼睛中心。试验证明该方法计算简单,定位准确率较高,并且对头部姿态变化等具有一定的鲁棒性。
企业内部的专家检索是人们通常遇到的一个问题,但由于企业内部的数据类型多样、分布结构复杂,而且专家相关的信息很稀疏的分散在企业数据中,因此数据不易组织来进行检索。虚
本文介绍了我们在非流利部分检测以及对非流利句子进行句法分析上的工作。我们的主要贡献是扩大了非流利部分检测的特征集合,最佳特征选择,并且比较了三种不同的分类器(AdaBo
本文针对四种主要的命名实体,即人名,地名,组织名以及时间表达式,进行研究,介绍了一个条件随机场(CRFs)和规则相结合的汉语命名实体识别系统。该系统融合了统计和规则两种方
通过对番薯(Ipomoea)属的12 812条甘薯和28 422条牵牛EST唯一序列进行检索分析,在319条甘薯EST序列中发现了共328个EST-SSRs,平均每20.41 kb出现1个甘薯SSR;在936条牵牛EST序
本研究以中国主流报纸动态流通语料库DCC(Dynamiccirculating corpus)为研究平台,选取2002-2006年六份主流报纸作为中文组织名监测研究的专用语料库,最终形成一个中文组织名
本文利用条件随机场模型实现了一个金融领域到通用新闻领域的中文命名实体识别系统领域扩展方案,并对如利用分词和词性标注信息进行了深入的研究。原系统针对金融领域,在分词
谷物中通常以淀粉的形式储存能量,淀粉由直链淀粉和支链淀粉组成.在胚乳中,支链淀粉生物合成中涉及二磷酸腺苷葡萄糖焦磷酸化酶(ADP glucose pyrophosphorylase,AGPase),可溶