汉语篇章修辞结构的标注研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:dotnetgroup
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetor-ical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。
其他文献
今年以来,我国经济适度增长,增速总体稳中有落,二季度可能降至8%以下,全年GDP增幅在8%-8.5%之间。同时,预计今年全年CPI涨幅将在3%-3.5%之间,其中二、三季度价格涨幅总体趋降,四季度会略有
决策,特别是关乎国计民生、投资巨大的公共工程的决策,从来都是一个复杂的过程,需要广泛听取各种意见,需要严谨的科学论证,需要决策者权衡利弊、排比得失、趋利避害,应对各种可能的
随着市场经济越来越完善,体育产业其具有的巨大经济收入和崔动力越来越被政府和人们所关注。笔者根据学习观察,分析了体育产业所具有的特征、意义,并就体育产业对我国国民经济发展的影响展开详细论述,同时分析了体育产业中的现存问题。  在我国自20世纪80年代改革开放以来,伴随经济的发展,体育产业也迅猛发展,被誉为我国的“朝阳产业”。体育产业的发展,所带来的经济增长在国民生产总值中占据的比例越来越大,体育经济
在自动语种识别中,测试语音中说话人和信道的差异,会对系统性能产生很大的影响。针对于此,该文通过引入因子分析技术,根据语种识别的特点,建立了描述该差异(说话人差异和信道差异)的子空间的数学模型,并分别从特征域和模型域两个方面尝试消除该差异的影响。在最新的NIST LRE2007的测试任务中,相对于GMM-UBM基线系统,该文方法有效地提高了系统识别性能。在30s时长的测试中,等错误率(EER)相对降
2010年10月11—13日,第五届全国青年计算语言学研讨会在华中师范大学召开。此次研讨会由中国中文信息学会主办,华中师范大学承办。其目的在于加强计算语言学领域青年学者间的交
中国石油石油化工研究院自主研发的生物柴油加氢异构催化剂,在100mL加氢反应评价装置上完成了1500h稳定性评价试验。结果表明,生物柴油可降凝15~25℃,液相产物收率高于92%,为分子筛
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huf
目的探讨婴幼儿甲状腺舌囊肿的CT表现及鉴别诊断.方法笔者将12例临床手术和病理证实的婴幼儿甲状腺舌囊肿的CT片进行回顾分析.结果CT表现为颈前正中圆形或椭圆形囊肿11例(91.
经研究玉米可被小麦黄矮病毒(BYDV)感染症状与小麦黄矮病类似;以禾谷缢蚜传播能力最强,麦长管蚜、麦二岔蚜和玉米缢蚜亦可传毒;病毒分离物属于小麦黄矮病毒主流株系(麦二岔蚜
该文提出了一种新的用于鲁棒性语音识别的特征规整方法。我们观察到在噪声环境下语音特征分布的形状相比于干净环境变化很大,因此提出了一种称为倒谱形状规整的新方法,它是利用