藏文文本分词赋码一体化研究

来源 :西藏大学学报 | 被引量 : 0次 | 上传用户:wangyong2866883
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。
其他文献
徐珂编撰的《清稗类钞》九十二类、三百余万字,涉及西藏的史料丰富而详细,既有清代涉藏大事、治藏政策的摘录,也有西藏风土人情的描述。这些史料既是研究清代西藏史的重要参考资
目的:建立高效液相色谱法测定二十五味珊瑚丸中西红花苷含量的方法。方法:采用HPLC法,色谱柱:DionexC18柱(250ram×4.60mm,5um);流动相为甲醇-水(52:48),流速为0.8ml/min,检测波长为440nm,柱温为250C;进样量10μl;用标准曲线法定量,测定二十五味珊瑚丸中西红花苷含量。结果:西红花苷I在33μg-330μg范围内与峰面积呈良好的线性关系(r=0.9999),西红花苷Ⅱ在62μg-310μg范围内与峰面积呈良好的线性关系(r=0.9998),平均回收率为103
针对舆情监测中现存的热点词提取方法精度不高、速度不快的问题,文章采用互信息作为热点词突发性的度量手段,并使用类间离散度作为调节因子来构建热点词的突发性度量公式.在
高等职业院校人才培养任务是培养适用于企业的生产第一线技能型人才,这也是我国产业升级过程中企业最缺少的人才。文中以组织学生参加全国相关技能大赛和参加科研项目为支点,改
正值西藏大学迎来一个个重大发展机遇,迅速向前跨越式发展之际,作为展示学校教学与科研成果之窗口的硒藏大学学搠(以下简称为《学报》)也迎来了自己创刊百期之喜。作为藏大教工,作
基于CNKI(1993-2011)数据,以《西藏大学学报》刊发论文(1993—2011年)为研究对象,采用文献计量学分析法,对该刊载文数量及年代分布、栽文被引、栽文被转载、科研基金论文等数据进行
复合菌系WSC-9是一组具高效稳定分解纤维素能力的细菌复合群体。为了研究其微生物组成,以纤维素分解情况为依据,分离复合菌系中具有纤维素分解能力的厌氧纯培养菌株,通过16SrDNA
改革开放30多年来,在经济全球化快速推进的背景下,我国的经济、贸易都实现了持续、稳定的增长,对外贸易对经济增长贡献的突出地位进一步得到巩固和发展。但是,长期以来,重视出口贸
城市色彩是体现城市历史文脉和个性特色最直观的部分,古城拉萨城市色彩独特而浓烈.文章在对拉萨老城区标志性建筑进行城市色彩调查和分析研究的基础上,对拉萨老城区呈现的总体色彩进行定位,旨在为拉萨在色彩规划设计中的发展和传承寻找一个平衡点.
植物MADS—box基因家族基因编码高度保守的转录因子,参与包括花发育在内的多种发育进程。为进一步研究胡萝卜花器官的发育,根据MADS—box基因保守区序列,设计简并引物,并利用Y-RA