设为首页 - 加入收藏
广告 1000x90
您的当前位置:黄大仙综合资料大全2018年 > 句法树 > 正文

基于依存树的中文语义角色标注

来源:未知 编辑:admin 时间:2019-06-07

  基于依存树的中文语义角色标注_电子/电路_工程科技_专业资料。现有中文语义角色标注主要集中在基于短语结构句法树的标注.基于此,提出一种基于依存树的中文语义角色标注方法.将中文句子转化为标准的依存树,作为实验数据集,特征选取时结合知网,将语义信息引入特征集,以提高系统的召回率,并采用最大熵分类器进行实验,获得90.68%的F值.结果表明,在标准的句法树

  第 36 卷 Vol.36 第4期 No.4 计 算 机 工 程 Computer Engineering 文章编号:1000—3428(2010)04—0161—03 文献标识码:A 2010 年 2 月 February 2010 中图分类号:TP18 ·人工智能及识别技术· 基于依存树的中文语义角色标注 安强强,张 蕾 (西北大学信息科学与技术学院,西安 710127) 摘 要: 现有中文语义角色标注主要集中在基于短语结构句法树的标注。基于此,提出一种基于依存树的中文语义角色标注方法。将中文 句子转化为标准的依存树,作为实验数据集,特征选取时结合知网,将语义信息引入特征集,以提高系统的召回率,并采用最大熵分类器 进行实验,获得 90.68%的 F 值。结果表明,在标准的句法树上,当基于依存关系的标注系统中加入新特征时,该中文语义角色标注取得 了比基于句法成分标注更好的成绩。 关键词:最大熵分类器;语义角色标注;依存树 Chinese Semantic Role Labeling Based on Dependency Trees AN Qiang-qiang, ZHANG Lei (College of Information Science & Technology, Northwest University, Xi’an 710127) 【Abstract】Current Chinese semantic role labeling mainly focuses on using phrase structure trees. This paper presents an approach of Chinese semantic role labeling method which is based on dependency trees. Chinese sentences are converted into gold dependency trees which are divided into training and testing set. By using maximum entropy classifier and adding the first sememe of word concept to the feature set, the system gets an F-score of 90.68%. Results show that dependency-based system adding new features performs better than constituent-based system on gold standard parses. 【Key words】maximum entropy classifier; semantic role labeling; dependency trees 1 语义分析就是根据句子的句法结构和句中每个实词的词 义,推导出能够反映句子意义的某种形式化表示。计算语言 学对语言的分析一直以来追求“全面”和“深层”的目标, 但在复杂语言现象下,这种思想难免收效甚微。与之相对, 浅层分析采用“片面”和“浅层”的理念,在满足应用的前 提下,为解决复杂语言现象提供了一条新的途径,而语义角 色标注成为当前浅层语义分析的主要手段 [1]。 语义角色就是谓词与它的参数之间的语义关系。语义角 色标注就是将词语序列分组,并按照语义角色对它们进行分 类。它对问答系统、机器翻译、自动文摘、信息抽取等系统 性能的提高,有着重要的作用。它并不对整个句子进行详细 的语义分析,而只是标注句子中的一些成份为给定谓词的语 义角色,这些成份作为此谓词的参数被赋予一定的含义。 对于语义角色标注,国际上在 2004 年 ~2008 年举行过 5 次评测,分别为 Senseval-3、SemEval2007、CoNLL 会议主 办的 SRL Shared Task 2004, 2005, 2008。 汉语语义角色标注的研究刚刚起步,使用的资源主要是 文献 [2] 在宾州中文树库的基础上建成的中文命题库 (CPB) , 在其中进行了语义角色的自动标注,并使用了谓词的类提高 了系统的性能。文献 [3]运用支持向量机的方法进行了浅层语 义标注的实验,并比较了中文实验结果与英语的实验结果。 文献 [4] 针对中文的特点,在英文语义角色标注特征的基础 上,提出了一些新的特征和组合特征,并在 CPB 语料数据上 使用最大熵分类器进行了实验。文献 [5]以宾州中文树库为基 础,选取了 5 种主要的语义角色,采用了两阶段的分类方法, 取得了较好的结果。文献 [6]鉴于当前数据稀疏的问题,采用 概述 了基于知网的回退模型,很好地改善了标注的准确率。文 献 [7]通过整合主动学习与半监督学习,在小规模标注样本环 境中取得了良好的学习效果,文献 [8] 将角色分类阶段分为 3 个子任务,提高了分类的准确率。标注的基本单元可以是 句法成分、短语、词或者依存关系等。以上介绍的实验主要 是基于短语结构语法的,而在英文的语义角色标注中,已经 有学者利用依存句法进行标注实验, CoNLL-2008 的评测就 是利用系统自动生成的依存句法树进行语义角色标注。 文献 [9]的实验表明,相比基于句法成分的英文语义角色 标注,基于依存关系的标注对词汇的依赖性较弱,鲁棒性较 高。这对于当前中文语料库较少、数据稀疏等问题,有着重 要的意义。 2 2.1 中文依存句法树库的建立 知网 概念是人类对客观世界认识的结果,在本质上都是符号 化的实体,它表示的是客观世界中的事物及其含义。在这个 客观世界里,一切事物都在特定的时间和空间内不停地运动 和变化,它们通常是从一种状态变化到另一种状态,并通常 由其属性值的改变来体现。 在知网中,概念是由词表示的概念标识符,一个词有多 种语义,就对

本文链接:http://solidindia.net/jufashu/138.html

相关推荐:

网友评论:

栏目分类

现金彩票 联系QQ:24498872301 邮箱:24498872301@qq.com

Copyright © 2002-2011 DEDECMS. 现金彩票 版权所有 Power by DedeCms

Top