设为首页 - 加入收藏
广告 1000x90
您的当前位置:黄大仙综合资料大全2018年 > 句法树 > 正文

提取中文句子主谓宾的Java实现

来源:未知 编辑:admin 时间:2019-06-30

  “你被我偷偷的喜欢着”都表达了“我喜欢你”。搜索引擎如果机械地按照词频算法检索的话,会误解为“我喜欢隔壁班”“你喜欢我”,毕竟词频一样,顺序也差不多。

  利用依存关系可以提取句子的主要成分(也就是小学和公务员考试中出现的“提取主干”),可以实现语义上的智能理解。在中文里,我的感受是,大部分句子都有主谓宾,很少缺主语或宾语,三个全缺的几乎没有。所以我猜可以利用主谓宾短语来作为句子的主干,检索的时候主干匹配的话则给予更高的分数,或者用于智能推荐。

  事实上,句法分析和语义理解是个深刻的命题,并不是我这一两个Class可以解决清楚的。而且目前中文句法分析的准确率只有80%左右,在真实语境中的准确率更低。所以能否将其用于生产环境,还请各位读者自己衡量。

  本项目的句法分析依赖于Stanford Parser实现,一般来说,大学做的东西都是服务于论文。只要论文上的准确率高出一两个百分点,牺牲再多的性能,再多的可读性都无所谓。我认为,真正要将语义分析导入商用应用,现在还为时过早,这篇文章和这个项目可做尝鲜。

  这里仅仅以一个被字句“你被我喜欢”为例说明。注意句子应当是单句,不含逗号等分句标点。

  其中root表示中心词,nsubjpass表示被动的名词主语,nsubj表示名词主语。更加详细的标签含义可以查看附录。有了依存关系之后,就可以判断谁是主语谁是宾语了。

  npsubj 被动型主语(nominal passive subject),专指由“被”引导的被动句中的主语,一般是谓词语义上的受事 (称作,镍)

  xsubj x主语,一般是一个主语下面含多个从句 (完善,有些)

  ccomp 从句补语,一般由两个动词构成,中心语引导后一个动词所在的从句(IP) (出现,纳入)

  博主,我看你的代码中用到了Stanford的库,请问怎么训练自己的模型库呢?

  hanks: 你还在维护这个项目吗?从GitHub下载的maven项目怎么是一个Java web的项目吖?

  另外 stanford这个包句法树还挺准,但是依存关系在提取时候有问题,一些同位语短语分解时候,中心语会定位到非谓语上,很奇怪,研究源码ing

  经分析,仿佛VC是cop特性的,都是root都是宾语,所以赶脚把root词直接当成谓语是不合适的

  这个问题我也遇到了,感觉有些把宾语成了root,之后直接把root当初谓语,就出问题了,请问你有什么好方法没?

  感觉stanford的这个包,在处理句法树时候还是很准的,就是依存文法在处理同位语或者其他类似非标语句时候会出现很多错误,比如中心语定位在非谓语上,这个很奇怪,正在研究源码中

  之前可能是maven没配置好,现在好了,我直接把代码考进了一个工程里,发现了一些stanfordparser的方法已经过时了。

  你好,可能分享一下代码呢?题主的github上的代码好像不全了,能否发我一份呢?我的邮箱: 谢谢

  我在中二的想能不能用这种主干分析做一个自然语言-编程语言的解释器=w=

  这是未来的发展方向吧,不过自然语言太灵活了,比如未来有一天,小明对机器人说想得到小红的芳心,第二天小红卒……

本文链接:http://solidindia.net/jufashu/240.html

相关推荐:

网友评论:

栏目分类

现金彩票 联系QQ:24498872301 邮箱:24498872301@qq.com

Copyright © 2002-2011 DEDECMS. 现金彩票 版权所有 Power by DedeCms

Top