设为首页 - 加入收藏
广告 1000x90
您的当前位置:黄大仙综合资料大全2018年 > 句法树 > 正文

python自然语言处理(一)NLTK初步使用

来源:未知 编辑:admin 时间:2019-06-07

  NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。

  上例中,有两个命名实体,一个是Xi,这个应该是PER,被错误识别为GPE了; 另一个事China,被正确识别为GPE。

  Lemmatisation是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)。相对而言,词干提取是简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义。词形还原处理相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值。

  MaxMatch算法在中文自然语言处理中常常用来进行分词(或许从名字上你已经能想到它是基于贪婪策略设计的一种算法)。通常,英语中一句话里的各个词汇之间通过空格来分割,这是非常straightforward的,但是中文却没有这个遍历。例如“我爱中华人民共和国”,这句话被分词的结果可能是这样的{‘我’,‘爱’,‘中华’,‘人民’,‘共和国’},又或者是{‘我’,‘爱’,‘中华人民共和国’},显然我们更倾向于后者的分词结果。因为‘中华人民共和国’显然是一个专有名词(把这样一个词分割来看显然并不明智)。我们选择后者的策略就是所谓的MaxMatch,即最大匹配。因为‘中华人民共和国’这个词显然要比‘中华’,‘人民’,‘共和国’这些词都长。

  我们可以通过一个英文的例子来演示MaxMatch算法(其实中文处理的道理也是一样的)。算法从右侧开始逐渐减少字符串长度,以此求得可能匹配的最大长度的字符串。考虑到我们所获得的词汇可能包含有某种词型的变化,所以其中使用了Lemmatisation,然后在词库里进行匹配查找。

  回答下列问题:(1)如何能构建一个系统,以至从非结构化文本中提取结构化数据?(2)有哪些稳健的方法识别一个文本描述的实体和关系?(3)哪些语料库适合这项工作,如何使用它们来训练和评估模型?...博文来自:Just for fun的专栏

  什么是词干提取?在语言形态学和信息检索里,词干提取是去除词缀得到词根的过程─—得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能得到满意的结果,即使该词干...博文来自:化风的专栏

  自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization,二者非常类似。它们是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。基于贪婪策略设计...博文来自:白马负金羁

  英文分词算法(Porterstemmer)主要可以实现单词原型的还原,官网一些词汇的处理结果:博文来自:JOY 酷酷的专栏

  在英语中,一个单词常常是另一个单词的“变种”,如:happy=happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过...博文来自:noobzc的专栏

  【转】【原】PythonNLP实战之一:环境准备最近正在学习Python,看了几本关于Python...博文来自:西北风的专栏

  PythonNLTK自然语言处理入门与例程在这篇文章中,我们将基于Python讨论自然语言处理(NLP)。本教程将会使用PythonNLTK库。NLTK是一个当下流行的,用于自然语言处理的Python...博文来自:hzp666的博客

  引例:NLTK中对于很多自然语言处理应用有着开箱即用的api,但是结果往往让人弄不清楚状况。下面的例子使用NLTK进行命名实体的识别。第一例中,Apple成功被识别出来,而第二例并未被识别。究竟是什么...博文来自:ID5418的杂货铺

  01关于NLTK的认知很多介绍NLP的,都会提到NLTK库。还以为NLTK是多牛逼的必需品。看了之后,感觉NLTK对实际项目,作用不大。很多内容都是从语义、语法方面解决NLP问题的。感觉不太靠谱。而且...博文来自:一朵花开的时间

  自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言工具箱(NLTK,NaturalLanguageToolkit)是一个基于Python语言的类库,它也是当前最为流行的自然语言编程与...博文来自:白马负金羁

  分别使用NLTK和Stanford的命名实体识别对英文文本进行处理以及方法的比较博文来自:babydx的博客

  昨天安装了nltk,今天来学习一下几个常用的函数。cordance(word)这个函数就是用来搜索单词word在text 中出现多的情况,包括出现的那一行,重点强调上下文。text.s...博文来自:安立桐的博客

  nltk是一个python工具包,用来处理和自然语言处理相关的东西.包括分词(tokenize),词性标注(POS),文本分类,等等现成的工具.1.nltk的安装资料1:黄聪:Python+NLTK自...博文来自:糯米糊糊的专栏

  NLTK是多语言支持的,但目前网上的例程几乎没有用NLTK处理中文的,其实可以做。比如标注功能,它自身提供了带标注的中文语库(繁体语料库sinica_treebank).下面来看看怎样通过数据训练来实...博文来自:谢彦的技术博客

  Python3.6安装NLTK说明:我在安装NLTK的过程中遇到了一些问题,我是按照《Python自然语言处理》中所说的,进入下载nltk-3.2.4.exe直接双击安装,出了一些问...博文来自:Vision_Tung的博客

  本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。词性标注器一个词性标注器处理一个词序列,为每个词附加一个词性标记,我们先看一个示例:importnltkwords=nltk.word...博文来自:人工智能

  自然语言处理教程原文:NaturalLanguageProcess译者:飞龙协议:CCBY-NC-SA4.0一、使用NLTK分析单词和句子欢迎阅读自然语言处理系列教程,使用Python的自然语言工具包...博文来自:龙哥盟

  最近一段时间做了不少文本挖掘的项目和研究,正好总结一下文本挖掘预处理的流程,希望是干货。...博文来自:Allan的专栏

  欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~本文由冰糖葫芦发表于云+社区专栏介绍文本已成为最常见的表达形式之一。我们每天都要发送电子邮件、短信、推文、更新状态。因此,非结构化文本数据变得...博文来自:QcloudCommunity的博客

  如何用Python中的NLTK对中文进行分析和处理?最近正在用nltk对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy)、互信息(pointmutualinformation)和困...博文来自:perfectmanman的博客

  stanfordcorenlp的中文切词有时不尽如意,那我们就需要实现一个自定义切词类,来完全满足我们的私人定制(加各种词典干预)。本篇文章就说下怎么把IKAnalyzer作为corenlp的切词工具...博文来自:肥基姆的博客

  欢迎加入学习交流自然语言处理是人工智能的类别之一。自然语言处理主要有那些功能?我们以百度AI为例从上述的例子可以看到,自然语言处理最基本的功能是词法分析,词法分析的功能主要有...博文来自:XyJw的博客

  特征提取与处理上一章案例中的解释变量都是数值,比如匹萨的直接。而很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章,我们介绍提取这些变量特征的方法。这些技术是数据处理的前提——序列化,更...博文来自:风雪夜归子

  对象的内存分配从大方向上将,就是在堆上分配(但也可能经过JIT编译后被拆散为标量类型并间接在栈上分配),对象主要分配在新生代的Eden区上,如果启动了本地线程分配缓冲,将按线程优先在TLAB(转换后援...博文来自:小小本科生成长之路

  最近比较有空,大四出来实习几个月了,作为实习狗的我,被叫去研究Docker了,汗汗! Docker的三大核心概念:镜像、容器、仓库 镜像:类似虚拟机的镜像、用俗话说就是安装文件。 容器:类似一个轻量...博文来自:我走小路的博客

  前面既然写了中缀转后缀的,那么现在说下中缀转前缀的,至于后缀(前缀)转中缀,可以根据相关的转换规则自行转换。目的将中缀表达式(即标准的表达式)转换为前缀表达式例如:1+2*3+(4*5+6)7 转换成...博文来自:Xefvan的博客

  jquery/js实现一个网页同时调用多个倒计时(最新的) 最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦! //js ...博文来自:Websites

  网上查了一下工业视觉标定板,少则几百大洋,多则几千大洋,就想在A4纸上山寨打印一个标定图,就是黑白方格相间的那种。A4纸的标准大小为210*297mm。搞了个把小时,其实想明白了之后很简单。从每...博文来自:eric_e的博客

  在MATLAB中,可以注释一段程序。 使用“%{”和“%}”。 例如 %{ 。。。 %} 即可。 经典方法是用 if 0,但缺点是不够直观,注释掉的内容仍然保持代码的颜色。现在可以用 ...博文来自:知识小屋

  一、代理模式为某个对象提供一个代理,从而控制这个代理的访问。代理类和委托类具有共同的父类或父接口,这样在任何使用委托类对象的地方都可以使用代理类对象替代。代理类负责请求的预处理、过滤、将请求分配给委托...博文来自:小小本科生成长之路

  用CSS写背景图片,background-image:url(1.jpg); 但是一直都不显示图片,只有原本写好的div的边框。 一般不显示都是路径写错的问题,(图片的相对路径是指相对于写这条c...博文来自:yovven的博客

本文链接:http://solidindia.net/jufashu/140.html

相关推荐:

网友评论:

栏目分类

现金彩票 联系QQ:24498872301 邮箱:24498872301@qq.com

Copyright © 2002-2011 DEDECMS. 现金彩票 版权所有 Power by DedeCms

Top