[原创] 【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用

tobot 2021-9-4 23:28 楼主

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用

上篇我们说到可以利用jieba进行分词，这篇我们继续研究jieba的使用。

在jieba中，还有一个很重要的功能，就是对词性进行标注，支持对不同词性进行标注。现代汉语中的词性分为实词、虚词、叹词、拟声词四个大类。

实词（有实际意义的词，能独立充当句子成分，即有词汇意义和语法意义），包括体词（名词、数词和量词）、谓词（动词和形容词）、加词（副词）和代词（主要作用是替代，可替代名词、数词、量词、动词、形容词和副词。所替代的对象不同，语法功能就不同）。

虚词（没有完整意义但有语法意义或功能的词。其必须依附于实词或语句来表示语法意义，不能单独成句、单独作语法成分、重叠），包括关系词（连词和介词）和辅助词（助词和语气词）。

拟声词和叹词既不属于实词和虚词，同为特殊词类分类。其特点是在句子中通常不跟其他词发生结构关系。

NLP中，对语言的分析，除了分词外，还可以对词性进行标注。以jieba为例，使用缺省词库，常用的标注有：

x:标点符号

eng:英语单词

a:形容词

n:名称

nr:人名

ns :地名

nt机构团体

r:代词

t:时间

f:方位

我们不妨仍然以《战争与和平》来分析一下，看看里面提到的人名有多少，认为提到少于15次的名字不考虑。

可以看到，jieba对词语的词性识别并不是特别准确，陆军、元帅等都识别成为人名。

也许是外文的原因？我们找个武侠小说，拿《天龙八部》试试？

可以看到不仅词性标注有问题，连分词都产生了错误，例如：向萧峰、童姥道等等，显然是需要修正的。

在下一篇，我们考虑引入自定义字典来实现同样功能，并制作字典优化

回复评论（2）

沙发 Jacktang

对词性进行标注，支持对不同词性进行标注，这个功能很厉害

点赞 2021-9-5 21:32

板凳 soso

看一段以为上了语文课。

加油！在电子行业默默贡献自己的力量！：）

点赞 2021-9-6 10:07

30套RV1106 Linux开发板（带摄像头），邀您动手挑战边缘AI~

安世半导体理想二极管与负载开关，保障物联网应用的稳健高效运行

免费申请 | 上百份MPS MIE模块，免费试用还有礼！

PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

随便看看

谁有freescale的DSP：56F8346芯片的最小系统图

【抢楼有礼】只为汽车更安全，下载TI DRV3000，抢楼截图入好礼！

“大概需要一百年”！！！！！

概述PICAXE- The Tinkerers' Delight

MicroPython支持SPI驱动外部Flash了

DCDC电路为什么电感啸叫？

【转帖】小菲的嵌入式学习随笔

新入职小白：公司就我最闲，师傅派我去写bootloader

手机RF设计技巧

485怎么传脉冲信号

求3v直流变2000v高压（电流较小）电路图

关于ATMEGA16产生PWM的问题

手把手教你学单片机实验程序

数据存储设备的进化：技术发展缩影[转]

现在换了一个平台上，正常建立NK.Bin, EVC编的程序不能在WinCE(NK)上用EVC编的程序的Debug方式进行调试.是什么原因，什么地方有设置?

EEWORLD吉尼斯的总榜第一谁来PK

京公网安备 11010802033920号

写回复

[原创] 【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用

回复评论 （2）

沙发 Jacktang

板凳 soso

回复评论（2）