设为首页收藏本站

绿色BI论坛商业智能大数据交流社区

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 247|回复: 1

灵玖软件NLPIRParser智能汉语分词

[复制链接]
发表于 2017-4-10 16:11:55 | 显示全部楼层 |阅读模式
  智能语言的处理中,第一个步骤就是分词。一个句子处理的第一步就是分词了,智能分词就是将用自然语言书写的文章、句段经电子计算机处理后,以词为单位给以输出,为后续加工处理提供先决条件。此技术对于信息分析、情报检索、机器翻译、自动标引和人工智能等IT应用方面有着关键性的作用。
  智能分词的实现,对于拉丁语系来说并不困难,其语言文字的形成结构中,词与词之间本身就有着明显的间隔符(如:空格、标点符号等),但对于中文来说,就是一个至今仍未能得以很好解决的技术难题,中文词与词之间没有着明显的间隔符,甚至连标点符号都没有的古文更是为难了。
  NLPIRParser智能汉语分词系统能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
  NLPIRParser智能汉语分词系统采取的条件随机场,是一种判别式图模型,因为其强大的表达能力和出色的性能,得到了广泛的应用。从最通用角度来看,CRF本质上是给定了观察值集合(observations)的马尔可夫随机场。
  1. 随机场
  简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。
  2. Markov随机场(MRF)
  这是加了Markov性质限制的随机场。首先,一个Markov随机场对应一个无向图。这个无向图上的每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。因此,Markov随机场的结构本质上反应了我们的先验知识——哪些变量之间有依赖关系需要考虑,而哪些可以忽略。
  3.从Markov随机场到CRF
  现在,如果给定的MRF中每个随机变量下面还有观察值,我们要确定的是给定观察集合下,这个MRF的分布,也就是条件分布,那么这个MRF就称为CRF
  4.训练
  通过一组样本,我们希望能够得到CRF对应的分布形式,并且用这种分布形式对测试样本进行分类。也就是测试样本中每个随机变量的取值。
  智能汉语分词系统在所有需要计算机对中文文字信息进行进一步分析处理的领域均能应用分词技术, 如: 信息检索、信息挖掘、自动分类、自动聚类、自动校对、机器翻译、语音识别与合成等人工智能领域。
回复

使用道具 举报

发表于 2017-4-11 15:47:44 | 显示全部楼层
谢谢分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

手机版|使用帮助|绿色BI论坛商业智能大数据交流社区 ( 粤ICP备09215901号-2   

点击这里给我发消息

粤公网安备 44049102496016号

GMT+8, 2017-8-18 13:05 , Processed in 1.372803 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表