设为首页收藏本站

绿色BI论坛商业智能大数据交流社区

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 335|回复: 2

Nlpir Parser大数据挖掘平台智能新词发现

[复制链接]
发表于 2017-5-23 15:16:08 | 显示全部楼层 |阅读模式
  中文资料在进行自然语言处理时,我们长长会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那例如“教育局长”,语义上理解为“教育局之长”,但切成“教育/局长”、“教育局/长”、“教育/局/长”或不予切分,都会有人提出异议。
  这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西—— 未登录词。中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等,它 们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克这一难关,自动发现新词成为关键的环节。
  新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
  灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。
  Nlpir Parser大数据挖掘平台新词发现系统的主要特色在于:
  1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少60万篇文档;
  2、处理精准:Top N的分析结果往往能反映出当时的时事流行语和热点实体,适合于舆情热点计算;与国际上著名厂商的技术相比,各项指标远远领先,或许是灵玖更懂中文吧;
  3、精准排序:新词汇按照影响权重排序,可以输出权重值;
  5、开放式接口:新词发现组件作为Nlpir Parser大数据挖掘平台的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。
  新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。
  Nlpir Parser大数据挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。
回复

使用道具 举报

发表于 2017-5-23 15:59:19 | 显示全部楼层
Nlpir Parser 有什么功能??

点评

您好,Nlpir Parser这套软件有:全文精准检索、新词发现、分词标注、统计分析与术语翻译、文本聚类、分类过滤、正负面分析、自动摘要、关键词提取、文档去重、HTML正文提取等十余项功能。  详情 回复 发表于 2017-11-7 14:54
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-11-7 14:54:44 | 显示全部楼层
夜蔓 发表于 2017-5-23 15:59
Nlpir Parser 有什么功能??

您好,Nlpir Parser这套软件有:全文精准检索、新词发现、分词标注、统计分析与术语翻译、文本聚类、分类过滤、正负面分析、自动摘要、关键词提取、文档去重、HTML正文提取等十余项功能。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

手机版|使用帮助|绿色BI论坛商业智能大数据交流社区 ( 粤ICP备09215901号-2   

点击这里给我发消息

粤公网安备 44049102496016号

GMT+8, 2017-11-22 19:13 , Processed in 1.357203 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表