设为首页收藏本站

绿色BI论坛商业智能大数据交流社区

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 287|回复: 0

灵玖软件Nlpir Parser语义挖掘平台智能文本分析

[复制链接]
发表于 2017-5-17 16:38:42 | 显示全部楼层 |阅读模式
  文本分析是利用自然语言处理(NLP)技术分析文本文档、社交媒体、网页等文本数据的一种应用。随着电子商务、数字营销和大数据技术的高速发展,数据驱动的文件管理、用户体验管理已经成为企业核心竞争力,而文本分析则是用户体验管理的关键应用。而对传统文本文档这些相对增量不大、总量稳定的文本数据进行分析,则凸显其知识、情报、价值挖掘,尤其是对海量文本的简化、标记化、知识化,则是构建专家系统、人工智能、知识图谱的基础。
  灵玖软件Nlpir Parser语义挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。以下是主要解决的问题:
  第一、建立文本模型并进行动态更新。建立用户兴趣模型,首先,要收集文本行为数据,其方式主要有显式和隐式两种;其次,用基于向量空间模型(VSM)来表示文本数据;最后,处理浏览记录挖掘用户知识点的关键词,通过回溯所有关键词的生成算法动态建立知识库。第二、对文本篇章进行智能分析。首先,需要建立领域的知识库,并且人为设定每两个个知识点之间的相似包含关系;其次,从网页HTML源文件中提取文章的标题和正文,用正则表达式匹配的方法获取标题,用分块提取汉字的思路分析提取出文章正文,剔除图片、贴吧、广告等;最后,将提取出的文章进行分词和分析。
  灵玖软件Nlpir Parser语义挖掘平台主要的功能系统:
  1 汉语词法分析:汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
  2新语自动发现:新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
  3 文本内容去重:文本内容去重中间件能够对文本进行查重处理,同时能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。灵玖采用高效的文章指纹算法,能够在极短的时间内与历史指纹库进行对比,从而发现重复记录。
  4 文本分类过滤:文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
  5 文本聚类:文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。
  6 文档关键词提取:文章关键词提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
  7 文本摘要:自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。
  8 网页正文提取:网页正文提取中间件能够实现HTML格式的精确分析,自动分辨出网页是属于索引页面还是内容页面。对于内容页面,能够高效剔除HTML标签和导航、广告等干扰性文字,返回实际有价值的正文内容。特别适用于大规模互联网信息的高效预处理和分析。
  9 全文搜索:全文搜索中间件内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

手机版|使用帮助|绿色BI论坛商业智能大数据交流社区 ( 粤ICP备09215901号-2   

点击这里给我发消息

粤公网安备 44049102496016号

GMT+8, 2017-10-23 17:59 , Processed in 1.248003 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表