设为首页收藏本站

绿色BI论坛商业智能大数据交流社区

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 308|回复: 0

Nlpir Parser大数据智能平台敏感信息过滤

[复制链接]
发表于 2017-5-8 16:47:33 | 显示全部楼层 |阅读模式
  当今时代是互联网时代,互联网作为这个时代的主题使得这个时代具有资源共享性和信息传播性的特点,给人们的生活带来了便利。网络在为人们认识世界带来便利的同时也为有害信息的广泛传播提供了便捷且广泛的途径。人们在享受互联网带来的便利的同时,也常常会受到非法信息的滋扰。因此信息安全问题对于维护网络环境的健康有着十分重要的意义。
  由于敏感信息过滤必须建立在敏感信息的高效识别基础上,因此本文将从三个方面入手来解决该问题:一是互联网敏感文本的理解识别;二是融合文本进互联网敏感网页进行识别;三是实际过滤系统的设计与构造。
  Nlpir Parser大数据智能平台敏感信息过滤系统是灵玖软件研制,针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。
NLPIR大数据搜索与挖掘共享开发平台.png
  Nlpir Parser大数据智能平台敏感信息过滤系统具备四大特色:
  1、基于PDAT专利的多关键词实时扫描算法       
  我们采用了北京理工大学的PDAT专利算法,可以针对百万量级关键词列表实现单机20MB/s的实时扫描速度;
  2、关键词的多模式智能匹配
  用户设定关键词后,系统可以自动识别扫描不同编码、繁简体、全角半角、中间加各类干扰噪音等变体,及繁体形式。
  3、内置了丰富的敏感知识库
  目前已经自动内置了十大类型的敏感关键词词典。这些词典几乎囊括了所有行业里面的敏感关键词,从而为净化互联网空间提供知识储备。
  4、支持用户增量添加百万量级业务敏感词库
  支持客户自定义导入用户词典,自定义敏感类别与权重。可以支持能够提供不同行业的敏感扫描结果。
  Nlpir Parser大数据智能平台敏感信息过滤系统工作流程:
  第一步:业务单位准备敏感词列表(可选,如不设置则默认为系统内置敏感词)
  由监管部门整理出敏感词文本文件,每行设置一个关键词信息,具体格式如下:词 类别 权重。
  说明如下:
  1.关键词与类别完全由自己设置,不限制长度、格式与编码;
  2.当前系统支持最大类别数为255个;
  3. 权重标准建议为1-10。10表示最大,1表示最小。
  4. 同一个词可以设置为不同的类别。
  第二步:导入自定义的敏感词文件(可选,如不设置则默认为系统内置敏感词)
  通过上述界面的导入关键词即可,也可以使用批处理命令ImportUserDict.bat实现。
  1000个关键词可以实现1分钟内导入,1万关键词5分钟以内,10万关键词约需30分钟,百万级别关键词的时间略长,预计需要半天的时间。导入的词表会以特定的格式加密存储。不会泄露用户的业务机密。
  第三步:扫描内存或者文件
  通过图1界面可以选择待扫描文件夹,即可实现数据的快速实时扫描。适合于小规模数据的测试。
  大规模数据建议采用批处理命令KeyScanner.bat配置实现。待扫描文件的格式目前只支持文本文件。
  批量扫描的结果输出到指定的结果文件,输出敏感的行号,并给出敏感的内容。
    互联网是当今最大的信息资源库之一,其信息发布的及时性与全球互联性使得其对整个社会的发展起着巨大的影响。由于互联网相关技术飞速发展,它已经影响到了日常生活的方方面面,对整个社会起着革命性的影响。敏感关键词的处理对互联网的净化有着非常重要的作用。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

手机版|使用帮助|绿色BI论坛商业智能大数据交流社区 ( 粤ICP备09215901号-2   

点击这里给我发消息

粤公网安备 44049102496016号

GMT+8, 2017-10-23 17:59 , Processed in 1.185603 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表