设为首页收藏本站

绿色BI论坛商业智能大数据交流社区

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 155|回复: 0

Nlpir Parser大数据智能平台敏感词搜索

[复制链接]
发表于 2017-5-3 15:51:04 | 显示全部楼层 |阅读模式
  在网络日益发达的现在,也伴随着有益信息与造成不稳定因素的信息也随之日益泛滥,从而产生了大量的信息,这些信息中有一部分是有用的,而也有许多事垃圾信息。这些垃圾信息不会给网站带来额外的排名提升,只会给网站带来更多的负面影响,比如垃圾流量;网站用户体验降低;甚至影响网站的关键词排名。
  敏感词过滤在各互联网是比较常见的操作,也有很多算法来处理这个问题,而在传统的算法很难把敏感词过滤掉或查找出来,随着自然语言技术的不断发展和完善,对敏感词的搜索和过滤起来重大作用。
敏感关键词扫描.jpg
  Nlpir Parser大数据智能平台敏感词过滤系统由灵玖软件研制,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。并提供二次开发接口,可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
  Nlpir Parser大数据智能平台敏感词过滤系统扫描过程:
  第一步:业务单位准备敏感词列表(可选,如不设置则默认为系统内置敏感词)
  由监管部门整理出敏感词文本文件,每行设置一个关键词信息,具体格式如下:词 类别 权重。
  说明如下:
  1.关键词与类别完全由自己设置,不限制长度、格式与编码;
  2.当前系统支持最大类别数为255个;
  3. 权重标准建议为1-10。10表示最大,1表示最小。
  4. 同一个词可以设置为不同的类别。
  第二步:导入自定义的敏感词文件(可选,如不设置则默认为系统内置敏感词)
  通过导入关键词即可,也可以使用批处理命令ImportUserDict.bat实现。
  1000个关键词可以实现1分钟内导入,1万关键词5分钟以内,10万关键词约需30分钟,百万级别关键词的时间略长,预计需要半天的时间。导入的词表会以特定的格式加密存储。不会泄露用户的业务机密。
  第三步:扫描内存或者文件
  通过上面可以选择待扫描文件夹,即可实现数据的快速实时扫描。适合于小规模数据的测试。
  大规模数据建议采用批处理命令KeyScanner.bat配置实现。待扫描文件的格式目前只支持文本文件,格式。批量扫描的结果输出到指定的结果文件,输出敏感的行号,并给出敏感的内容。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

手机版|使用帮助|绿色BI论坛商业智能大数据交流社区 ( 粤ICP备09215901号-2   

点击这里给我发消息

粤公网安备 44049102496016号

GMT+8, 2017-6-25 04:35 , Processed in 1.279202 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表