NLPIR大数据分析通过知识图谱展现挖掘内容

   2019-07-02 IP属地 北京1

随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。

  其中,当前知识呈爆炸式增长,显得非常丰富,可是用到它时方恨少,知识又格外稀缺;我们生活和淹没在知识海洋中,却难以选择所需要的知识。现在,一种有效获取知识、发现知识和探测知识前沿的新领域与新手段——以知识单元为分析基础的知识图谱和知识可视化方法,正在蓬勃兴起。由于视觉在人类感知外部信息中起绝对主导的作用,图像又是视觉信息的第一要素,知识图谱能够将抽象信息形象地展现出来,可谓“一图胜万言”。知识图谱在科技情报领域得到越来越广泛的应用,能够引领我们从海量文献情报中有效把握关键文献,进入学科前沿领域,破解“知识悖论”。知识图谱不仅创新了科技情报分析的模式,而且改变了人们观察世界的方式。

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的KGB知识图谱引擎,KGB知识图谱引擎(Knowledge Graph Builder)是基于自然语言理解、汉语词法分析,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,大数据语义智能分析与知识推理,深度挖掘知识关联,实时高效构建知识图谱。

  KGB知识图谱引擎功能介绍

  一、文档提取

  1、轻松解析多种格式文档:KGB知识图谱引擎,可轻松解析多种格式、多种版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。对于图片信息,OCR可自动识别并抽取图片中的文字信息。

  2、结构化表格数据知识抽取:KGB能够自适应解读并抽取结构化表格数据,实现知识的快速生成。

  3、非结构化文档知识抽取:KGB知识规则引擎,快速定位非结构化文档中的关键信息(主体、时间、金额等),高效抽取知识。

  二、知识关联

  KGB知识图谱引擎深入挖掘知识关联,将知识实体链接为有意义的知识事实。并具有强大的知识推理能力,推理暗含的知识与结论,丰富知识图谱。

  三、知识推理

  KGB具有强大的知识推理能力,推理出暗含的知识,获取更多知识与结论,丰富知识图谱。

  1、演绎归纳推理(一般—特殊):KGB能够完成由一般特征到特殊个案的演绎知识推理和由特殊个案到一般特征的归纳知识推理,扩充大量暗含的知识,丰富知识图谱。

  2、知识计算(数值知识的加减乘除计算):对于数值型知识,KGB能够识别并对数值型知识进行加减乘除的知识计算推理,并可对知识计算的准确进行核查。

  3、知识库检查:KGB能够实时检查知识库,纠正知识错误与冲突,保证知识图谱正确与一致性。

  随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。

举报收藏 0评论 0