NLPIR-Parser智能语义技术为数据挖掘提供新动力

　　近十几年来，随着数据库系统的广泛流行以及计算机技术的快速发展，人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等，特别是网络系统的流行，使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题：第一是信息过量，难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致，难以统一处理。面对这种状况，一个新的挑战被提出来：如何才能不被信息的汪洋大海所淹没，从中及时发现有用的知识，提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

　　数据挖掘是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。

　　数据挖掘包括许多步骤：从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化，然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。

　　数据挖掘技术本身就是当前数据技术发展的新领域，文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意，文本挖掘便日益重要起来，可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。

　　北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR-Parser大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

　　NLPIR-Parser大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。

　　随着云计算、移动互联网以及物联网等技术的发展和完善，相信大数据在各个领域的应用会越来越广泛和深入，相关的研究也会越来越全面和深入，在信息管理领域，综合应用数据挖掘技术和人工智能技术，获取用户知识、文献知识等各类知识，将是实现知识检索和知识管理发展的必经之路。