杨长春

作者:发布时间:2023-04-26

学科方向简介

互联网数据正在以惊人的速度在全世界范围内呈现指数级增长的态势。而数据作为客观世界在信息世界中的抽象表达,其必然带有普遍的关联性。如何从海量的异构数据中挖掘实体及其语义关联和属性,并进行知识的融合,进而构建大规模的知识图谱,为语义搜索、深度问答、文本理解等应用提供有力支撑,已成为数据管理、数据挖掘和信息抽取等领域的一个重要研究方向。相比于传统的数据集成,在面向大规模的数据和知识融合过程中,融合算法的效率、多源数据的数据质量评估和基于语义的数据和知识融合等都给现有的数据集成和知识融合技术带来了巨大的挑战。数据挖掘与知识工程研究方向侧重大规模数据和知识的抽取、融合及应用等诸多方面,涉及到数据管理、信息抽取和知识发现、推理等多个交叉学科领域,研究主题包括数据与知识抽取技术、歧义性消除、数据与知识融合技术、数据与知识建模、关联知识库的应用等。

国内外发展现状

在计算机性能和数值计算能力大幅提升的大环境下,国内外在数据挖掘与知识工程的研究上产生了许多新成果,它们大多关注在当前这个信息爆炸的时代如何高效发现、获取和应用数据背后的隐含价值。数据挖掘技术在过去的十年间更加繁荣,数据挖掘方法更容易在大型数据集和以业务为中心的任务中实现,从而为知识工程的兴起和发展提供了有力的支持和保证。当前数据挖掘主流方法(异常检测、聚类、分类、关联学习、回归等)在多种任务中都发挥着重要作用。例如,异常检测技术可以帮助公司防范网络入侵和数据泄露;回归模型结合知识图谱和知识推理能够很好地进行趋势预测。知识抽取和融合方面出现了大量新技术,例如以TransE为代表的表示模型,它们支持构建高质量知识图谱。知识推理在传统的基于产生式规则的推理方法的基础上,发展出了基于事件的推理模型、基于表示学习的推理模型等新方法,从面向确定性问题扩展到面向非确定性问题。

学科平台、实验设备

本实验室配备有高性能集群计算机系统,可以处理大规模数据和进行超级计算,具备在本领域开展科学研究的科学计算设备。本团队已经搭建了一个领域知识库构建平台,在已有项目中成功构建了一个考古知识库和一个旅游知识库,同时该平台能够引入常识知识库,为需要结合领域知识库与常识知识库的研究提供支持。本实验室具有Tableau Software平台,能够对数据进行快速且全面的分析及可视化。另外我校图书馆资源丰富,中外文电子数据库较为齐全,同时本实验室拥有IEEE Xplore电子书数据库账户,能够及时获得海内外最新研究进展,具备在本领域开展科学研究所需的文献资源。

学术队伍、科研、研究生培养情况

数据挖掘与知识工程团队现有成员9人。其中教授职称2人、副教授职称3人、讲师4人,高级职称比例为56%;团队中,4人具有3年以上海外学习、工作经历,团队梯队设置十分优秀。近5年,团队整体学术输出良好,共计产出国际期刊、会议、核刊论文50余篇;申请发明专利16项;软件著作权3项;国家自然科学基金面上项目1项,省、部级以上项目5项,市厅级项目6项,产学研项目10余项,累计科研到款约1400万。5年内,团队共计培养研究生48人,除6人在读以外,其余全部达到硕士学位标准正常按时毕业。在研究生培养过程中,共计以学生为第一作者(通讯作者)发表核心期刊论文40余篇,有6名硕士研究生拿到了省级、部级以上项目。团队始终保持良好、和谐的科研氛围,团队整体关系融洽,科研态度积极、自律。