资源下载
基于大数据时代的背景,本研究报告对数据挖掘这一课题进行了简单梳理,包括以下内容:数据挖掘的概念与研究概况。首先从数据挖掘的定义、分类、过程与功能四个方面介绍了数据挖掘;整理并分析了数据挖掘领域顶级会议ACM SIGKDD近六年的信息。
数据挖掘的算法与实现。按照数据挖掘应用的方向,从大数据、机器学习、社会网络、自然语言与统计数据分析五个方面介绍了数据挖掘的算法。
基于大数据的数据挖掘主要介绍了数据采集层、数据存储层、数据处理层和服务封装层四个层的基本架构,和部分大数据平台实例;基于机器学习的数据挖掘主要介绍了非监督学习方法与监督学习方法,重点是监督学习方法,包括训练集、验证集与测试集、决策树模式、kNN算法、神经网络、回归分析
社会网络中的大数据挖掘主要介绍了图的基本要素、图的度量算子,并从行为分析算法、社区发现算法等方面介绍了社交网络上的算法;自然语言中的数据挖掘先介绍了词的表示分析,并从语言模型与话题模型两个层面进行算法介绍。统计数据分析与前三个方面均有交叉,主要从数据描述性分析、回归分析、关联分析、聚类分析三个方面进行介绍。
最后具体分析了数据挖掘领域顶级会议SIGKDD最近几年在数据挖掘基础理论、社交网络分析和图数据挖掘、大数据挖掘等几个方面的国内外的主要研究成果。
数据挖掘领域专家介绍。基于AMiner数据,对数据挖掘领域专家进行深入挖掘和介绍。包括顶尖学者的全球与中国分布、迁徙概况、学者机构分布、h-index分析,并依据AMiner评价体系,从代表学者与近十年代表学者两个层面选取学者进行详细介绍。
数据挖掘的应用领域与发展趋势。数据挖掘无论是在科学领域还是工程领域、理论研究还是现实生活中,其应用都十分广泛,有着极为广阔的发展前景。本文对其在物流业、旅游业、零售业等相关领域的应用情况进行了介绍,并基于AMiner数据,对近期数据挖掘领域研究热点进行可视化分析,对未来数据挖掘方向进行了预测:隐私保护、可视化、与专业领域结合、多媒体数据挖掘等。
数据挖掘基本概念
数据挖掘(Data Mining),是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。数据挖掘的广义观点:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法。数据挖掘是一门综合的技术,涉及统计学、数据库技术和人工智能技术的综合,它的最重要的价值在于用数据挖掘技术改善预测模型。
早期数据挖掘并不是作为单独学科存在,追溯到30年前,Gregory I. Piatetsky-Shapiro(也是KDnuggets的创始人)等人于1989年8月在美国底特律的国际人工智能联合会议(IJCAI)上召开了一个专题讨论会(workshop),首次提出了知识发现(Knowledge Discovery in Database,KDD)这一概念。KDD涉及数据库、机器学习、统计学、模式识别、数据可视化、高性能计算、知识获取、神经网络、信息检索等众多学科和技术的集成,再后来的30年间KDD逐渐形成了一个独立、蓬勃发展的交叉研究领域。
后来经过若干年的培育,1995年,在加拿大蒙特利尔正式召开了第一届“知识发现和数据挖掘”国际学术会议KDD。1995年在美国计算机ACM年会上,开始把数据挖掘视为知识发现KDD的一个基本步骤。随后成立了ACM 专委会SIGKDD以及对应的国际数据挖掘与知识发现大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 简称SIGKDD),到目前为止SIGKDD已是数据挖掘领域的顶级国际会议。会议内容涵盖数据挖掘的基础理论、算法和实际应用,详见1.2近年SIGKDD概况。
数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、web数据,此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
以下为本报告部分截图
加入私享社群,这里更有料
版权声明及安全提醒:本文转自网络平台清华大学,文章仅代表作者观点,不代表「金融文库」立场。相关版权归原作者所有,「金融文库」仅提供免费交流与学习,相关内容与材料请勿用于商业。我们感谢每一位原创作者的辛苦付出与创作,如本转载内容涉及版权及侵权问题,请及时联系我们客服处理(微信号:JRwenku8),谢谢!