《Python数据挖掘入门与实践》

本书讲解了如何用Python语言进行数据挖掘。Python是一种通用型编程语言,它简单易学,上手快,有着丰富的第三方库,社区氛围友好。从数据采集、分析一直到应用开发层面,Python都有成熟的库。

资源下载

         关注「金融文库」微信公众号可第一时间免费下载本站所有资源

云计算、大数据、物联网,这几年很火。到现在为止,人们对云计算的激情已经回落到比较理智的水平,各种云基础设施已投入使用,支撑起关系国计民生的信息化应用。物联网还在建设4中,家电智能化、个人健康信息数字化、交通智能化等趋势在我们身边悄然推进。开放互联的概念不再囿于传统的互联网思维,我们生活所触及的一切正在被编织到一张包罗万象的大网之中。

它将会对社会产生何种影响,我们拭目以待。虽然大数据现在很火,各种大数据研究中心相继建立,但这只是刚刚开始。随着更多的人和设备接入互联网,随着人们对世界认识的加深和新工具的研发,数据规模将加速膨胀,超乎想象。大数据的春天才刚刚到来。数据采集能力上去之后,势必要求数据挖掘能力跟得上。

正如作者在第12章中讲到的,大数据带来的一个挑战就是,重要信息可能被垃圾信息湮没。由此我们不难推断出数据挖掘技术在发现、突显和传承人类文明方面将起到不可替代的作用。本书讲解的正是大数据时代的核心技能——数据挖掘技术,可以预见该项技术将发挥出越来越重要的作用。

本书讲解了如何用Python语言进行数据挖掘。Python是一种通用型编程语言,它简单易学,上手快,有着丰富的第三方库,社区氛围友好。从数据采集、分析一直到应用开发层面,Python都有成熟的库。

使用Python语言进行开发,无需过多关注语言细节,开发者可以将主要精力放到业务本身。书中使用IPythonNotebook作为开发环境,它将代码执行、富文本、公式编辑、绘图、多媒体等功能集合在一起,是科学计算和数据分析的好工具。

书中所涉及的数据挖掘对象很丰富,有Iris鸢尾花卉数据集、Ionosphere电离层数据集、NBA比赛结果、MovieLens电影评分数据集、古登堡计划所收集的图书、安然公司邮件数据集、博客语料、CIFAR-10图像数据集等。从这些分属于不同行业的数据集,也能一窥数据挖掘应用之广。此外,作者还介绍了从Twitter、Reddit网站采集数据的方法。

在算法方面,除了常见的决策树、朴素贝叶斯、支持向量机等,作者还介绍了最近几年非常热的深度学习。大数据、深度学习对计算能力要求很高,作者介绍了如何在亚马逊云主机上运行MapReduce任务。这本书由浅入深,以真实数据为研究对象,逐渐增大数据集规模,真刀实枪地向读者介绍了Python数据挖掘是怎么回事,并给读者进一步学习指出了多种可能的方向。

工程实践之余,作者还不忘介绍数据挖掘常用思路,毫不保留地把自己积攥的宝贵经验传授给读者。这一点我在阅读过程中,深有体会。正如作者自己在前言里所写的,书中不会涉及大量公式推导,所有的算法都是以很直观的形式向读者介绍,所以即使你缺乏一定的数学基础,只要肯用功,也不用担心自己读不懂。

回到七八年前,当我还是一名英语专业学生的时候,我压根不会想到有一天会学编程,会去翻译这样一本书。后来有幸读了计算机辅助翻译这样一个专业,才开始接触到计算机知识,但是当父亲跟我提起数据建模时,我还是一脸茫然。

研究生几年,系里为我们这些非计算机背景的学生开设了Python编程课。从那时起我就有事没事学点Python,一开始是照着NaturalLanguageProcessingwithPython的示例敲,自那时起五年之后我竟想起给NLTK提交几处微小的改动。

大约是为了激励我这个后生继续为他们服务,“居心叵测”的StevenBird竟把我加入到贡献者名单里。去中关村图书大厦的时候,我常常喜欢浏览一下语言与程序设计书架上有没有关于Python的新书,碰到喜欢的就翻翻看,这几年眼看着Python书多了起来,很是欣慰。

此外,我去北大、北外旁听过计算语言学、概率统计等课程,去北航旁听过计算机系统基础,看过Udacity的统计学入门和吴恩达老师的机器学习课程视频,兴致来了也曾捧着Rosen的《离散数学及其应用》读上几页。

工作中,经常帮同事写个简单的Python程序处理数据,最近还帮他们爬取了一个网站。PyCon北京,我连着去了三四届了,每次都有或多或少的收获,2015年我见过一位大神行云流水般演示用pandas处理数据,很受震撼。以上就是我与Python、数据挖掘的交集。

我想说的是,不要再用上学时读的那个专业的思维局限自己的发展,学科的界限在模糊,融合的趋势在增强,数学的重要性在提升。提到数学,今天还看了一个TED演讲视频,说的是借助计算机改变传统数学教育方法。这种理念什么时候能应用到一线教学,非常值得期待。生在这个充满变革的时代,倍感幸运。

本书目标读者

本书是写给那些想把数据挖掘技术应用到实际项目中,却不知道怎么开始的程序员。

如果你没有编程经历,我强烈建议你在学习本书之前,至少先了解一下编程的基础知识。本书直接略过这部分内容,也不会把过多精力放在代码的具体实现上。也就是说,简要学习一下编程基础知识再来学习本书就行。本书不对你的编程技能做过高要求,所以你没必要先成为编程高手!

我强烈建议在阅读本书前最好先积累一些Python编程经验。如果没有的话,也没关系,但是你可能需要先瞧瞧Python代码是怎么回事,可能的话先看看IPythonNotebook的教程。用IPython6Notebook写程序,跟用其他编辑器写程序(比如使用功能全面的IDE编写Java程序)有一定区别。

《Python数据挖掘入门与实践》
资源下载此资源仅限注册用户下载,请先
全站资源VIP会员免费下载,普通用户单次下载请登录后通过微信支付打赏,1金币=1RMB

版权声明及安全提醒:本文转自网络平台网络,文章仅代表作者观点,不代表「金融文库」立场。相关版权归原作者所有,「金融文库」仅提供免费交流与学习,相关内容与材料请勿用于商业。我们感谢每一位原创作者的辛苦付出与创作,如本转载内容涉及版权及侵权问题,请及时联系我们客服处理(微信号:JRwenku8),谢谢!

(0)
上一篇 2018年11月3日 下午10:29
下一篇 2018年11月4日 上午7:10

相关推荐