当我们谈论数据分析的时候,都在讲些什么呢?
这里我可以把数据分析分成三个重要的组成部分。
- 数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。
- 数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能BI。
- 数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果。
数据采集
在数据采集部分中,我们通常会和数据源打交道,然后使用工具进行采集。
在后面的文章中,我们会熟悉哪些是常用的数据源,以及如何获取它们。在工具使用上,主要是针对Python爬虫。掌握Python爬虫的乐趣是无穷的。它不仅能让你获取微博上的热点评论,自动下载例如“王祖贤”的海报,还能自动给微博加粉丝,让我们掌握自动化的快感。
数据挖掘
第二个部分是数据挖掘,它可以说是知识型的工程,相当于数据分析中的“算法”部分。首先需要知道它的基本流程、十大算法、以及背后的数学基础。
这一部分我们会接触到一些概念,比如关联分析,Adaboost算法等等,后面的每一篇文章将会依次介绍到这些概念及python实践。
每讲完一个算法原理,我都找一个项目的实战,我精选了一些典型的、有趣的项目,比如对泰坦尼克号乘客进行生存预测、对文档进行自动分类、以及导演是如何选择演员的等等。
掌握了数据挖掘,就好比手握水晶球一样,它会通过历史数据,告诉你未来会发生什么。当然它也会告诉你这件事发生的置信度是怎样的。
数据可视化
第三个就是数据可视化,这是一个非常重要的步骤,也是我们特别感兴趣的一个步骤。数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。
如何进行数据可视化呢?有两种方法。
第一种就是使用Python。在Python对数据进行清洗、挖掘的过程中,我们可以使用Matplotlib、Seaborn等第三方库进行呈现。
第二种就是使用第三方工具。如果你已经生成了csv格式文件,想要采用所见即所得的方式进行呈现,可以采用tableau、DataV、Data GIF Maker等第三方工具,它们可以很方便地对数据进行处理,还可以帮你制作呈现的效果。
数据采集和数据可视化的原理简单,容易理解。这两个部分注重的是工具的掌握,关键是工具的使用和应用的实战。
修炼宝典
学习数据分析其实是从“思维”到“工具”再到“实践”的一个过程。今天我会从更多的角度来和你分享我的学习经验,我们可以把今天的内容叫作“修炼宝典”。
借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。
很多人存在对“认知“的误解,认为认知不就是概念么?那么你有没有想过,针对同一个概念,为什么不同的人掌握的程度是不一样的呢?
我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程,就是认知的过程。