第 53 节 数据挖掘:什么是数据挖掘?(第1页)

数据挖掘:什么是数据挖掘?

大家好,我是姚余梁,欢迎来到我的生活中的管理学节目。

今天我给大家讲一讲什么是数据挖掘?

我们正处在一个信息大爆炸的时代,主要表现在大量信息的产生并以数字化的方式被记录下来。

之所以会有信息大爆炸,我在前面的节目里面都有讲过,一个主要的原因是信息技术的成本大幅下降,并且迅速广泛地普及。

十几年前、二十几年前,一个个人电脑的硬盘大概也就是一个 G 左右,今天硬盘的大小都是几百个 G 甚至上 T,而价钱上基本上没有变化,不但没有变化,甚至有所下降。

正是信息技术的普及造就了信息大爆炸的时代,信息多了是好事也是坏事。好事是因为信息可以帮助更好地决策,坏事是因为信息太多了,如何找到有用的信息又变成了一个难题,如大海捞针一般。

在今天的信息大爆炸的年代,代表信息的数据就好像大海,而要在广阔的大海里面找到想要的某一条信息或知识,也是一件很难的事情。所以说大海捞针的「捞”字其实很形象地刻画了数据挖掘的过程。

简而言之,数据挖掘就是从存放在数据库或者数据仓库中的大量的数据中获得有效的、新颖的、潜在有用的、最终可以理解的模式的过程。

这个定义说出了数据挖掘的四个基本特征,一个是有效,二是要新颖,三是要有用,四要可以理解。这四个基本特征缺少一个就不是严格意义上的数据挖掘。

下面我给大家一个一个讲一下。

有效是指数据挖掘过程所使用的方法是正确的。

无论是用统计抽样、假设验证、还是人工智能、模式识别还是机器学习等等的方法,都能够正确的使用。有了数据做正确的数据分析,这是最基本的要求了,但是即便是最基本的要求,有的时候一不小心也是有可能做错的。

比如我给大家举一个很简单的例子,有美国的杂志它公布了每个月、每个航空公司有多少个乘客对他的公司不满意。这个杂志把这些统计数字放在一起,而且把航空公司按从高到低进行了排名,无非就是想说哪个数字越高、顾客的抱怨越多,那么航空公司越不好。比如说阿拉斯加航空公司是 13,有 13 个人抱怨,那么西南航空公司是 22,有 22 个人抱怨。读者一看的话,西南航空公司不好,因为他的顾客抱怨比较多。

可实际是这样吗?实际上不是这个样子的,
(本章节未完结,点击下一页翻页继续阅读)