![]() |
|||
![]() |
|||
>> 演讲笔录—— 李萱
谢谢大家今天能来到这里我们一起分享有关数据挖掘,特别是基于数据挖掘的技术怎样来提高我们进行数据营销的效果,最主要目的是帮助我们业务能够增长。 益百利是全世界最大的信息技术公司,在16个国家拥有征信局,有很强的数据处理能力,有数据分析和挖掘的能力。和新华信形成战略合作就是要在这个方面,在我们国家新兴的基于数据分析、挖掘来帮助我们做业务这样一个领域里,在刚刚兴起的时候能够介入进来,能够给大家提供国际上最先进的理念、方法和产品服务,把大家的业务做到更高的层次,从而把我们在国外积累的这么多年的经验,和新华信在国内积累的经验结合起来,在这个领域里有很大的合作空间。 今天给大家介绍的内容主要是三部分,第一部分是什么是数据挖掘。从数据挖掘的角度我们要深入到挖掘的过程,我基于数据的决策,不是拍脑门的。 什么是数据挖掘?数据挖掘是从大型数据库、数据仓库中自动地找寻出隐藏着有预测性信息的过程,这是一种隐形统计学方法。隐藏的意思就是说隐藏在数据里面,隐藏是因为数据量很大。如果只有十条数据,一看就看清楚了,不用隐藏,都在那儿。如果有上亿条信息的时候,你就没办法看得很清楚,看到上边看不到下边,好多信息就是非直观的不明显的。预测性就是说我们通常做数据挖掘的时候,我们脑子里面有一个期望,不一定是现实,我这些数据过去发生了,明天还会发生,要不然的话我做数据挖掘这个事就像一个癖好,没有目的。我希望过去发生的事将来还能重复,这样有意义。大家在市场里想预测明天怎么走,这就是一个预测。 什么属于数据挖掘的方法?比如像决策树、神经网络、规则推理、最近邻居、基因算法,这属于典型的数据挖掘方法。什么不属于数据挖掘的方法?有时候大家概念会混淆,像数据仓库、数据库报表、在线分析处理、数据视觉展现,这些都不是典型的数据挖掘的方法。包括一些报表的方法,都不是数据挖掘的方法。 数据挖掘常用的领域很多。市场营销里面包括直邮、客户获取、客户保留,是我的客户有谁要走,我要早知道,就可以防止他的流失。数据挖掘用以解决的问题类型,我们把它分成几类。有一种是分类、分群,常见的在金融领域里是0/1型,你是好的还是坏的,你是走的还是留下的,你是买了东西的还是没买东西的。还有一种是多重类别选择,比如好中差、高低矮,有多个类型的产品可能分成五类、十级,都可以按类型来做数据挖掘的方法。还有一种是预报,比如天气预报是典型的,什么样的温度,什么样的下雨概率。还有一种相关规则抽取,比如我有市场购物篮的分析。还有一些市场分析是发现次序规律,主要是在海量信息下、交易领域里有很多规则,比如使用信用卡的时候,升高一个额度之后你观察到他开始付不上款,最后成为坏账。如果在营销领域里看到他买了一个高端的产品,又买了一个低端的产品,又买了高端的产品,这就是高低高。或者这个人永远买高端产品,或者这个人永远买低端产品,这就是找模式次序的方法。 数据挖掘中模型构件过程分类。我们有监控型的,一种是可控制的,这个边界给我定义的是业务过场。在我们这个业务里,举个例子,我做一个营销的计划,有的人、有的厂家买了我推销的产品,有的没买我推销的产品,我业务的目标实际是想看谁买我的东西。所以在我做数据挖掘的时候,我脑子里有非常明确的目标。未监控的,通常情况下就是说我有一个规则和方法扔给海量数据库,我让它自己跑,跑出来最常见的模式、规则,从大到小,从高到低列出来。大家听说啤酒和尿布的理论发生了,很多时候是漫无目的的。为什么尿布和啤酒联系在一起,原来这些男人下班之后,老婆打电话让他带尿布,正好带一瓶啤酒回家。有没有必要把尿布和啤酒搁一块或者离得越远越好。通常大家想象这个规律是没用的,你发现的这些东西漫无目标的很多。 什么是预测模型?就是一个黑箱。在国内破产法还没有出来。国外破产法有规定,你可以从万劫不复中跳出来,允许你破产。在这种情况下,我们要预测什么样的人在什么样的情况下他有可能会破产,像这种模型有很多变量,这些变量就是数据。出来的结果,我想知道这个人会不会破产,这些变量可以是他的年龄,现在欠多少钱,也可能是眼睛的颜色,谁知道呢,要发掘之后才知道。你发现绿里偏灰的颜色就会破产,通常情况下可能不会。需要采集到很多过去和现在的信息,因为这是用过去和现在的行为通过建模的方法找到和今天的关系。 如何判定预测模型的优劣。我们对于模型的要求主要是精确性,大家对于基尼指数可能比较熟悉,可以判定模型是不是精准。还有稳定性,你昨天发生的事预测今天,今天发生的事预测明天,明天发生的事预测不了后天,那这个模型还是白做,一定要有一定的稳定性。好的模型要易于解释,这个模型出来之后是一堆变量、一堆数学公式摆在这儿。如果没法解释,那你没法说服你的老板、出钱的人把模型装到系统里帮助做业务。特别模型出来以后,你使用的变量跟预测的东西正好相反,那时候更麻烦了。还有模型的构建方法,从最易的到最难的,决策树、规则推理、回归模型、神经网。 在一个现实世界里,这个图是基于数据要做很多支持。数据仓库设计的时候不是基于要做数据库营销或者基于数据的策略、基于信息策略的方式,所以最后产生营销的结果和客户产生的结果也要进数据库。数据分析这块也要和数据库发生关系,产生很多数据的相互交互。这边天天都在着火,但是没法解决问题。一个理想的世界应该是这样的,它是在循环往复的,每个会有相应的业务部门跟他勾连,我就是帮他做业务的。这个业务只和业务客户发生关系,客户的结果会反馈回来。天天做、月月做、年年做这个过程。如果你做这样的一份工作,那么我要恭喜你,你不会失业,这个事情是永远做不完的,。 基于信息的决策——三层架构。底层是数据库、数据仓库系统,中层是预测模型,高层是业务决策。三层架构之间关系非常重要,通过跟客户来探讨这个问题,包括跟美国也是一样,困惑大家的一个问题,我怎么设计这个东西,我设计出这个东西之后将来怎么用,苦于将来不知道怎么用它,你不明确将来怎么用它的话,现在设计肯定有问题,设计出来的东西不一定是将来要做的业务。所以一定要花时间、花精力分析清楚、搞清楚,然后设计出来一个能满足业务需求的体系,这是非常关键的问题。面临很多基于数据的企业。 最后要讲的就是两种方式、两种结果。一种是闭着眼睛来做营销,就是这个方式。我挑这么多人,在美国是直邮,就是发信。在国内是打电话、发信。在这个基础之上,回来用这个东西的人,通常情况下并不一定是你想要的人,这是问题。因为你不知道什么样的人你想要,只是从大众里抽这么多人你发给他。通常是你不想要的人倒接受了,这样你永远处于一种劣势,你做了事,回来的东西又不是你完全想要的。你采取另一种有计划的方式往下做,你先做一个测试,在这个基础上做模型,你知道你想要什么样的人,至少我要付我账的人,不想要赖账的人,而且要喜欢我产品的人,在这种情况下,你用这个模型再到人群里抽,它就跟以前拍脑门的人不一样。你做数据挖掘的工作是有一个平台可做的,业务需要你的支持来完成,在这种情况下才能形成良性的基于数据库营销的体系。 我今天就讲到这儿,一会儿还有时间来答疑,再进行交流。谢谢。
|
|||
|