我们专注于行业动态三维虚拟仿真服务

标题: 为什么大数据项目总失败?你没问对这四个问题
浏览数
 当今时代,数据已经成为我们策划业务的焦点手段。事实上,据全球市场情报公司IDC估量,到2020年,全球耗费在数据阐明项目上的支出将到达2743亿美元。然而,个中的大部门钱并没有获得公道地操作。据高德纳咨询公司(Gartner)的阐明师尼克?赫尔德克的估算,高达85%的大数据项目是失败的。 问题的重点在于,呈此刻电脑屏幕上的数字具有一种非凡的权威感。一旦数据通过大量的数据库被提取出来,并通过巨大的阐明软件举办阐明,我们就险些不再会去体贴这些数据毕竟来自那边,它们毕竟是如何被批改的,更不会去体贴它是否真正合用于我们的研究方针了。 为什么大数据项目总失败?你没问对这四个问题!   因此,实际上,要想从数据中获得有用的谜底,我们便不能只看到它外貌的数据值。我们需要学会如何提出越发深层的问题。我们尤其需要知道这些数据是如何得出的,我们用了什么样的模子来阐明它们,以及在这一阐明进程中毕竟漏掉了什么。最重要的是,我们需要逾越仅仅利用数据来优化操纵措施的做法,并学会操作数据来构想新的出产大概性。   我们要问的第一个问题是:   一、数据是如何得出的?   听说,数据一词是“奇闻轶事”的复数形式。英语中有一句俚语,叫“许多奇闻轶事聚在一起就成了数据”。简直,真实世界的各类事件,如生意业务记录、诊断功效和其他诸多相关信息,都被一一记录下来,并存储在大型处事器之中,这就是数据。但险些没人会存眷这些数据毕竟来自那边,因此,很是不幸的是,我们收集到的数据的质量和处理惩罚方法大概会有很大不同。事实简直如此,高德纳咨询公司最近的一项研究展现出,由于收集到的数据质量太差,每个公司平均损失竟然高达1500万美元。 一般来说,数据的精确性会受到工钱错误的影响,譬喻当低人为和动力不敷的零售职员查抄库存时,他们收集到的数据就往往并禁绝确。然而,纵然数据收集进程是自动化的,也仍然会有许多的错误来历,好比手机信号塔的间歇性停电就会造成错误;在金融生意业务清算进程中运用自动化的信息收集方法同样大概发生错误。 质量过差的数据和用于错误语境的数据大概比基础没有数据更为糟糕。事实上,一项研究发明,65%的零售商库存数据是禁绝确的。而自欧盟通过并刊行了严格的GDPR(通用数据掩护条例)数据尺度以来,另一个日益重要的问题逐渐表现:在收集数据时是否获得当事人适当的同意。 因此,不要简朴地认为你所拥有的数据是精确的和高质量的。你首先必需体贴它是从那边得来的,以及它是如何维护的。我们越来越需要像做金融生意业务一样,小心审慎地审查我们的数据处理惩罚方法。   二、数据是如何阐明的?   纵然数据获得了精确和精采的维护,数据阐明模子的质量也会有很大差别。一般而言,各类数据阐明模子是通过开源平台(如GitHub)组合在一起,并要为特定的阐明任务举办从头的组合陈设。可是,过不了多久,人们就健忘该模子毕竟来自那里,也不再体贴它毕竟是如何评估特定的数据荟萃的了。 雷同于这样的失误要比你所能想象到的更为常见,而且有大概造成严重的损失。我们可以回首一下如下案例:曾经有两位著名的经济学家颁发了一份事情陈诉,告诫说美国债务即将面对一个要害的节点。他们的事情激发了一场政治风暴,但事实证明,他们犯了一个简朴的Excel错误,导致他们夸大了债务对GDP的影响。这就是对数据处理惩罚方法的失误造成的。 跟着数据处理惩罚模子变得越来越巨大,并纳入了更多的数据来历,我们也越来越能看到,在数据模子的练习上不绝呈现更为严重的问题。最常见的错误之一是太过拟合,这概略意味着,用来建设模子的变量越多,模子自己就越难变得普遍有效。而在某些环境下,过量的数据会导致数据泄漏,在数据泄露中,练习数据和测试数据搅和在一起了。 这些范例的错误甚至会困扰最为先进的公司。对此我们仅仅举出两个最为突出的例子就足够了:亚马逊和谷歌,最近与模子成见有关的丑闻被高度曝光了。当我们处理惩罚数据时,我们需要不绝地向我们的模子提出困难:它们适合于我们的利用目标吗?它们是否思量到了正确的因素?模子所输出的数据是否真实地反应现实世界中产生的工作?   三、数据无法汇报我们什么?   数据模子,就像人类一样,它们老是倾向于按照最可用的信息来做出判定。可是,有时你所缺失的数据往往会像你所拥有的数据一样影响你的决定。我们凡是将这种范例的可用性毛病与人类决定接洽起来,但人类设计者往往将这种毛病通报给自动化系统。 譬喻,在金融业中,那些拥有大量信贷汗青的人往往比那些没有信贷汗青的人更容易得到信贷。后者凡是被称为“瘦档案”客户,他们发明本身很难买车,很难租赁衡宇,也很难申请到信用卡。(我们中的一员,一位名叫格雷格的同事,在外洋糊口15年后回到美国时,就曾亲身经验了这个问题)。 然而,缺少信贷汗青并纷歧定表白信用风险很高。而信贷公司最终往往仅仅因为缺乏相关数据而放弃潜在的盈利客户。最近,益百利公司开始通过应用Boost措施来办理这一困难,该措施通过查询消费者的日常付出勾当来使消费者得到信用评分,好比按期的电信充值和民众事业付出等等。迄今为止,已有数百万人在该措施上挂号注册了。 因此,要问一问你的数据模子大概漏掉哪些方面,这个问题是极其重要的。假如你正在打点你所丈量的数据,你就要确保你所测得的数据真实地反应了现实世界,而不可是一些最容易收集的僵死的数据。
友情链接
Top