龙空技术网

数据科学与数据分析有什么区别?

Java从算法到架构 287

前言:

现时大家对“java的遗传算法概念是什么”可能比较关切,兄弟们都需要分析一些“java的遗传算法概念是什么”的相关知识。那么小编也在网摘上搜集了一些关于“java的遗传算法概念是什么””的相关知识,希望各位老铁们能喜欢,各位老铁们一起来了解一下吧!

简而言之,数据科学包括并超越了数据分析。如果您将数据科学家与数据分析师进行比较,数据科学家的目标更深入,他们关注的领域也更广。

数据科学现在很热门。麦肯锡全球研究所(McKinsey Global Institute)的一份报告估计,由于苹果(Apple)和Zendesk等科技公司的需求,2018年数据科学家职位将会短缺19万个。教授数据科学的课程层出不穷。数据科学中使用的语言,如Python和R,已经变得非常流行。

在这个领域,一个常见的问题是,数据科学和数据分析之间有什么区别?要回答这个问题,我们首先需要理解为什么会出现这样的困惑。

为什么困惑呢?

大多数人对数据科学和数据分析之间的区别感到困惑,因为数据科学家工作中最明显的部分是数据分析。

数据科学家需要熟悉许多技术才能做好他们的工作。我将在下面介绍一些。

A/B testing。也称为分割测试,这是一种技术,您可以将各种测试组彼此进行比较,以发现哪些更改将改进给定的目标变量。例如,您可以度量来自两个或多个不同电子邮件活动的营销响应率(目标变量)。

Association rule learning。亚马逊的产品页面上经常写着:“购买了你正在查看的产品的客户也购买了这些其他产品。”这就是关联规则学习的力量。在没有人工监督的情况下,它可以发现数据中的局部模式,这些模式表示输入变量之间隐藏的关系。

Classification。这涉及到识别和分类新数据点并将其导入正确的类别或组的问题。通常,该技术包括包含已分类的现有数据点的训练集,然后应用机器学习来识别新的数据点。聚类分析。这类似于分类。但是聚类分析根据数据点之间的相似性将不同的数据点分组。这种统计方法与分类方法的不同之处在于,相似性的特征是事先不知道的。所以,没有训练集可以使用。

更多数据分析技术

数据科学家需要熟悉的其他数据分析技术包括以下内容:数据挖掘集成学习遗传算法机器学习自然语言处理(NLP)神经网络网络分析优化模式识别预测建模回归情绪分析信号处理空间分析监督学习仿真时间序列分析时间序列预测无监督学习可视化

其中一些技术与统计(如回归)的关系更密切。其中一些是广义的概括术语,这意味着其他技术可以归在它们之下。例如,聚类分析是一种无监督学习。

您可以在不深入了解这些技术的情况下执行数据分析。这是可能的,因为有软件包可以帮助您。下面是一个简单的例子:假设您需要对数据点运行回归分析。你只需要微软Excel和它内置的回归公式…不过,如果你只做这些,你可能无法逃脱称自己为数据科学家的命运。

那么,这两者到底有何区别

既然我们已经对数据分析所涵盖的内容以及它与数据科学之间的混淆有了一定的了解,那么我们就可以开始讨论它们之间的差异了。简而言之,数据科学包括并超越了数据分析。如果将数据科学家与数据分析师进行比较,数据科学家的目标更深入,他们的关注点通常更大。

更深层次的目标

数据科学家的最终目标是发现新知识。在商业领域,这些见解可能意味着公司拥有巨大的优势。或者它可能意味着当前方法的突破,比如一种全新的分析技术。或者它可能意味着完全不同的范例;也许数据科学家发现了如何以一种新颖的方式应用现有的技术。

数据分析师不需要深入研究。对于分析师来说,追求如此深度的卓越是件好事,但这并不是他们真正的目标。当数据科学家在进行分析之前考虑要问什么问题或假设时,数据分析师主要关心的是简单地回答这些问题。

总之,数据科学既是问题的构建过程又是结果。数据分析主要是关于结果的。

此外,优秀的数据科学家需要不断监控他们的技术有多有效。他们需要考虑提高算法的准确性,以及如何将多个数据源与组织内外的平台集成。换句话说,数据科学家的日常工作与组织的目标更紧密地联系在一起。无论该组织是在线零售公司还是研究单位,这都是正确的。

一个更值得关注的领域

如果你想了解关于数据科学的信息,你可以得到这些常用的维恩图。

数据科学家维恩图由德鲁·康威绘制

数据科学家Venn图由Stephan Kolassa发布在Stack Exchange上

首先,让我们忽略哪个图是正确的问题。我们必须在这些维恩图中寻找共同点。在这两个图中,数据科学都处于多个领域的中间。换句话说,数据科学是一个跨学科的领域。您需要了解一些编程和数据库相关的技能。您需要掌握所处领域或业务的详细信息。例如,如果你从事电子商务,你需要学习网上购物者的购买行为。你还必须了解电子商务的原理。必须具备统计学知识。最重要的是,你可能至少需要向其他人解释你的想法,向你团队中的其他数据科学家解释。

更深层次的目标驱动所关注的领域

早些时候,我提到数据科学家致力于提供新的见解。这一更深层次的目标促使数据科学家扩展到许多领域,从而增加了从事著名工作的机会,比如具有创造性的见解和发明新的分析技术。数据科学家甚至可能以新的方式重新利用现有的技术。

另一方面,数据分析师不需要在这么多领域都很熟练。实际上,根据分析的性质,我们可以在不了解编程、统计甚至业务基础等专业领域的情况下执行分析。

让我们以一个假想的场景为例。在其中,分析任务很简单,数据点是原始的。在这种情况下,您甚至可以让实习生使用现成的软件进行数据分析,只需要很少的指令。你不会指望实习生解释结果。你猜怎么着?搞清楚这些结果并不是数据分析师工作的一部分。这是数据科学的一部分。

重要的是你的下一步是什么

我已经讲完了这篇文章。我们研究了数据分析和数据科学之间的异同。现在更重要的问题是,这对你在这个领域的职业生涯意味着什么?回想一下前面提到的数据科学家的不足。这不会永远持续下去。

要在这个领域走得更远,你需要获得更多的知识和培训。事实上,在这里展示的维恩图中,对你所看到的区域进行一些自我评价可能是非常好的。

这里有一些对你前进有帮助的东西:

查看数据科学所需的三到四个领域:统计、编程、通信和业务领域专业知识。你的优点是什么?你的缺点是什么?从这四个方面中挑出你的一个优点。现在,寻找那些需要这种特质的职位。假设你最擅长统计学。利用这一点进入分析师的角色,在统计方面做得好是没有商量余地的。在此基础上,向同事和经理寻求反馈。问他们你的优点和缺点是什么。你的弱点会阻碍你吗?或者你需要在你的能力上变得更强吗?为这两种情况做好准备。

标签: #java的遗传算法概念是什么