数据科学主要研究内容有哪些(数据科学与大数据的关系)
数据科学主要研究内容有哪些(数据科学与大数据的关系),本文通过数据整理汇集了数据科学主要研究内容有哪些(数据科学与大数据的关系)相关信息,下面一起看看。
数据科学在过去几年中被用来指代几乎所有与数据相关的事务(数据分析、数据挖掘、机器学习等。).越来越多的人在寻找数据科学的教育资源,因此越来越多的大学和在线平台也在开发这样的项目。
然而,数据科学和数据科学家的定义缺乏清晰度,这显然对每一个参与者都是不利的,无论这个头衔听起来多么时髦。每个人都想扮演自己想要的角色:
申请人:& quot我对海量数据集方向的机器学习感兴趣。所以我想申请一份数据科学家的工作!"
企业:& quot我需要有人谁可以建立一个优秀的管理仪表板的基础上,这些Excel工作簿,所以我会聘请一名数据科学家!"
这样一来,那些从事数据科学家工作的申请人会非常沮丧,因为他们的工作最终会变成数据提取和仪表板构建,与机器学习无关。同时,企业意识到,数据科学家和优秀的数据分析师创造的价值相差不大。我可以& # 039;虽然我已经做了很多& quot事情& quot关于数据。
数据科学家是做什么的?
前段时间MIT发表的一篇文章提出了数据科学的新定义和数据科学程序的设计。作者认为数据科学不是一个单一的学科。更确切地说,它是一个总括(通用)术语,描述了具有非重叠技能的数据科学家团队中的复杂流程。目前,由于从数据中提取值的活动范围广、步骤多,一个数据科学家几乎不可能具备所有必要的专业知识。
更清晰地了解数据科学的内容不仅有助于学术项目更好地设计他们的课程,也有助于学习者和企业更好地了解他们可以从这些项目中寻找和期望什么。
本文认为需要明确区分后端数据科学和前端数据科学。他们的想法总结如下:
后端和前端数据科学(根据麻省理工学院的文章)
科学数据管道设计的主要参与者包括:
数据工程师,负责硬件、高效计算和数据存储基础设施。
数据分析师,负责整理、探索、质量评估、模型与数据匹配、进行统计推断和开发原型。
机器学习工程师,负责构建和评估预测算法,并使解决方案对许多用户来说是可扩展和持久的。
数据科学软件开发人员不直接参与数据科学管道生产,而是开发软件工具来促进数据科学。如Hadoop、R、RStudio、IPython Notebook、TensorFlow、D3、pandas、tidyverse等的开发者。
每个参与者所需要的专业知识是非常不同的,所以在数据科学项目中,这些专业知识应该是完全不同的。
此外,现实中可能会有更多的数据科学参与者。例如,有能力弥合管理团队和数据科学团队之间分歧的数据科学翻译/通讯员。他/她可以通过可视化或演示,熟练地向人们解释复杂的数据科学概念。许多数据科学项目被推迟或无法& # 039;根本得不到资金,因为管理层不同意。我不能完全理解他们背后的想法。也可能有参与者(数据科学业务开发者?)具有较强的专业知识和对数据科学概念的深入理解。他擅长连接一些点,发现可能给企业带来收益的数据科学商机。
从上面的概述中,我们可以看到数据科学其实是非常广泛的,机器学习和建模是这个拼图中相当小的一部分。这意味着学术界需要更好地定义其课程内容,学习者需要更明确自己的目标,企业需要更好地理解其价值方向。
本文建议学术界通过以下途径为学习者提供更好的准备:
三种不同的发展轨迹:提供对应数据科学不同领域的具体发展轨迹:数据工程师、数据分析师和机器学习工程师、数据科学软件开发人员等。
把应用放在第一位:强调实际应用的必要性和问题的主题。将课程需求与实际实施联系起来。
实践经验:对数据科学软件开发感兴趣的学习者,在学习项目中寻找软件包开发的顶点项目课程。此外,学习者能够生成可靠且可复制的代码也很重要,因为数据科学管道或应用将需要在现实生活中使用。这是训练中经常被学术界忽视的一个方面。
实用编程技能:针对特定参与者和任务的适当语言的强大编程培训;
根据麻省理工学院的文章,作者
专注于研究生水平的项目:数据科学学位推荐为硕士& # 039;s或者博士水平,不是本科水平。
如果您是一名正在寻找合适的数据科学教育资源的学习者,请问问自己:
你想成为什么样的数据科学参与者?
需要掌握哪些相关技能?
如果你有这些问题的答案,看看课程是否符合你的需求和期望。
如果你是企业的招聘人员,就需要注意了。请使用术语& quot数据科学家& quot在你的工作描述中尽可能仔细和具体。从长远来看,每个人都可以从中受益。
更多数据科学主要研究内容有哪些(数据科学与大数据的关系)相关信息请关注本站。