在这个数据“爆炸式”增长的大数据时代,每一天都有不同领域的大量信息被收集和存储。虽然直到最近,“数据科学(Data Science)”一词才被人们所广泛熟知,但事实上,人类理解数据的历史由来已久,并且已经由科学家、统计学家、计算机科学家等专业人员共同推动发展了多年。
什么是数据科学?如今,数据科学甚至成为了一种“火热”商业领域,以至于对数据科学的描述也五花八门很多。
数据科学致力于分析数据并从中提取有用的知识。建立预测模型通常是数据科学家最重要的活动。数据科学是一门新兴学科,它利用统计方法和计算机科学方面的知识,为广泛的传统学术领域提供有影响力的预测和见解。再换个角度,数据科学家们试图从丰富的数据中获取见解,从而可以帮助公司做出更明智的业务决策,我们也可以将数据科学定义为一种可以从数据中得出可行见解的方法。
数据科学简史在某些方面上,数据科学彻底改变了这个世界。数据分析作为一门科学被正式地提出来,始于1962年美国统计学家John W.Tukey的一篇文章《The Future of Data Analysis》,他预见了数据分析新方法的崛起相比于方法论来说更像是一门科学。
1974年,Peter Naur在瑞典和美国出版了《计算机方法的简明调查》,尽管这仅仅是对当时的数据分析方法的综述,但这本书却调查了各种应用程序中的数据处理方法,第一次定义了数据科学是“一门研究数据处理的科学,在创立之初,数据与它所表示的事物之间的关系属于其他学科领域的范畴”。因此,作为学术术语的“数据科学”,其概念也变得更加清晰。
数据科学的发展离不开硬件的进步。自21世纪初以来,数据存储量呈指数级增长,这在很大程度上要归功于处理和存储技术的进步,即在规模上既高效又具有成本效益。“实时”收集、处理、分析和显示数据信息的能力,提供了前所未有的机会来进行新形式的知识发现,数据科学家可以使用人工智能、机器学习和深度学习等颠覆性技术。
数据科学家作为分析数据的专家,应精通必要的技术技能来解决现代世界中的复杂问题。现如今的新兴技术,如人工智能(AI),物联网(IoT),5G,机器人技术(robotics),区块链(blockchain)等,都高度依赖数据,只有那些能够使用数据进行操作并将其转化为可盈利产品的技术才能指导未来的下一代的数字业务。
现在,已经有大量的软件工具可用于支持数据科学家深入研究数据科学的世界。通常,这些服务是通过安全且可扩展的基础架构提供的,用于在云环境中运行数据科学和机器学习工作负载。数据团队可以使用自动化DevOps和ML基础架构工程在Python中大规模开发和部署数据科学模型。