前言:
现时姐妹们对“数据科学的主要方法及解决的问题或作用”都比较关心,姐妹们都想要学习一些“数据科学的主要方法及解决的问题或作用”的相关知识。那么小编也在网络上搜集了一些有关“数据科学的主要方法及解决的问题或作用””的相关知识,希望小伙伴们能喜欢,同学们快快来了解一下吧!报告出品方:北京金融科技产业联盟
1)随着技术的发展,数据的处理从最开始的纸质票据和邮件寄送,到后来的传统数据库、小型机与大型机,到如今的中大型分布式数据存储与计算集群;从依靠掌柜和经理人的经验,到如今分析师和数据科学家们基于数据、算法与算力开展协同工作,实现在风控、反洗钱,反欺诈、反社工,以及信贷、借款、用户画像、网络安全等各个场景的数据价值。
2)随着数据在金融行业中的深度应用,数据规模的不断扩大,数据类型也不再局限于关系型数据。传统数据库开始在数据处理方面力不从心,业务使用的复杂性增高、数据管理的复杂性变大、海量数据处理的时效性差、成本高。于是,为了应对上述挑战,大规模并行处理MPP(MassivelyParallelProcessing,MPP)数据处理技术开始被使用,以解决数据规模带来的复杂性问题。但是数据规模持续增长、数据表达维度增多、数据类型进一步多元化等问题所带来的复杂性挑战远远超过了预期,数据处理成本高昂和数据类型支持有限变成了新的困难。于是,行业内开始采用Hadoop及其衍生技术作为经典大数据方案来应对新的数据处理挑战,并取得了很好的效果。
3)随着数据的价值不断被证明,数据工具的利用也从数据科学和数据分析等专业的技术团队逐步延展到业务团队,业务分析与挖掘的需求也更加旺盛。随着需求所对应的数据类型增加,原本仅面向海量文本及结构化类型的数据特性渐渐无法满足业务需求;最终,在保持海量数据处理能力的前提下,逐步向满足高价值、多维度和多类型的数据特征快速演进。
4)Hadoop体系诞生自互联,是沙中淘金的过程。随着金融业数字化转型的发展,在线业务通常采用SDK等方式进行埋点,数据清洗的无效计算量大大降低;通过数据压缩等方式,在性能影响微乎其微的前提下减少了70%以上的存储空间浪费,但互联网用户仍旧是沙中淘金的思路。可转换到行业领域,尤其是金融业,原本的数据纯度就较高,是“金中炼金”的过程,处理过程中更多解决的是单节点无法完成计算的问题,亦或是处理速度不高的挑战;数据之大不再是单纯的存储规模,更是计算参与的维度之多。
5)传统的海量数据处理方案也尝试过解决存算分离的挑战,通过将提供存储能力和计算能力的相关组件角色分别部署在不同服务器节点,获得初步的存储和计算分离能力。但这样的方案引入了集群灵活性不足、运维要求高、业务应用容易造成资源耗尽等各类衍生问题与风险,并不适合作为生产环境的最佳实践。
6)传统数据库向海量数据处理体系迁移的过程中,遇到的最大挑战便是初代数据处理体系的技术方案中,需要高级编程语言而非SQL语言来操作,这对方案的普适性推广造成了障碍。当SQL语言被全方面地融入海量数据处理体系中后,成本更低,使用更灵活和易用的技术平台才被广泛推入生产环境使用。
7)如今,海量数据处理平台已深度融入金融业的数据处理过程中,并从分担传统数据库OLAP压力的旁路辅助角色,升级为数据中心中基础设施的核心,作为金融数字化的关键,处理近乎全量数据。而在数据开发与治理的交互方面,在满足高级编程语言支持的同时,尽可能实现支持类SQL兼容语法,以满足从业者快速上手和新旧技术栈快速迁移的需求,这进一步降低了使用海量数据处理技术的难度,提高易用性,最大程度地帮助从业者发现并利用数据价值。
【报告领取方式见文末】
该份报告共120页
如果您觉得这份资料对您有帮助
希望获取完整的电子版内容参考学习
您可以关注+评论+转发
然后私信我:报告
标签: #数据科学的主要方法及解决的问题或作用