龙空技术网

大数据书单之(5):数据搜索与分析

IT博士读书志 177

前言:

目前咱们对“apache权威指南中文版”大概比较看重,同学们都想要学习一些“apache权威指南中文版”的相关内容。那么小编同时在网摘上搜集了一些对于“apache权威指南中文版””的相关资讯,希望我们能喜欢,你们快快来了解一下吧!

一、数据搜索

搜索是个古老的话题,从互联网诞生起,对于网络信息和数据的搜索需求就与日俱增,从谷歌,到百度,必应,搜索巨头都已成为行业标杆,现在谁上网都离不开搜索引擎。

大数据的新的应用场景和特点,对于数据搜索的需求更加迫切,也提出了新的需求。

迫切性体现在大数据时代数据量非常的大,已经不能用海量来形容,在这样大量的数据中想要找到想要的东西,想要分析有效的数据,就需要更高效率的搜索引擎,相比于网络上的搜索,大数据的搜索数据更加组织紧密,对于搜索的效果和精度也更高。

创新性体现在大数据的存储特点,不再能是传统的集中式或者集群式存储,关系式数据库就能负担的,必然的必须采取分布式的方式,这样使得数据存取的一致性,兼容性和鲁棒性都提出新的要求,所以出现了创新性的分布式的文件存储和分布式数据库系统,基于此分布式架构之下,搜索引擎必然需要高效的适应分布式的数据组织形式。

大数据技术栈里,Elasticsearch搜索引擎是较广泛的应用引擎,也应该是我们学习的重点。Elasticsearch是一个分布式的高实时性搜索引擎,能够在各种结构化甚至非结构化数据上实现近乎实时的搜索和分析,是Elastic Stack集成方案中最成功的一个。另两个成为日志搜集和分析引擎Logstash,和可视化分析平台Kibana,有兴趣的同学可以搜索了解。

我们先来重点学习Elasticsearch:

1. Elasticsearch权威指南

2. Elasticsearch搜索引擎构建入门与实战

3. Elasticsearch实战(异步图书出品)

二、数据分析

数据分析是大数据框架实施的重要目的,把大量数据搜集存储的结果,就是需要用来分析出有用的东西,可以进行各种维度的数据统计,以便于更好的指导运营和产品优化,甚至商业模式优化,另外通过AI模型和机器学习算法,训练用户行为模型,给用户推荐最符合他需求的内容,即所谓推荐系统也是当前互联网平台应用的标配,更有甚者,通过数据分析,数据模型深度学习,可以实现更加智能的人工智能,机器人,自动驾驶,无人飞机等都是终极应用。

Kylin是apache基金会下的开源大数据分析引擎,能够实现Hadoop之上的SQL查询和多维分析(OLAP),支持超大数据查询,实现亚秒级的巨型Hive表查询,功能十分强大。

其他知名的查询分析引擎有:Impala,presto等,大家可以感兴趣自行搜索了解,这里主要介绍几本Kylin的经典书籍,供大家学习:

1. Apache Kylin权威指南(第2版)

官网核心团队撰写的技术教程。

2. 基于Apache Kylin构建大数据分析平台

标签: #apache权威指南中文版