你想要的大数据

哇塞菇凉 08-23 115

前言：

而今朋友们对“svnapache运行”大体比较看重，咱们都需要剖析一些“svnapache运行”的相关文章。那么小编同时在网络上收集了一些关于“svnapache运行””的相关知识，希望咱们能喜欢，你们一起来学习一下吧！

大数据在当今时代特别的火爆，现代社会科技发达，信息流通，人与人之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到，未来的时代将不是IT时代，而是DT的时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有各种分类，如：焦煤、无烟煤、肥煤、贫煤等，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是赢得竞争的关键。为了方便大家学习，小编对大数据的资源进行了一下整理。

小编认为在开始学习前清楚自己想要往哪个方向发展，这样学习起来才不会迷茫，才有方向感。常见的数据技术岗位有：算法挖掘、数据仓库、架构师、ETL研发和分析技术等相关的岗位，小编强烈建议想往大数据方向发展的小伙伴要多去各大招聘网站看看关于大数据相关岗位的招聘要求，非常有助于了解到底应该学什么。

接下来小编把找的各种资源整理了一下，希望对大家有帮助。

分布式编程：

nAddThis Hydra ：最初在AddThis上开发的分布式数据处理和存储系统;

nAMPLab SIMR：用在Hadoop MapReduce v1上运行Spark;

nApache Beam：为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言;

nApache Crunch：一个简单的Java API，用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务;

nApache DataFu：由LinkedIn开发的针对Hadoop and 和Pig的用户定义的函数集合;

nApache Flink：具有高性能的执行时间和自动程序优化;

nApache Gora：内存中的数据模型和持久性框架;

nApache Hama：BSP(整体同步并行)计算框架;

nApache MapReduce ：在集群上使用并行、分布式算法处理大数据集的编程模型;

nApache Pig ：Hadoop中，用于处理数据分析程序的高级查询语言;

nApache REEF ：用来简化和统一低层大数据系统的保留性评估执行框架;

nApache S4 ：S4中流处理与实现的框架;

nApache Spark ：内存集群计算框架;

nApache Spark Streaming ：流处理框架，同时是Spark的一部分;

nApache Storm ：Twitter流处理框架，也可用于YARN;

nApache Samza ：基于Kafka和YARN的流处理框架;

nApache Tez ：基于YARN，用于执行任务中的复杂DAG(有向无环图);

nApache Twill ：基于YARN的抽象概念，用于减少开发分布式应用程序的复杂度;

nCascalog：数据处理和查询库;

nCheetah ：在MapReduce之上的高性能、自定义数据仓库;

nConcurrent Cascading ：在Hadoop上的数据管理/分析框架;

nDamballa Parkour ：用于Clojure的MapReduce库;

nDatasalt Pangool ：可选择的MapReduce范例;

nDataTorrent StrAM ：为实时引擎，用于以尽可能畅通的方式、最小的开支和对性能最小的影响，实现分布式、异步、实时的内存大数据计算;

nFacebook Corona ：为Hadoop做优化处理，从而消除单点故障;

nFacebook Peregrine ：MapReduce框架;

nFacebook Scuba ：分布式内存数据存储;

nGoogle Dataflow ：创建数据管道，以帮助其分析框架;

nNetflix PigPen ：为MapReduce，用于编译成Apache Pig;

nNokia Disco ：由Nokia开发的MapReduc获取、转换和分析数据;

nGoogle MapReduce ：MapReduce框架;

nGoogle MillWheel ：容错流处理框架;

nJAQL ：用于处理结构化、半结构化和非结构化数据工作的声明性编程语言;

nKite ：为一组库、工具、实例和文档集，用于使在Hadoop的生态系统上建立系统更加容易;

nMetamarkets Druid ：用于大数据集的实时e框架;

nOnyx ：分布式云计算;

nPinterest Pinlater ：异步任务执行系统;

nPydoop ：用于Hadoop的Python MapReduce和HDFS API;

nRackerlabs Blueflood ：多租户分布式测度处理系统;

nStratosphere ：通用集群计算框架;

nStreamdrill ：用于计算基于不同时间窗口的事件流的活动，并找到最活跃的一个;

nTuktu ：易于使用的用于分批处理和流计算的平台，通过Scala、 Akka和Play所建;

nTwitter Scalding：基于Cascading，用于Map Reduce工作的Scala库;

nTwitter Summingbird ：在Twitter上使用Scalding和Storm串流MapReduce;

nTwitter TSAR ：Twitter上的时间序列聚合器。

　　分布式文件系统

nApache HDFS：在多台机器上存储大型文件的方式;

nBeeGFS：以前是FhGFS，并行分布式文件系统;

nCeph Filesystem：设计的软件存储平台;

nDisco DDFS：分布式文件系统;

nFacebook Haystack：对象存储系统;

nGoogle Colossus：分布式文件系统(GFS2);

nGoogle GFS：分布式文件系统;

nGoogle Megastore：可扩展的、高度可用的存储;

nGridGain：兼容GGFS、Hadoop内存的文件系统;

nLustre file system：高性能分布式文件系统;

nQuantcast File System QFS：开源分布式文件系统;

nRed Hat GlusterFS：向外扩展的附网存储(Network-attached Storage)文件系统;

nSeaweed-FS：简单的、高度可扩展的分布式文件系统;

nAlluxio：以可靠的存储速率在跨集群框架上文件共享;

nTahoe-LAFS：分布式云存储系统;

　　文件数据模型

nActian Versant：商用的面向对象数据库管理系统;

nCrate Data：是一个开源的大规模可扩展的数据存储，需要零管理模式;

nFacebook Apollo：Facebook的Paxos算法，类似于NoSQL数据库;

njumboDB：基于Hadoop的面向文档的数据存储;

nLinkedIn Espresso：可横向扩展的面向文档的NoSQL数据存储;

nMarkLogic：模式不可知的企业版NoSQL数据库技术;

nMongoDB：面向文档的数据库系统;

nRavenDB：一个事务性的，开源文档数据库;

nRethinkDB：支持连接查询和群组依据等查询的文档型数据库。

大数据概念应用到IT操作工具产生的数据中，IT管理软件供应商可以使用大数据解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作’的绝对记录。

大数据分析的产生旨在于IT管理，企业可以将实时数据流分析和历史相关数据相结合，然后大数据分析并发现它们所需的模型。反过来，帮助预测和预防未来运行中断和性能问题。进一步来讲，他们可以利用大数据了解使用模型以及地理趋势，进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为，大数据轻松地识别业务影响；随着对服务利用的深刻理解加快利润增长；同时跨多系统收集数据发展IT服务目录。

大数据分析的想法，特别在IT的操作方面，其对于我们发明并没有什么作用，但是我们一直在其中。

本文地址：http://www.longkongtuishu.com/ca495BAFsBFYBDlZU.html

标签： #svnapache运行