龙空技术网

收藏!25篇高引用次数论文打包给你——大数据篇

CSDN云计算 1426

前言:

目前姐妹们对“大数据算法导论”大体比较关切,同学们都需要知道一些“大数据算法导论”的相关内容。那么小编在网络上网罗了一些有关“大数据算法导论””的相关文章,希望我们能喜欢,小伙伴们一起来了解一下吧!

来源 | elsevier

译者 | 火火酱

责编 | 邓晓娟

出品 | CSDN云计算(ID:CSDNcloud)


在学习云计算的过程中,不可避免的就是研究各种文献。而在本文中,我们为大家搜集了大数据领域中被引用次数最多的论文及其摘要,帮助大家理解论文主旨。感兴趣的小伙伴,可以自行搜索进行研究。

01 大数据随机森林

大数据是统计学面临的主要挑战之一,从算法和理论的观点来看,大数据会带来无数后果。

论文摘要:

大数据包含大量的数据,同时也包含在线数据和数据异构性。近年来,人们通过例如线性回归模型、聚类方法和自举算法等统计学方法来处理大数据。随机森林(random forests)是由Breiman在2001年提出的一种基于决策树、集合和自举思想的方法。通过这种强大的非参数统计方法,可以在单一和通用的框架中考虑回归问题以及两类和多类分类问题。

针对分类问题,本文对现有的将随机森林应用于大数据的提议有选择地进行了回顾。这些提议是基于并行环境以及随机森林的线上应用之上的。本文还将解释在这些方法中如何处理袋外错误(out-of-bag error)。

接下来,本文在大数据背景下对随机森林进行了各类解释。最后,在两个庞大的数据集(1500万和1.2亿的观测数据)、一个模拟数据集以及真实世界数据上实验了5个变量。结果显示,其中一个变量需二次采样。另外三个变量则与随机森林的并行化实现相关,或涉及自举法在大数据中的各种应用,或涉及“分而治之(divide-and-conquer)”算法。第五个变量与随机森林的在线学习有关。这些数值试验突出了不同变量的相对性能,也揭示了一些局限性。

02 系统化文献综述之云环境中数据复制技术

论文摘要:

云计算面临着许多挑战,其中之一就是使用复制数据。数据复制是分布式海量数据管理的一项重要技术。其主要目的是将数据放置在不同的位置,从而在不同位置有同一特定文件的多个副本。

复制是分布式环境中广泛研究的对象之一,在分布式环境中,一些数据的多个副本会被储存在不同地方,在其中解决创建、维护和更新副本的成本是非常重要且具挑战性的问题。在过去的十年里,分布式计算的应用和架构发生了巨大变化,同时,复制协议也发生了巨大变化。

然而,尽管这个问题十分重要,但到目前为止,还没有在分布式云环境中系统地研究过该问题。云环境中的数据复制分为静态方法和动态方法。在静态算法中,创建的副本数从一开始就是常量,是由用户从开始就决定的,或者是由云环境决定的。而在动态算法中,考虑到其所属的环境,副本数是由用户的访问算法来决定的。本文旨在系统地回顾这两类算法的数据复制技术,并分别讨论两者的特点。

03 大数据之项目集挖掘:比较分析

论文摘要:

众所周知,项目集挖掘是一项探索性数据挖掘技术,用于发现隐藏在数据集合中所有有趣的关联。由于它支持不同的目标分析,因此它在从网络流量数据到医疗记录的各种不同领域中都是十分有益的。

随着数据量的增加,人们利用Apache Hadoop和Spark等分布式计算框架的优势开发出了不同的可扩展性数据挖掘算法。本文通过理论和实验的对比分析,回顾了处理大数据领域频繁项目集挖掘问题的基于Hadoop和Spark的可扩展性算法。由于项目集挖掘目标计算量很大,因此其分布和并行化策略会严重影响内存的使用、负载平衡和通信成本。

本文详细讨论了频繁项目集挖掘分布式方法的算法选择方法,然后通过实验分析比较了最先进的分布式算法在合成数据集和实际数据集上的性能。在数据集特征(例如数据分布、平均事物长度、记录数)和特定参数设置方面详细讨论了算法的优缺点。最后,在理论分析和实验分析的基础上,提出了项目集挖掘问题并行化的开放研究方向。

04 为智慧城市提供关联数据:以卡塔尼亚为例

论文摘要:

语义网技术,特别是关联开放数据,提供了一种将城市作为物质、社会和技术系统共享知识的方法,从而支持智慧城市应用程序的开发。

本文通过介绍一个基于卡塔尼亚安利的原型,旨在分享经验教训,可为其他有类似需求的案例提供实践参考。

本文讨论了实现句法和语义互操作性的重要性(作为将异构数据源转换为关联数据的结果):语义互操作性在数据级得到解决,以便顶层的进一步开发。我们提出了一个智能城市综合数据模型,该模型集成了多个数据源,包括地理参考数据、公共交通、城市故障报告、道路维护和城市垃圾收集。针对公共交通、城市故障报告和道路养护等领域,提出了一些新的本体设计模型。邀请领域从业者和普通公众使用原型并填写问卷,提供问题和反馈。

同时,还进行了一个计算实验,以评估该数据模型在实际可扩展性方面(而不是增加数据和在复杂情况下的效率方面)的性能。研究所产生的所有数据、模型、原型和调查问卷结果都可从网上公开获取。

05 一种使用灰狼优化算法和MapReduce的新聚类方法

论文摘要:

随着技术的进步,数据量正迅速增长。需要更加高效地分析方法来支持有关数据的智能决策。数据聚类是一种重要的数据挖掘分析方法,广泛应用于数据分析领域。面对日益增长的海量数据集的分析需求,当今迫切需要改进传统的数据分析方法。

本文针对大规模数据集基于提出了一种有效的聚类方法——基于MapReduce的灰狼优化算法(MR-EGWO)。该方法引入了一种新型的灰狼优化算法——增强型灰狼优化算法(EGWO),将灰狼的搜索策略与二项式交叉混合,并引入了莱维飞行(lévy flight)步骤,从而增强搜索能力。

此外,该算法还可被用于优化聚类过程。实验在七个UCI基准数据集上测试了EGWO的聚类效率,并将其与五种现有的聚类技术(即K-均值、粒子群优化(PSO)、引力搜索算法(GSA)、蝙蝠算法(BA)以及灰狼优化算法(GWO))进行了比较。通过收敛图和箱线图验证了EGWO的收敛性和一致性。此外,将提出的EGWO在Hadoop框架中的MapReduce模型上并行化,并命名为MR-EGWO来处理大规模数据集。

另外,本文还从F-measure的角度验证了MR-EGWO的聚类质量,并将其与基于MapReduce的四种最优聚类进行了比较:并行K均值、并行 K-PSO、基于MapReduce的人工峰群优化(MR-ABC)、基于动态频率的并行k-bat算法(DFBPKBA)。实验结果表明,本研究提出的技术为大规模数据聚类提供了前景广阔且强大的替代方案。

06 快速深度卷积人脸检测在困难样本挖掘中的应用

论文摘要:

人脸检测是机器学习中一项重要的视觉信息分析技术。大数据的兴起导致了海量可视化数据的积累,从而更加需要正确快速的分析方法。深度学习方法为此问题提出了一个解决方案。

研究表明,大量高可变性数据训练可以显著提高其有效性,但这通常会导致昂贵的计算成本并且使模型高度复杂化。若以分析海量数据集中的大量可视化内容为目标,模型的复杂程度对模型是否能够取得成功来说至关重要。本文介绍了一种针对人脸检测的轻量级深度卷积神经网络(CNN),该网络设计的目的是减少训练和测试时间,并使其有效性优于之前发表的深度卷积神经网络论文。

为了在不影响效率的前提下训练这种轻量级深度神经网络,本文提出了一种渐进式正例及困难负例挖掘的新训练方法,并证明了该方法能够显著提高训练速度和精度。此外,本研究还训练了一个能够检测个体面目特征的独立深层网络,建立并评估了能够将两个网络输出相结合的模型。两种方法都能够检测被严重遮挡和各类姿势变化下的人脸,解决了真实情况下进行实时人脸检测的难题,本文提出的方法在无人飞行器(UAVs)等移动环境中也适用。

07 列车延误预测系统:大数据分析视角

论文摘要:

目前使用的列车延误预测系统并没有利用最先进的工具和技术:从铁路信息系统收集大量列车历史运行数据,处理和提取有用且可操作的信息。相反,现在的预测系统依赖于铁路基础设施专家基于经典单变量统计建立的静态规则。

本文旨在利用最新的大数据技术、学习算法和统计方法,构建一个面向大规模铁路网的数据驱动的列车延误预测系统(TDPS)。特别是,本文提出了一种针对浅层和深度极限学习机的快速学习算法,该算法充分利用了最新的内存大规模数据处理技术来预测列车延误,并与目前最先进的TDPSs算法进行了比较。来自意大利铁路网的真实数据表明,该方案能够改进目前最先进的TDPSs算法。

08 上下文感知计算中的大数据应用——前景与挑战

论文摘要:

大数据时代已经到来了,无数的应用程序和系统生成的数据量、种类和速度都是传统计算系统和数据库无法管理的。传感器已经存在与各种设备中,传感器收集的数据已经成为大数据的主要来源之一。

本文主要关注从数据派生上下文并据此行动的上下文感知计算系统是如何处理大量数据的。大型行业参与者,即谷歌、雅虎和亚马逊已经借助来自于电子邮件、聊天信息、浏览和购物历史的用户数据开发了上下文感知应用程序。例如,Gmail通过了解航班预订信息来提醒用户注意航班时间表。同样,亚马逊会了解用户的喜好并推荐相关商品等。在本文中,我们从大数据角度研究了上下文感知计算系统。首先,本文在传感平台基础上提出现有工作的分类法,然后讨论了大数据上下文感知系统领域的最新发展,重点讨论了大数据上下文感知系统如何应对各种大数据挑战。最后,本文对涉及设计和开发上下文感知的大数据生成系统的开放性研究问题进行了深入分析。

09 基于4V大数据流的高效资源管理系统

论文摘要:

成千上万的数据源正以前所未有的速度不断生成大数据流。对此类数据流的分析需要云资源,随着云上大数据的发展,合理分配云资源成为一个重要的研究课题。当前使用的方法是根据数据特征分配云资源。但是由于数据生成的随机性,大数据流中的数据特征是未知的,这给选择和分配合适的资源到大数据流带来了困难。

针对这一问题,本文提出了一种高效的资源管理系统。该系统初步估计了大数据流在容量、速度、多样性和可变性方面的数据特征。估计值以名为数据特征(CoD)的向量表示。另一方面,借助自组织映射(SOM),可动态创建云资源集群。SOM使用CoD来创建集群并将其分配到大数据流。

此外,由SOM形成的集群的拓扑顺序可减少等待时间。文中提出的系统已经过实验测试。实验结果表明,该系统不仅可以有效地预测数据特征,而且可以有效地提高云资源的性能。

10 用于深度学习大数据分析的GPGPU神经网络原型

论文摘要:

大数据涉及大量复杂的、持续增长的数据。考虑到数据存储和网络的快速发展,各组织都在收集包含有用信息的持续增长的大型数据集。为了在有效期内从这些数据集中提取信息,使用分布式和并行算法是十分重要的。机器学习是大数据分析常用的方法,其中收集的数据被用于预测未来的行为。

利用人工神经网络进行深度学习是从复杂数据集中提取信息的常用方法之一。与传统的概率机器学习技术相比,深度学习能够创建更为复杂的模型,这为我们提供了有关如何原型化的在GPU和CPU集群上执行深度学习应用程序的分步指南。Python和Redis是本指南的核心支持工具。

本教程将能帮助读者在几个小时内了解构建分布式高性能GPU应用程序的基础知识。由于我们不依赖任何深度学习应用程度或框架,因此可以针对读者的想法在大数据上进行原型设计的任何并行算法来调整本教程。最后,本文将讨论如何从原型过渡到完全成熟的生产应用程序。

11大数据系统应对机器学习挑战:大数据科学即服务

论文摘要:

近年来,人们见证了两大方面的进步,一是日常生活中产生和收集的数据规模的巨大进步,二是人们利用现代技术来处理、分析和理解这些数据的能力的进步。这两大趋势的交点就是今天所说的大数据科学。大数据科学需要可扩展的体系结构来存储和处理数据。

云计算是支持大数据存储、处理和复杂分析应用程序的实用且经济的解决方案。本文将详细分析用于支持大数据科学作为数据科学家们的商品服务的软件堆栈的构建模块。此外,研究还根据支持的服务模型对大数据分析框架的最新技术进行了分析和分类,目前这些框架大多在云上可用。与此同时,本文还提供了有关该领域的最新发展和挑战。

12 Marcher:支持能源意识高效能计算和大数据分析的异构系统

论文摘要:

过多的能源消耗是设计和部署下一代超级计算机的主要制约因素。要将高性能计算和大数据应用程序的能耗降至最低,就要从架构、系统支持和应用程序的多个层次上使用新的节能技术(硬件和软件)。

在过去的十年中,我们见证了在开发更加节能的硬件和基础设施方面的重大进展。然而,软件的能效并没有得到很大的提高。阻碍绿色软件技术探索的障碍之一就是缺少能够为技术评估和验证提供精确的、实时功率和能量测量的工具和系统。

Marcher是一个异构高性能计算基础结构,旨在通过为能源敏感型高性能计算和大数据分析研究提供支持来填补这一空白。Marcher系统配备了Intel Xeon CPUs, Intel Many Integrated Cores (Xeon Phi), Nvidia GPUs, 可识别能耗的存储系统以及硬盘驱动器 (HDDs) 和固态磁盘 (SSDs)的混合存储。

为研究人员获取这些主要计算组件分解后的细粒度能耗数据提供了易于使用的工具和界面。本文介绍了Marcher系统的设计,并演示了Marcher功率测量工具在不同研究项目中用于获取详细能耗数据的用法。

13 BLADYG:用于大型动态图的图形处理框架

论文摘要:

近年来,大型动态图的分布式处理变得越来越流行,特别是在某些领域,例如:社会网络分析、Web图分析和空间网络分析。在这种情况下,人们提出了许多分布式/并行图形处理系统,例如:Pregel, PowerGraph, GraphLab, 和Trinity。

然而,这些系统智能处理静态图,而没有考虑演化图和动态图的问题。在本文中,我们考虑了图形处理系统中的规模和动态性问题。本文介绍了BLADYG,一种能够解决大规模图形中的动态性问题的图形处理框架。

文中介绍了在AKKA框架基础上实现BLADYG。我们通过将其应用于大型动态图的分布式k-core分解和划分等问题,对其性能进行了试验评估。实验结果表明,BLADYG的性能和可扩展性在大规模动态图中的表现令人满意。

14 用于识别癌症驱动因素的大型DNA甲基化数据集的分类

论文摘要:

DNA甲基化是一种经过了充分研究的基因修饰,对调节基因组的功能至关重要。其改变在肿瘤发生和肿瘤抑制中起重要作用。因此,研究DNA甲基化数据有助于发现癌症中的生物标志物。

由于关于DNA甲基化的公共数据越来越丰富——并且考虑到基因组中存在大量的甲基化点位(特征)——因此,有一个有效处理如此大数据集的方法是十分重要的。基于大数据技术,我们提出了BIGBIOCL算法,该算法可以将监督分类方法应用于具有数十万特征的数据集。它旨在通过迭代删除选定的特征来提取可选的和等价的分类模型。

通过对从癌症基因组图谱中提取的DNA甲基化数据集进行实验,重点研究三种类型的肿瘤:乳腺癌、肾癌和甲状腺癌。通过分类,准确地(准确率>97%)提取几个甲基化位点及其相关基因。结果表明,BIGBIOCL可以在几个小时内对数十万个特征执行数百次分类迭代。

此外,我们还将本方法与其他最新的分类器和基于网络分析的DNA甲基化分析方法的性能进行了比较。最后,实验还有效地计算了多个替代分类模型,并从DNA甲基化大数据集中提取一组候选基因,进一步研究其在癌症中的积极作用。BIGBIOCL、实验结果、以及进行新实验的指南可以在GitHub上面免费获取:

15 Spark参数调整方法

论文摘要:

因为Spark成功地向开发人员隐藏了与并行性、容错能力和集群设置相关的大部分复杂性,对大数据流分析来说,它已经成为极具吸引力的平台。

然而,这是以超过150个可配置参数为代价的,因为这些参数的组合数量呈指数增长,因此无法对其影响进行全面分析。默认值使开发人员可以快速部署他们的应用程序,但是有关是否可以提高性能的问题仍然悬而未决。

在本文中,我们通过使用巴塞罗那超级计算中心对Spark的Marenostrum III (MN3)进行了大量实验,研究了最重要的可调Spark参数在改组、压缩和序列化方面对应用程度性能的影响。总体目标是指导开发人员更改默认值。我们以之前的工作为基础,在此研究中,将过去的经验映射到反复试验的迭代改进方法中,以基于少量实验运行的证据来调整任意应用程序中的参数。

该研究的主要贡献在于提出了一种用于参数调整的系统的替代方法,该方法可以轻松地被应用于任何计算基础架构,并且在应用于MH3时,其结果与最初的结果不相上下。在验证的测试案例研究中,观察到加速从20%开始。此外,新方法可以依靠使用样本来运行,而不是在完整的数据集上运行,这使其更加实用。

16 有效支持高维数据项目集挖掘的并行MapReduce算法

论文摘要:

在当今世界,许多科学应用(例如生物信息学或网络)正在不断生成大量数据。由于每个事件通常都具有各种各样的特征,因此不断生成高维数据集。为了从这些复杂的数据集中提取有价值的信息,可以使用不同的探索性数据挖掘算法来发现数据之间隐藏的、特殊的相关性。

频繁项目集挖掘是一种有效但计算量大的技术,通常用于支持数据探索。由于分布式和并行框架的普及,能够处理大数据的可扩展方法的开发已经扩展到频繁的项目集挖掘。不幸的是,当前大多数算法都是为处理低维数据集而设计的,在那些以高维数据为特征的用例中表现不佳。

本文介绍了一种基于MapReduce、用于高维数据集的频繁项目集挖掘算法——PaMPa-HD。提出了一种有效的解决方案来并行化并加速处理过程。此外,本文还提出了轻松配置算法参数的不同策略。在真实高维用例上进行的实验结果表明,该方法在执行时间、负载平衡和内存问题的坚固性方面是有效的。

17 在R中使用大数据编程:将分析范围从一个节点扩展到数千个节点

论文摘要:

本文通过利用几个扩展软件包(包括来自pbdR项目的扩展)介绍了如何通过R语言实现可扩展性的教程概述。用到的软件包包括MPI、PBLAS、ScaLAPACK、I/O库、配置库等。

虽然这些库在大型分布式平台上的表现最为出色,但他们在小型集群上也能很好的运行,而且令人惊讶的是,即使在只有两个内核的笔记本电脑上也能流畅地工作。

本教程首先介绍了图在考虑并行实现之前提高R代码的性能。因为R是一种高级语言,所以一个函数可以有很深的操作层次。对于大数据来说,这很容易导致效率低下。概要分析是了解R代码性能的重要工具,可用于串行和并行改进。pbdR软件包为开发新型分布式数据分析算法提供了高度可扩展功能。这种级别的可扩展性是其他分析软件所无法比拟的。

对于100GB及以上的数据,复杂的分析算法可实现交互式速度(秒)。这件事得以实现是因为接口对可扩展库只增加了很少的成本。此外,这通常是在串行R代码很少或没有更改的情况下实现的。本概述包括各种复杂程度不同的代码,阐明了并行读取数据、将串行代码转换为分布式并行代码的过程以及如何在R中进行分布式矩阵计算的过程。

18 聚类算法BIRCH的变体

论文摘要:

近年来,随着大型数据集的可用性和并行计算体系结构的兴起,聚类算法又重新引起了人们的关注。然而,大多数聚类算法都有两个缺点:它们无法随数据集大小的增加而很好地扩展,并且常常需要适当的参数化(这并不容易)。本文介绍了A-BIRCH——BIRCH聚类算法的自动阈值估算方法。

该方法从数据中计算BIRCH的最优阈值参数,使BIRCH即使在没有全局聚类阶段(通常是BIRCH的最后一步)的情况下依然能进行聚类。如果数据满足某些约束条件,则可能实现,如果不满足这些约束条件,A-BIRCH将会在显示结果之前发出相关警告。

这种方法使BIRCH最终的全局聚类步骤在很多情况下都不是必需的,这带来了两个好处。首先,我们不需要事先知道集群的数量。其次,如果没有计算量巨大的最终全局聚类,快速BIRCH算法将会变得更快。

对于非常大的数据集,我们引入了BIRCH的另一种变体形式——MBD-BRICH,它与A-BIRCH结合后具有特殊优势,但其整体而言是独立的,并且也具有一般性的优势。

19 Smart4Job:利用时间序列预测和语义分类进行智能工作岗位分享的大数据框架

论文摘要:

最近几年,随着互联网的发展,出现了专用于自动化招聘的门户网站和社交网络,从而导致了优化算法的广泛使用。为此,人们创建了许多求职网站,以便更好地发布和分享工作机会。

对于招聘人员来说,要选择相关的招聘网站来发布招聘信息有时会很困难,因为他们总是希望能在短时间内吸引到最好的求职者。此外,某些招聘网站还会有各种不同的业务类别,这也让选择变得非常困难。

针对这些问题,本文建立了一种新的招聘公告推荐系统——Smart4Job,该系统能够为新的招聘信息推荐合适和招聘网站。该系统基于多个整合为一体的大数据平台,包含领域知识分析和时间预测模型。招聘公告的语义分类需要使用受控词汇表进行文本分析。

借助浏览历史,时间序列分析模型可以为给定岗位推荐最佳招聘网站。最终的决策过程将这些模块的答案组合在一起。该系统已经在真实数据的基础上进行了评估,初步结果表明,该系统具有良好的应用前景。

20 应用并行计算技术分析Terabyte TB级大气边界层层模型输出

论文摘要:

在大气科学中,随着人们越来越容易获得能够处理具有精细时空分辨率的计算资源,模拟输出的大小也持续增长。随着输出大小的增加,串行数据分析方法会变得不堪重负,从而导致处理过程长时间延迟,或者由于内存限制而导致完全失败。并行数据分析方法可以缓解这些问题,然而大气科学家们往往并不了解如何实现这一目标。

因此,需要通过实例方法来指导如何在大气模拟大数据分析中使用并行处理方法。本文提出了一些十分实用的方法,通过这些方法,可以使用消息传递接口(MPI)和Python并行执行分析。这些方法首先考虑了特定数据分析过程的固有空间依赖性。通过识别这些依赖性,可以在最小化进程间通信的基础上实现数据集的水平或垂直分布。

此外,分析方法分为数据传输受限或计算受限两种。在数据传输受限问题中,数据传输时间大于处理时间。

在计算受限问题中,处理时间大于数据传输时间。结果表明,随着处理器数量的增加,计算受限问题的执行时间得到了改善;增加节点数也可以最大程度上改善数据传输受限的问题。为了进一步提高计算受限问题的性能,实验使用了图形处理单元(GPU)和统一计算架构(CUDA)框架。实验结果表明,该GPU实验比MPI版本的测试分析方法有了进一步的改善。

21 无线多媒体传感器网络中用于监控的图形数据库的大数据模型仿真

论文摘要:

传感器以各种各样的形式存在于世界各地,如手机、监控摄像头、智能电视、智能冰箱以及血压监测仪。通常来讲,大多数传感器都是某些其他系统中的一部分,与系统中的其他传感器共同组成网络。其中有一个网络是由数百万个连接到互联网的传感器组成的,这就是物联网(IoT)。

随着无线通信技术的发展,多媒体传感器及其网络有望成为物联网的重要组成部分。在火灾探测、城市监控、预警系统等多个领域已经有了很多关于无线多媒体传感器网络的研究。所有这些应用程序都是通过实时数据流定位传感器节点并长时间采集数据,这些数据可以成称为大数据。大数据可以是结构化的也可能是非结构化的,需要存储以进行进一步的处理和分析。

分析多媒体大数据是一项艰巨的任务,需要进行高层次建模才能有效地从数据中提取有价值的信息知识。在本研究中,我们提出了一个基于图数据库模型的大型数据库模型,用来处理无线多媒体传感器网络生成的数据。我们引入了一个模拟器来生成综合数据并使用图形模型作为大数据库来存储和查询大数据。

为此,我们评估了著名的基于图的NoSQL数据库、Neo4j和OrientDB,以及关系数据库MySQL。我们在模拟器上进行了大量的查询实验,证明了在无线多媒体传感器网络中,某些数据库系统是有效且可扩展的。

22 可视化和可扩展计算的闭环大数据分析方法

论文摘要:

许多科学调查都需要进行数据密集型研究,其中需要收集和分析大量的数据。为了从大数据中了解更多信息,我们首先需要从数据中提出最初的假设,然后测试并验证这些关于数据的假设。

可视化通常被认为是一种从给定的数据集中提出假设的好方法。计算算法与可扩展计算相结合可以对大数据执行假设检验。此外,交互式的可视化界面能够让该领域的专家们直接与数据进行交互,参与到循环中,以完善其研究问题并重新定向其研究方向。

在本文中,我们讨论了一个集成了信息可视化、可扩展计算和用户界面的框架,以探索大规模的多模态数据流。从数据中发现新知识需要对这种规模的数据集进行探索性的分析,使我们能够正确的看待数据,需要结合自下而上的模式发现和自上而下的人类知识来利用人类感知系统的力量进行发现。

我们从一种新颖的交互式时间数据挖掘方法开始,该方法帮助我们发现可靠的顺序模式和精确的多元时间序列的时序信息。然后我们进行并行化的解决方案,该方案可以完成使用迭代MapReduce任务从大规模时间序列中提取可靠模式的任务。本研究利用视觉信息技术帮助科学家交互式地探索、可视化和理解其数据。例如,用户可以通过异步web服务访问在HPC上运行的并行挖掘算法。

通过这种方式,科学家们可以通过比较中间数据来提出新一轮的分析,以获得更具科学意义和统计上更为可靠的模式,因此统计计算和可视化可以相互促进。此外,框架中的可视化接口使科学家可以直接参与循环,并可以重定向分析方向。以上研究结合起来,构成了一种可以通过可视化和可扩展性计算来执行闭环大数据分析的高效方法。

23 Hadoop MapReduce在SSDs上分析社交网络的性能

论文摘要:

固态硬盘(SSDs)的出现激发了大量调查和开发新驱动器潜力的研究。本研究的重点是了解SSDs与硬盘驱动器(HDDs)在Hadoop MapReduce基础存储时的相对性能和优势。特别是,本次研究将从所有早期的相关工作中分离出来,不使用之前的工作负载,而是检查适合对呈现不同执行模式的复杂网络进行分析的MapReduce任务和数据。

尽管会涉及大量用于复杂网络分析的算法和实现,我们还是选择了“标杆分析法(benchmarking methods)”,其中包含在复杂网络中执行本地和网络范围内的操作的多种方法。同时,因为其可以用作更复杂的网络处理应用程序原型,所以也足够通用。我们在真实的社交网络数据上执行这些算法(并排除了可能严重影响实验结果的网络宽带的影响),评估了SSDs和HDDs的性能。

结果表明SSDs对Hadoop是有益的,这一结果也得到了部分早期研究的证实。然而,我们也提供了有力的证据,证明运行中的应用程序的处理模式也具有重要作用,因此在未来的研究中,不能盲目地将SSDs添加到Hadoop中,而应建立组件来评估应用程序的处理模式,然后直接将数据放到适当的储存介质中。

24 适用于创新临床模型的大数据合规性

论文摘要:

在医疗健康领域,信息十分重要,人体是数据的主要来源。因此,世界卫生保健面临的新挑战就是如何利用这些庞大的数据去对其进行解构。

为了从这一优势中获益,科学技术为人们提供了一种名为“大数据分析”的解决方案,该方案能够管理海量数据,这些数据的性质可以不同,也可以是来自不同的计算机化医疗保健来源,因为在所有主要健康领域中数字技术的输入都能带来巨大变化。

临床情报包括通过使用计算机工具实现的分析方法、提取原始临床数据并将其转换为重要见解的过程、能够提供更好临床疗效的新的目的和知识。因此可以说,通过患者数据分析,临床智能将成为解决所有护理方面问题的标准操作程序。

本文的目的是通过数据挖掘和过程挖掘技术来实现临床情报方法,展示这两种应用于“实际过程”数据析取的方法间的差异,以便通过“符合性检查”与公司合规性模版(所谓的“Model 231”)中的程序进行比较。

25 通过使用城市大数据进行颗粒物预测来实现可持续的智慧城市,抛弃昂贵的空气污染基础设施

论文摘要:

在数据时代和城市数字化时代中产生了大量与城市环境相关的数据集和数据流。从智慧城市的各种资源中获取和分析数据至关重要。例如,实时的空气污染数据对于控制空气污染、实现城市的可持续发展、保护人类免受空气污染的危害来说是非常重要的。然而,在现实生活中,空气污染占平均建设投资和维护成本过高。

本文旨在研究如何在不使用昂贵的污染传感器和设备的情况下,以经济有效的方法测量空气污染。为实现这一目标,我们建立了颗粒物预测模型。该模型由多个组件构成,以神经网络和回归为核心,集成异构的多个城市数据源,从迁移学习视角对颗粒物进行预测。

颗粒物预测实验结果表明,这些数据源能够较好地预测颗粒物,与仅仅以空气污染传感器特征为基础的模型相比,其预测结果更为理想。本次研究中,我们用来自丹麦奥尔胡斯市的城市数据对模型进行了测试评估,并将模型性能与各种指定基线进行比较。该模型相对于基线的优越性表明了其实用性。


原文链接:

标签: #大数据算法导论