龙空技术网

如何使用 Java 流进行分组和聚合?

程序员小橙 68

前言:

目前同学们对“java聚合”大约比较珍视,大家都需要剖析一些“java聚合”的相关内容。那么小编同时在网摘上收集了一些对于“java聚合””的相关资讯,希望兄弟们能喜欢,你们一起来学习一下吧!

Java Streams 解决问题的直接途径,Java Streams 框架,它可以让我们及时地处理大量数据。

需要对列表中的元素进行分组时,可以聚合分组元素的字段,可以使我们比较方便的分析数据。一些示例是加法、平均值,或者最大/最小值。这些单个字段的聚合我们可以使用 Java Streams和 Collectors 轻松完成。

但是,我们可能会遇到更复杂的情况,像是加权平均值、几何平均值等等。此外,可能需要同时聚合多个字段。此时,使用 Java Streams 框架,就是解决问题的直接途径。

首先我们要对Java Streams框架和实用程序Collectors类有一定的了解。

问题布局

举个例子,考虑TaxEntry由以下代码定义的实体列表:

计算城市的总数:

Collectors.summingInt(TaxEntry::getNumEntries)));

Collectors.groupingBy的两个参数:分类器函数进行分组,收集器对给定的所有元素进行下游聚合。TaxEntry::getCity用作分类器函数。对于下游,使用Collectors::summingIntwhich 返回一个Collector总和所有的税收条目的数量。

复合分组的话,会复杂一些。例如上面的例子,给定城市的总数。有一个简单的方法是首先定义:

record StateCityGroup(String state, String city) {}

这里我们使用的是 Javarecord,它可以定义不可变类。此外,Java 编译器为我们生成字段访问器方法hashCode、、等号和toString实现:

因为Collectors::groupingBy我们使用 lambda 表达式设置分类器函数,该表达式创建一个StateCityGroup封装每个州-城市的新记录。下游 Collector 和之前一样。

若同时进行多个聚合,就会比较困难。例如,查找给定州和城市的数量和均价总和。

可以先从之前获取有用信息,定义一个记录来封装这些字段:

record TaxEntryAggregation (int totalNumEntries, double averagePrice ) {}

现在,我们如何同时对两个字段进行聚合?如下图:

对于下游,我们使用Collectors::collectingAndThen完成。有两个参数:

我们转换为列表的初始分组的下载流Finisher 函数,使用 lambda 从前一个列表中创建两个不同的流来聚合,将它们组合在一个新TaxEntryAggregation记录中返回

想象一下,我们想同时进行更多的字段聚合。我们需要相应地增加下游列表中的流数量。代码变得效率低下、重复性非常高且不太理想。我们应该寻找更好的替代品。

此外,问题还不止于此,一般来说,我们受限于可以使用 Collectors 辅助类进行的聚合类型。他们的方法 summing*、averaging* 和 summarizing* 仅支持整数、长整数和双精度本机类型。如果我们有更复杂的类型,比如BigIntegeror ,我们该怎么办BigDecimal

雪上加霜的是,summarizing* 方法仅提供 min、max、count、sum 和 average 的汇总统计数据。如果我们想要执行更复杂的计算,例如加权平均值或几何平均值怎么办?

有些人会争辩说我们总是可以编写自定义收集器,但这需要了解收集器接口并很好地理解流收集器流程。使用 Collectors 类中的实用方法提供的内置收集器更直接。在下一节中,我们将展示一些关于如何实现此目的的策略。

复杂的多重聚合:解决路径

让我们考虑一个简单的例子,它将突出我们在上一节中提到的挑战。假设我们有以下实体:

我们首先询问每个不同的州-城市对如何找到条目的总数以及rateprice(∑(rate * price)) 的乘积的总和。请注意,我们正在使用BigDecimal.

正如我们在上一节中所做的那样,我们定义了一个封装聚合的类:

record RatePriceAggregation(int count, BigDecimal ratePrice) {}

起初可能看起来令人惊讶,但是对于后面跟着简单聚合的分组的直接解决方案是使用Collectors::toMap.让我们看看我们将如何做到这一点:

(第Collectors::toMap2 行)接受三个参数,我们执行以下实现:

第一个参数是一个 lambda 表达式,用于生成地图的键。此函数创建StateCityGroup为地图的键。这将按州和城市对元素进行分组(第 2 行)。第二个参数产生地图的值。在我们的例子中,我们创建了RatePriceAggregation一个计数为 1 以及 rate 和 price 的乘积的初始化(第 3 行)。最后,最后一个参数是BinaryOperator用于合并多个元素映射到同一个州-城市键的情况。我们将计数和价格相加以进行汇总(第 4 行)。

让我们演示如何设置一些示例数据:

从前面的代码示例中获取纽约的结果很简单:

System.out.println("New York: " + mapAggregation.get(new StateCityGroup("New York", "NYC")));

这打印:

New York: RatePriceAggregation[count=3, ratePrice=14.00]

这是一个直接的实现,它决定了多个字段和非原始数据类型(BigDecimal在我们的例子中)的分组和聚合。但是,它的缺点是它没有任何终结器允许您执行额外的操作。例如,你不能做任何类型的平均值。

为了展示这个问题,让我们考虑一个更复杂的问题。假设我们想要找到费率-价格的加权平均值,以及每个州和城市对的所有价格的总和。特别是,要找到加权平均值,我们需要计算属于每个州-城市对的所有条目的费率和价格的乘积之和,然后除以每个案例的条目总数 n: 1/n ∑(费率 * 价格)。

为了解决这个问题,我们开始定义一个包含聚合的记录:

record TaxEntryAggregation(int count, BigDecimal weightedAveragePrice, BigDecimal totalPrice) {}

有了这个,我们可以进行以下实现:

我们可以看到代码稍微复杂一些,但可以让我们得到我们正在寻找的解决方案。我们将更详细地关注它:

Collectors::groupingBy对于分类功能,我们创建一个StateCityGroup 记录对于下游,我们调用Collectors::mapping对于第一个参数,我们应用于输入元素的映射器将分组的州-城市税收记录转换为TaxEntryAggregation将初始计数分配为 1 的新条目,将税率乘以价格,然后设置价格。对于下游,我们调用Collectors::collectingAndThen,正如我们将看到的,这将允许我们对下游收集器应用一个完成转换。调用Collectors::reducing创建一个默认值TaxEntryAggregation 以涵盖没有下游元素。Lambda 表达式进行归约并返回一个TaxEntryAggregation包含字段聚合的新表达式使用在先前归约中计算的计数执行完成转换,计算平均值并返回最终结果TaxEntryAggregation

我们看到这种实现不仅允许我们同时进行多个字段聚合,而且还可以在多个阶段执行复杂的计算。

这可以很容易地推广到解决更复杂的问题。路径很简单:定义一条记录,封装所有需要聚合的字段,Collectors::mapping用来初始化记录,然后申请Collectors::collectingAndThen做归约和最终聚合。

和以前一样,我们可以获得纽约的聚合:

System.out.println("Finished aggregation: " + groupByAggregation.get(new StateCityGroup("New York", "NYC")));

我们得到结果:

Finished aggregation: TaxEntryAggregation[count=3, weightedAveragePrice=4.67, totalPrice=40.0]

还值得指出的是,由于TaxEntryAggregation是 Java record,它不能改变,因此可以使用流收集器库提供的支持来并行计算。

结论

本文给大家展示了几种策略来使用聚合进行复杂的多字段分组,这些聚合包括具有多字段和跨字段计算的非原始数据类型。这是一个使用 Java 流和 Collectors API 的记录列表,因此它为我们提供了快速有效地处理大量数据的能力。

标签: #java聚合