如何通俗的理解beam search？

三哥平凡创作生活 08-23 1927

前言：

现在大家对“beam搜索算法”都比较看重，小伙伴们都想要分析一些“beam搜索算法”的相关知识。那么小编也在网上汇集了一些有关“beam搜索算法””的相关知识，希望朋友们能喜欢，兄弟们快快来了解一下吧！

假设一个搜索任务

假设现在有一个简化版的中文翻译英文任务，输入和输出如下，为了方便描述搜索算法，限制输出词典只有{"I", "H", "U"} 这3个候选词，限制1个时间步长翻译1个汉字，1个汉字对应1个英文单词，这里总共3个汉字，所以只有3个时间步长。

中文输入："我" "恨" "你"英文输出："I" "H" "U"

目标：得到最优的翻译序列 I-H-U

exhaustive search（穷举搜索）

最直观的方法就是穷举所有可能的输出序列，3个时间步长，每个步长3种选择，共计 27种排列组合。

I-I-II-I-HI-I-UI-H-II-H-HI-H-UI-U-II-U-HI-U-UH-I-IH-I-HH-I-UH-H-IH-H-HH-H-UH-U-IH-U-HH-U-UU-I-IU-I-HU-I-UU-H-IU-H-HU-H-UU-U-IU-U-HU-U-U

从所有的排列组合中找到输出条件概率最大的序列。穷举搜索能保证全局最优，但计算复杂度太高，当输出词典稍微大一点根本无法使用。

greedy search（贪心搜索）

贪心算法在翻译每个字的时候，直接选择条件概率最大的候选值作为当前最优。如下图所以，

第1个时间步长：首先翻译"我"，发现候选"I"的条件概率最大为0.6，所以第一个步长直接翻译成了"I"。第2个时间步长：翻译"我恨"，发现II概率0.2，IH概率0.7，IU概率0.1，所以选择IH作为当前步长最优翻译结果。第3个时间步长：翻译"我恨你"，发现IHI概率0.05，IHH概率0.05，IHU概率0.9，所以选择IHU作为最终的翻译结果。

PS：图中的概率如何得来的？不同的模型有不同的算法，我自己随便填的。

greedy search

贪心算法每一步选择中都采取在当前状态下最好或最优的选择，通过这种局部最优策略期望产生全局最优解。但是期望是好的，能不能实现是另外一回事了。贪心算法本质上没有从整体最优上加以考虑，并不能保证最终的结果一定是全局最优的。但是相对穷举搜索，搜索效率大大提升。

beam search（束搜索）

beam search是对greedy search的一个改进算法。相对greedy search扩大了搜索空间，但远远不及穷举搜索指数级的搜索空间，是二者的一个折中方案。

beam search有一个超参数beam size（束宽），设为 k。第一个时间步长，选取当前条件概率最大的 k 个词，当做候选输出序列的第一个词。之后的每个时间步长，基于上个步长的输出序列，挑选出所有组合中条件概率最大的 k 个，作为该时间步长下的候选输出序列。始终保持 k 个候选。最后从 k 个候选中挑出最优的。

还是以上面的任务为例，假设 k=2，我们走一遍这个搜索流程。

第一个时间步长：如下图所示，I和H的概率是top2，所以第一个时间步长的输出的候选是I和H，将I和H加入到候选输出序列中。

beam search 第一个时间步长

第2个时间步长：如下图所示，以I开头有三种候选{II, IH, IU}，以H开头有三种候选{HI, HH, HU}。从这6个候选中挑出条件概率最大的2个，即IH和HI，作为候选输出序列。

beam search 第二个时间步长

第3个时间步长：同理，以IH开头有三种候选{IHI, IHH, IHU}，以HI开头有三种候选{HII, HIH, HIU}。从这6个候选中挑出条件概率最大的2个，即IHH和HIU，作为候选输出序列。因为3个步长就结束了，直接从IHH和IHU中挑选出最优值IHU作为最终的输出序列。

beam search 第三个时间步长

beam search不保证全局最优，但是比greedy search搜索空间更大，一般结果比greedy search要好。

greedy search 可以看做是 beam size = 1时的 beam search。

原文转自：

本文地址：http://www.longkongtuishu.com/ca4c7BA1sBFYBD1Fc.html

标签： #beam搜索算法