这个"意识流"算法,让AI能像人一样归纳总结-服务器专区

这个"意识流"算法,让AI能像人一样归纳总结

作者：谢涛编辑：谢涛 2018-02-28 17:00 IT168网站原创

　　【IT168 编译】能够从错误中学习是一种强大的能力，人类总容易犯错，但也总能从中获益。有时我们搞砸了某件事，但至少过程中也有一点可取之处，我们可以从做的不够好的地方吸取教训，下次做的更好。最终，获得成功。就是我们常说的“失败是成功之母”。

　　人工智能(AI)可以使用类似的试错技术来学习新的任务。通过强化学习，AI会尝试不同的方法来做一件事，并在每次接近目标时获得奖励。基于这种由奖励提供的强化，AI在成功之前会尝试更多类似的东西。

　　人类的不同之处在于如何从失败和成功中学习。不仅仅是学习了与最初目标相关的东西,我们也收集了“为何会失败”的信息，而且以后可能会应用到一个略有不同的目标，我们比AI更善于归纳信息。

　　总部位于旧金山的人工智能研究公司OpenAI发布了一个我们可称之为“后见之明”(HER，Hindsight Experience Replay)的开源算法，该算法将失败视为成功，以帮助AI变得更像人类。

这个"意识流"算法,让AI能像人一样归纳总结

　　HER的主要理念可以说有一些“意识流”的影子: 在某一个特定的目标上，即便你没有取得成功，但你至少因此实现了另一个不同的目标。所以，为什么不假装你想要实现的正是这个目标，而不是最初设定的目标呢?

　　为了便于理解HER的运作方法，可以想象一下你在打棒球。你的目标是打出本垒打。在第一场比赛中，你击出了一个界外球。对于本垒打而言这是失败的，但是你在这个过程中学到了两件事:你学会了一种不打本垒打的方法，而且你也学会了如何击出界外球。当然，你事先不知道你会击出一个界外球，但有什么关系呢?事后经验回放，从你刚才做的动作中学习，本质上说，“如果我想打一个界外球，刚才那个就很完美!”你可能没有达到最初的目标，但你仍然取得了进步。

　　HER的另一个优点是，它使用了研究人员所谓的“稀疏奖励”(sparse rewards)来指导学习。作为强化学习过程的一部分，奖励是我们如何告诉AI他们所做的是一件好事还是一件坏事——它们只是算法中的数字，但你可以把它们想象成饼干。大多数强化学习算法都使用“密集奖励”(dense rewards)，AI根据任务完成的接近程度，得到不同大小的饼干。这些饼干对一个任务中的各个方面进行单独奖励，以此激励AI，在某种意义上，可帮助AI以你想要的方式学习。

这个"意识流"算法,让AI能像人一样归纳总结

　　密集奖励是有效的，但是设计它们可能会很棘手，而且它们在实际应用中并不总是现实的。大多数应用程序都非常注重结果且都出于实际目的，要么成功，要么失败。稀疏奖励意味着AI只有在它成功的时候才会得到一个饼干，因此:更容易测量，更容易编程，更容易实现。然而，权衡的结果是，这个方法会让学习变得更慢，因为AI没有得到增量式的反馈，它只是被反复告知“没有饼干给你”，除非它非常幸运，成功地实现了目标。

　　这就是HER的切入点:它通过奖励让AI进行学习，并把每一次尝试都当做成功，改变目标，让AI能学到一些东西。想象一下，AI没有接近最初目标，然后会说，“是的，我完全想这么做。”通过HER，你会说，“哦，在那种情况下，好，吃块饼干吧!”

　　通过这种替换，强化学习算法实现了某些特定目标，获得了学习信号，即使它不是你最初想要达到的目标。如果一直重复这个过程，AI最终会学会如何实现任意一个目标，当然，其中包括你真正想要达到的目标。

　　OpenAI为HER提供了一个开源版本，他们发布了一组基于真实AI平台的仿真AI环境，包括一个影子手和一个抓取研究AI。有关HER的更多信息可前往OpenAI官网了解。

关注我们