更新时间:2021-07-18 12:36:16
从他们生命的最初几年开始,人类就具有不断学习的天生能力,并通过观察周围环境中的事物或人与他们互动来建立世界的心理模型。认知心理学研究表明,人类广泛使用这种先前获得的知识,特别是当他们遇到新的情况或做出决定时。
尽管最近在人工智能(AI)领域取得了重大进展,但大多数虚拟代理仍然需要数百小时的培训才能在多个任务中实现人类级别的性能,而人类可以在几小时或更短时间内学会完成这些任务。最近的研究突出了人类获得知识的能力的两个关键因素 - 即直觉物理学和直觉心理学。
这些直觉模型已经在人类从发展的早期阶段观察到,可能是未来学习的核心推动者。基于这一想法,韩国高等科学技术研究院(KAIST)的研究人员最近开发了一种内在奖励归一化方法,允许AI代理选择最能改善其直觉模型的行为。在他们的论文中,预先发表在arXiv上,研究人员特别提出了一个图形物理网络,它与深层强化学习相结合,受到人类婴儿学习行为的启发。
研究人员在他们的论文中解释说:“想象一个房间里的人类婴儿,玩具周围有可到达的距离。” “他们不断地抓住,投掷和对物体采取行动;有时,他们会观察他们行为的后果,但有时,他们会失去兴趣并转向另一个物体。”作为科学家的儿童观点表明,人类婴儿是内在动机进行自己的实验,发现更多信息,并最终学会区分不同的对象,并创造更丰富的内部表征。“
心理学研究表明,在人生的最初几年,人类不断尝试周围环境,这使他们能够形成对世界的重要理解。此外,当儿童观察到的结果不符合他们之前的期望时(称为预期违规),他们经常被鼓励进一步尝试,以更好地了解他们所处的情况。
KAIST的研究小组试图使用强化学习方法在AI代理中重现这些行为。在他们的研究中,他们首先引入了一个图形物理网络,可以提取对象之间的物理关系,并预测它们在三维环境中的后续行为。随后,他们将该网络与深度强化学习模型相结合,引入了内在奖励规范化技术,鼓励AI代理人探索并识别将不断改进其直觉模型的行为。
研究人员使用三维物理引擎证明了他们的图形物理网络能够有效地推断出不同物体的位置和速度。他们还发现,他们的方法允许深度强化学习网络不断改进其直觉模型,鼓励它仅仅基于内在动机与对象进行交互。
在一系列评估中,由该团队的研究人员设计的新技术实现了非凡的准确性,AI代理执行了大量不同的探索行动。在未来,它可以为机器学习工具的开发提供信息,这些工具可以更快,更有效地从过去的经验中学习。
研究人员在他们的论文中解释说:“我们已经在各种场景中用固定和非固定问题测试我们的网络,其中球形物体具有不同的质量和半径。” “我们希望这些预先训练好的直觉模型将被用作其他目标导向任务的先验知识,如ATARI游戏或视频预测。”