AI0323 知识梳理

恶补课程round1

这次课讲的是对抗搜索,以及对抗搜索的策略以及剪枝。

所谓对抗,是指AB两个agent,轮流走棋。假设这是一种取值游戏,并且假设A的最终游戏目的是使得:最后取的值尽可能大。 B最终的游戏目的是使得:最后选的值尽可能小。

那么就出现了第一个矛盾点。

A要在B足够理性时,选择最优的策略。

换句话说,若当前轮到A取值 那么 ansA = max{min{all},min{all},min{all}};

这是一棵树,A的取值建立在 B所有取值都取完之后,A取其中的较大值。
比如B1的选完之后,最小是3, B2选完是4,B3选完是9, 代表的意思是,B1在往后的所有策略中,能取得的最小值是3. 同理。

于是乎,在遍历完所有B的情况后,A可以做决策了,他要选的是max{b1,b2,b3};

那么alpha-beta剪枝,指的是能通过b的一系列选择,反馈给父亲节点,从而对兄弟节点进行剪枝的过程。

[alpha,belta] alpha是指max的人最小能取到的范围。beta是指min的人最大能取到的值。

还有一点,expecti-max 讲的是围棋,状态很大。几乎不能预知为未来,这个时候,可以采用期望的策略。

您可能还喜欢...

发表评论

电子邮件地址不会被公开。 必填项已用*标注