Sam Devlin: Potential-based reward shaping for knowledge-based, multi-agent reinforcement learning. University of York, UK 2013