I Nim finns det bara ett begränsat antal drag som är optimala för en given brädekonfiguration. Om du inte spelar någon av dessa, överlåter du effektivt kontrollen till din motståndare, som kan fortsätta att vinna om de bara spelar de bästa dragen. Återigen kan det optimala draget bestämmas genom att utvärdera en matematisk paritetsfunktion.
Därför finns det anledning att tro att träningsprocessen som fungerade för schack kanske inte fungerar för nim. Det som förvånade mig var hur illa det faktiskt var. Zhou och Riis fann att för en femrads Nim-bräda förbättrades AI:n ganska snabbt och fortsatte att förbättras efter 500 träningsupprepningar. Att bara lägga till en rad till bromsade dock förbättringen avsevärt. Och för 7-radsbrädan upphörde prestandaförbättringen i princip när AI:n spelade 500 gånger.
För att bättre illustrera problemet ersatte forskarna delsystemet som föreslog potentiell rörelse med ett som uppträdde slumpmässigt. På Nim-tavlan med 7 kolumner var prestandan för de tränade och randomiserade versionerna omöjliga att särskilja, även över en vinst på 500 träningar. När brädet väl är tillräckligt stort kan systemet inte längre observera och lära av resultatet av spelet. Det initiala tillståndet för konfigurationen med sju kolumner har tre potentiella drag som kan leda till den slutliga segern. Men när de utbildade handbedömarna i deras system ombads kontrollera alla potentiella drag, bedömde de alla händer som ungefär lika.
Forskarna drar slutsatsen att Nim kräver att spelare lär sig paritetsfunktionen för att kunna spela effektivt. Och träningsprocedurerna som fungerar så bra i schack och Go kan inte göra det.
Inte bara Nim
Ett sätt att se på slutsatsen är att Nim (och i förlängningen alla rättvisa spel) bara är konstigt. Men Zhou och Riis hittade också tecken på att schackspelande AI:er tränade på detta sätt kunde drabbas av liknande problem. De identifierade flera ”fel” schackdrag som till en början fick högt betyg av AI-brädeutvärderarna. Det vill säga en som missade ett parningsanfall eller kastade ett slutspel. Programvaran kunde undvika dessa misstag bara för att den lade till fler grenar för framtiden.
