Inteligenta artificiala. Alpha Zero vs Stockfish



In timp ce scriam în Decembrie despre Noua Religie, algoritmul celor de la Alpha Zero se antrena cu cel mai performant program de șah, Stockfish, în descifrarea tainelor acestui joc.  Știm că a Alphago a înfrânt cu ceva timp în urma pe campionii de Go, dar acolo posibilitatea erorii umane este cu mult mai mare ca la șah, fiind un joc intuitiv ci nu atât de logic. Așadar acest experiment a fost cât mai obiectiv eliminând eroarea umana.

Stockfish poate înfrânge  fără probleme pe cei mai mari campioni ai lumii la sah. Cu toate astea, programul nu poate gândi infinitatea de variante pana la capăt ci are un anumit număr de mutări definit, în funcție de context( 7 miioane de variante pe secunda.). Bineînțeles, cu mult peste Kasparov care poate gândi aproximativ 15 mutări complete în avans. Dar nu despre asta e șahul.  Despre forță bruta. Căci variantele sunt de 10™la puterea 120. Adică cu mult peste atomii din sistemul nostru solar.  Deci șahul rămâne un joc deschis, conform teoriticianului Claude Shannon.

Dar softul nu își propune sa rezolve și sa epuizeze infinitele posibilități, ci își propune sa câștige jocul. Oarecum, are o gândire pragmatica. Ca și cea a omului care nu are nevoie de multe calcule ca să elimine variantele posibile. Pur și simplu țin de sensul comun al regulilor de sah. Stockfish compensează prin calcule și forță bruta. Ei bine tocmai aici vine știrea, revoluția, care răstoarnă tot ceea ce știam despre inteligenta artificiala.

După numai patru ore de antrenament, Alpha zero ajunge sa re mizeze de 72 de ori cu Stockfish și sa câștige de 27 de ori. Cu un procesor ce ar putea fi comparat cu un telefon pe lângă marele Stockfish. Wow. Aceasta știre, nu știu câți intuiesc sau realizează, face cât o revoluție industriala. Cum a fost posibil?

Știm ca Alpha zero folosește un algoritm de reinforcement, fiind un elev autodidact. Cu fiecare greșeală devine mai bun. Dar nu înțelegem cum e posibil sa câștige în fata unui supercomputer, Alpha fiind doar un copil în vârstă de patru ore, folosind doar 80 mii calcule pe secunda. Iar aici intervine intuiția. Căci spre deosebire de Stockfish el nu calculează variantele cantitativ, ci calitativ. Sa explic.

Observând cele zece jocuri făcute publice de cei de la Alpha, am observat ca tot timpul Stockfish a avut un avantaj de piese. Ori un pion ori patru pioni bine poziționați contra unui nebun. Cu alte cuvinte, Alpha a avut o strategie atât de umana, lăsând impresia ca Stockfish deține controlul pana pe la jumătatea game-ului.  Dar apoi totul a devenit limpede și clar. Alpha deținea pozițiile strategice., deschiderile.

Strategia părea atât de umana încât aveam impresia ca sunt mutările/greșelile mele. Numai ca niciodată nu as fi văzut și ieșirile. Sacrifici pentru o poziție pe termen lung. Sa joci cu un pion în minus la acel nivel e ca un handicap. Dar merita dacă scoți un nebun din calcule 80% din joc. Când Stockfish avea avantaj de piese, acel avantaj era inutil, fiind adus de Alpha Zero in poziția cunoscuta ca 'zungwang' in strategie.

Așadar, concluzia pe care o tragem din aceste game-ului superbe.
1. Degeaba ai un avantaj la început dacă jocul se disputa la final. Pionii erau puternici, dar sinergia nebunului a compensat acest handicap. Degeaba ai infanterie numeroasa dacă îți deplasezi greu trupele aflându-se abia la jumătatea drumului pentru a fi promovați ca regină. Ca Ștefan cel Mare care atrăgea cavaleria și ostile inamice spre mlaștini.

2. Când a jucat cu handicapul unui pion lipsa, Alpha Zero a evaluat acest minus ca pe o poziționare strategica pe tabla. A izolat mișcările unui nebun. Așadar degeaba ai o tehnica avansata si avantaj material dacă nu știi sa îl folosești. Se învechite și apar noi tehnologii, noi posibilități.

De ce a câștigat Alpha Zero? După părerea mea a câștigat pentru ca a jucat cât mai intuitiv. Stockfish a fost pragmatic. El evaluând bogăția în valoarea pieselor. Pe când Alpha Zero a evaluat poziționarea și posibilitatea de a mobiliza piesele. În al doilea rand Stockfish a fost proiectat  astfel încât fiecare piesa sa aibă un indice valoric. Iar asta e doar un calcul material.

Ce am învățat din acest joc. Am învățat ca intuiția este mai importanta decât forță bruta. Perspectiva jocului. Gândind ca un computer vom fi totdeauna mai slabi decât computerul. Asa cum zicea și Kasparov, atuul omului este acela ca știe mai multe decât știe. Poate ca aceasta "neștiință" a propriilor noastre forte ne va salva cândva. Cu alte cuvine, e bine sa să nu știm încă de ce suntem capabili. Pentru ca orice cunoaștere e și o contaminare, o corupere.

8 comentarii:

Anonim spunea...

panalacer

David spunea...

Îțiplace?

Anonim spunea...

normalpaicefaceam?

David spunea...

Nustiu.Studiem mișcările ne poziționam strategic? uneori e nevoie de sacrificiu.

Anonim spunea...

https://youtu.be/RScoIaexvbo
Gala

Anonim spunea...

Și zici ca tu nu te dezici? Pai unde-i postarea? :))))))

David spunea...

La ce postare te referi?

Anonim spunea...

De fapt era un comment aici pe care ți l-ai sters.
Las-o asa. Curând se va face liniste.