인공지능(AI)은 수십 년 동안 체스 세계에서 중요한 역할을 해왔다. IBM의 딥 블루(Deep Blue)와 같은 시스템은 90년대 후반 세계 챔피언 가리 카스파로프(Garry Kasparov)를 물리친 사건으로 헤드라인을 장식했다. 최근에는 AI 발전으로 인해 머신러닝기술을 사용하여 게임 플레이를 개선하는 AlphaZero 및 Stockfish 16과 같은 시스템이 개발되었다.
Google DeepMind의 최근 논문에서 볼 수 있듯이 이 분야의 연구는 여전히 활발하게 진행되고 있다. DeepMind 연구원들은 천만 개의 체스 게임 데이터 세트에 대한 지도 학습을 사용하여 2억 7천만 개의 매개변수로 변환기 모델을 훈련했다. 데이터 세트의 각 게임에는 강력한 Stockfish 16 엔진이 제공하는 작업 값으로 주석이 추가되어 약 150억 개의 데이터 포인트가 생성되었다.
체스 세계에서는 플레이어의 기술 수준이 Elo 등급 시스템을 사용하여 측정되는 경우가 많다. 평균적인 클럽 선수의 Elo 등급은 약 1500인 반면, 세계 챔피언의 등급은 일반적으로 2800 이상이다. 이 문서에서 언급한 것처럼 Lichess blitz Elo 등급인 2895이며 이는 세계 최고의 인간 플레이어와 비교할 수 있는 매우 높은 수준의 기술을 나타낸다.
이 모델은 인간 상대와 대결할 때 Lichess blitz Elo 등급 2895를 달성할 수 있었으며 일련의 까다로운 체스 퍼즐을 푸는 데에도 성공했다. 놀랍게도 이러한 성과는 도메인별 수정이나 명시적인 검색 알고리즘 없이 이루어졌다.
성능 측면에서 이 모델은 AlphaZero의 정책 및 가치 네트워크(MCTS 제외) 및 GPT-3.5-turbo-instruct보다 성능이 뛰어났다. 연구원들은 강력한 체스 성능이 충분한 규모에서만 발생한다는 것을 발견했다. 또한 결과를 검증하기 위해 광범위한 설계 선택 및 하이퍼파라미터 제거 작업을 수행했다.
연구자들은 충분한 규모의 표준 지도 학습을 통해 Stockfish 16의 좋은 근사치를 피드포워드 신경망으로 추출하는 것이 가능하다고 결론지었다. 이 연구는 복잡하고 정교한 알고리즘이 피드포워드 변환기로 정제될 수 있음을 보여주는 문헌의 증가에 기여한다. 이는 대형 변환기를 단순한 통계적 패턴 인식기에서 일반 알고리즘 근사를 위한 강력한 기술로 보는 패러다임 전환을 의미한다.
이 논문에서는 모델의 한계에 대해서도 논의한다. 가장 큰 모델은 매우 좋은 성능을 달성하지만 Stockfish 16과의 격차를 완전히 좁히지는 못한다. 모든 확장 실험은 결국 충분한 데이터에 대해 훈련된 충분히 큰 모델을 사용하여 이 격차를 줄이는 방향으로 진행된다. 그러나 현재의 결과는 연구자들이 그 격차가 확실히 메워질 수 있다고 주장하는 것을 허용하지 않는다.
논의된 또 다른 제한은 예측자가 현재 상태를 볼 수 있지만 전체 게임 기록은 볼 수 없다는 것이다. 이로 인해 소규모 도메인별 휴리스틱이나 훈련 데이터 및 관찰 가능한 정보의 확대 없이는 극복할 수 없는 몇 가지 근본적인 기술적 한계가 발생한다.
마지막으로, 정책을 구성하기 위해 상태-가치 예측자를 사용할 때 연구자는 법적 조치를 통해 도달할 수 있는 모든 가능한 후속 상태를 고려한다. 이를 위해서는 전환 모델 𝑇(𝑠, 𝑎)이 필요하며 1단계 검색 버전으로 간주될 수 있다. 주요 요점은 예측자가 동작 시퀀스를 명시적으로 검색하지 않는다는 것이지만, 연구자들은 '검색 없음'이라는 주장을 동작-가치 정책 및 행동 복제 정책으로 제한한다.
결론적으로, 이 논문은 AI와 체스 분야의 중요한 발전을 제시하며 Stockfish 16과 같은 복잡한 검색 기반 알고리즘이 표준 지도 학습을 통해 피드포워드 신경망으로 잘 근사될 수 있음을 보여준다. 이는 더 넓은 AI 분야에 영향을 미치며, 복잡하고 정교한 알고리즘이 피드포워드 변환기로 정제될 수 있음을 시사하여 대형 변환기를 보고 활용하는 방식의 패러다임 전환을 가져올 수 있음을 시사한다.