광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[MindPlex-검색이 필요 없는 그랜드마스터 수준 체스 등장] DeepMind의 변환기 모델은 체스에서 Stockfish 16에 도전하여 검색 알고리즘 없이 2895 Lichess blitz Elo 등급을 달성했다. 이는 세계 최고의 인간 플레이어와 비교할 수 있는 매우 높은 수준의 기술을 나타낸다.

https://magazine.mindplex.ai/grandmaster-level-chess-without-search/

JM Kim | 기사입력 2024/04/16 [00:00]

[MindPlex-검색이 필요 없는 그랜드마스터 수준 체스 등장] DeepMind의 변환기 모델은 체스에서 Stockfish 16에 도전하여 검색 알고리즘 없이 2895 Lichess blitz Elo 등급을 달성했다. 이는 세계 최고의 인간 플레이어와 비교할 수 있는 매우 높은 수준의 기술을 나타낸다.

https://magazine.mindplex.ai/grandmaster-level-chess-without-search/

JM Kim | 입력 : 2024/04/16 [00:00]

인공지능(AI)은 수십 년 동안 체스 세계에서 중요한 역할을 해왔다. IBM의 딥 블루(Deep Blue)와 같은 시스템은 90년대 후반 세계 챔피언 가리 카스파로프(Garry Kasparov)를 물리친 사건으로 헤드라인을 장식했다. 최근에는 AI 발전으로 인해 머신러닝기술을 사용하여 게임 플레이를 개선하는 AlphaZero Stockfish 16과 같은 시스템이 개발되었다.

 

Google DeepMind의 최근 논문에서 볼 수 있듯이 이 분야의 연구는 여전히 활발하게 진행되고 있다. DeepMind 연구원들은 천만 개의 체스 게임 데이터 세트에 대한 지도 학습을 사용하여 2 7천만 개의 매개변수로 변환기 모델을 훈련했다. 데이터 세트의 각 게임에는 강력한 Stockfish 16 엔진이 제공하는 작업 값으로 주석이 추가되어 약 150억 개의 데이터 포인트가 생성되었다.

 

체스 세계에서는 플레이어의 기술 수준이 Elo 등급 시스템을 사용하여 측정되는 경우가 많다. 평균적인 클럽 선수의 Elo 등급은 약 1500인 반면, 세계 챔피언의 등급은 일반적으로 2800 이상이다. 이 문서에서 언급한 것처럼 Lichess blitz Elo 등급인 2895이며 이는 세계 최고의 인간 플레이어와 비교할 수 있는 매우 높은 수준의 기술을 나타낸다.

 

이 모델은 인간 상대와 대결할 때 Lichess blitz Elo 등급 2895를 달성할 수 있었으며 일련의 까다로운 체스 퍼즐을 푸는 데에도 성공했다. 놀랍게도 이러한 성과는 도메인별 수정이나 명시적인 검색 알고리즘 없이 이루어졌다.

성능 측면에서 이 모델은 AlphaZero의 정책 및 가치 네트워크(MCTS 제외) GPT-3.5-turbo-instruct보다 성능이 뛰어났다. 연구원들은 강력한 체스 성능이 충분한 규모에서만 발생한다는 것을 발견했다. 또한 결과를 검증하기 위해 광범위한 설계 선택 및 하이퍼파라미터 제거 작업을 수행했다.

 

연구자들은 충분한 규모의 표준 지도 학습을 통해 Stockfish 16의 좋은 근사치를 피드포워드 신경망으로 추출하는 것이 가능하다고 결론지었다. 이 연구는 복잡하고 정교한 알고리즘이 피드포워드 변환기로 정제될 수 있음을 보여주는 문헌의 증가에 기여한다. 이는 대형 변환기를 단순한 통계적 패턴 인식기에서 일반 알고리즘 근사를 위한 강력한 기술로 보는 패러다임 전환을 의미한다.

 

이 논문에서는 모델의 한계에 대해서도 논의한다. 가장 큰 모델은 매우 좋은 성능을 달성하지만 Stockfish 16과의 격차를 완전히 좁히지는 못한다. 모든 확장 실험은 결국 충분한 데이터에 대해 훈련된 충분히 큰 모델을 사용하여 이 격차를 줄이는 방향으로 진행된다. 그러나 현재의 결과는 연구자들이 그 격차가 확실히 메워질 수 있다고 주장하는 것을 허용하지 않는다.

 

논의된 또 다른 제한은 예측자가 현재 상태를 볼 수 있지만 전체 게임 기록은 볼 수 없다는 것이다. 이로 인해 소규모 도메인별 휴리스틱이나 훈련 데이터 및 관찰 가능한 정보의 확대 없이는 극복할 수 없는 몇 가지 근본적인 기술적 한계가 발생한다.

 

마지막으로, 정책을 구성하기 위해 상태-가치 예측자를 사용할 때 연구자는 법적 조치를 통해 도달할 수 있는 모든 가능한 후속 상태를 고려한다. 이를 위해서는 전환 모델 𝑇(𝑠, 𝑎)이 필요하며 1단계 검색 버전으로 간주될 수 있다. 주요 요점은 예측자가 동작 시퀀스를 명시적으로 검색하지 않는다는 것이지만, 연구자들은 '검색 없음'이라는 주장을 동작-가치 정책 및 행동 복제 정책으로 제한한다.

 

결론적으로, 이 논문은 AI와 체스 분야의 중요한 발전을 제시하며 Stockfish 16과 같은 복잡한 검색 기반 알고리즘이 표준 지도 학습을 통해 피드포워드 신경망으로 잘 근사될 수 있음을 보여준다. 이는 더 넓은 AI 분야에 영향을 미치며, 복잡하고 정교한 알고리즘이 피드포워드 변환기로 정제될 수 있음을 시사하여 대형 변환기를 보고 활용하는 방식의 패러다임 전환을 가져올 수 있음을 시사한다.

 

 

 

 

 
인공지능, 체스, 머신러닝기술, 그랜드마스터 수준 체스 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사