Skip to content

Training Data Release

Compare
Choose a tag to compare
@Nyanyan Nyanyan released this 02 Feb 04:58
· 40 commits to main since this release

日本語は下部にあります

English

Abstract

This is a set of training data for Othello AI generated with Egaroucid.

There are many data (25.5 million boards), and you can use it in creating your Othello AI.

Website: https://www.egaroucid.nyanyan.dev/ja/

GitHub Repository: https://github.com/Nyanyan/Egaroucid

Author: Takuto Yamana ( https://nyanyan.dev/ja/ )

Terms of Service

  • You can use this data freely in your activities, such as creating an evaluation function of Othello.

    • If you used this data and you thought very useful, I, Takuto Yamana, would be very pleased if you told me that, or you wrote something like "I used Egaroucid's self-play data for training my Othello AI".
  • I am not responsible for any damage caused by using this data. Please use at your own risk.

  • Redistribution of this data is prohibited.

    • Please advertise Egaroucid's website or GitHub if you would like to promote.

Details

You can see text files formatted like XXXXXXX.txt in each directory, and inside it, there are 1 million pairs of board and score.

In each text file, there are 1 million lines. Each line is like:

-XO-OOXOOXX-OXOO-XXOXXOOX-OXOOXOOXOOOXXXO-XOOOXXO-O-OO---OOOX-O- 4

A board is represented with the first 64 characters. The letters are arranged in the order of a1, b1, c1, ..., a2, b2, c2, ..., h8. X represents the player's (the player to make a move) disc on the board, Of represents the opponent's disc, and - represents an empty square.

A number is recorded one space after the string that describes the board. This number represents the player's evaluation value (estimated final stone) on that board state.

The total number of discs on the board and the number of positions included are as follows:

Total # Discs # Data
4 1
5 1
6 3
7 14
8 60
9 322
10 1773
11 10649
12 67245
13 434029
14 to 63 500000 each
Total 25514097

Data for the first 11 moves (total number of discs on the board is 15 or less) was generated using Egaroucid for Console 7.4.0 level 17. It was generated by enumerating all progress up to move 11, calculating the evaluation value for each of those progresses using Egaroucid, and negamaxing the results.

Data from the 12th move onwards (when the total number of discs on the board is 16 or more) was generated by self-plays with Egaroucid for Console 7.5.1 level 17. The score associated with each position is the score at the end of the self-play. The results were varied by playing the opening $7 \leq N \leq 59$ moves randomly. Positions before $N$ moves (where the random plays resulted in bad moves and the final score and the score of the position were far apart) are not included. The positions published were recorded from these games, with priority given to positions immediately after the opening random plays.

日本語

概要

オセロAI Egaroucidによって生成した、オセロAI学習向けデータです。

大量のデータ(約2551万局面)を収録しましたので、ご自身のオセロAIの制作などにご利用ください。

Webサイト: https://www.egaroucid.nyanyan.dev/ja/

GitHubレポジトリ: https://github.com/Nyanyan/Egaroucid

作者: 山名琢翔 ( https://nyanyan.dev/ja/ )

利用規約

  • この対局データはオセロAIの評価関数生成など、自身の活動に自由に活用してください。
    • 強制ではありませんが、もしこのデータが役に立った場合にはEgaroucid作者の山名にご連絡いただけるか、「Egaroucidのサイトで公開しているデータを使った」と明記して公開していただけると嬉しいです。
  • この対局データを使ったことによるいかなる損害にも責任を負いません。自己責任でご利用ください。
  • この対局データの再配布を禁止します。
    • 宣伝してくださる場合は、EgaroucidのWebサイトまたはGitHubをぜひ宣伝してください。

詳細

各フォルダ内にXXXXXXX.txtというテキストファイルが入っています。これを開くと各行について、オセロの盤面を表す文字列とその盤面の(手番側の)スコアがスペース区切りで記録されています。1つのテキストファイルには100万局面ずつ収録してあります。

テキストファイルは各100万行ずつあり、各行に以下のようなデータが入っています。

-XO-OOXOOXX-OXOO-XXOXXOOX-OXOOXOOXOOOXXXO-XOOOXXO-O-OO---OOOX-O- 4

前半64文字で盤面を表しています。各文字はa1、b1、c1、…、a2、b2、c2、…、h8の順番で並んでいます。Xがその盤面での手番側(これから着手する方)の石、Ofが相手の石、-が空きマスを表します。

盤面を表す文字列から1つスペースを空けて、数字が記録されています。これはその盤面での手番側の評価値(予想最終石差)を表します。

盤上の合計の石数と収録されている局面の数の対応は以下の通りです。

盤上の石数 収録局面数
4 1
5 1
6 3
7 14
8 60
9 322
10 1773
11 10649
12 67245
13 434029
14から63 各500000
合計 25514097

序盤11手まで(盤上の合計の石数が15枚以下)のデータはEgaroucid for Console 7.4.0 レベル17において生成しました。11手までの進行をすべて列挙して、その進行すべてについてEgaroucidを使って評価値を計算し、その結果をnegamaxすることで生成しました。

序盤12手以降(盤上の合計の石数が16枚以上)のデータはEgaroucid for Console 7.5.1 レベル17での自己対戦によって生成しました。各局面に紐づけられたスコアは、自己対戦の終局時のスコアです。自己対戦時、序盤の$7 \leq N \leq 59$手をランダム打ちさせることで、対戦結果をばらつかせました。$N$手より前の局面(ランダム打ちによって悪手の応酬になっており、最終スコアと局面のスコアがかけ離れている)は収録していません。公開している局面は、これらの棋譜から、序盤ランダム打ちした直後の局面を優先して収録しました。