Elfet May 11 2023 at 19:06

Русские шашки: представление доски с помощью двух uint64

Easy

3 min

Programming*Go*Machine learning*Artificial Intelligence

Review

+13

Comments 32

datacompboy May 11 2023 at 19:12

Таки достаточно же одного uint64. Шашки раз мещаются только на половине клеток, так что спокойно два бита на каждое поле есть и так.

Хотя если помнить, что надо только 3 положения на клетку, то все состояние впихивается в 51 бит в лоб, без необходимости учитывать что шашек ограниченное число

Ariki May 11 2023 at 19:23

Там же дамки ещё, так что 5 положений на клетку. И количество ходов дамками надо записывать, чтобы знать, когда объявить ничью.

datacompboy May 11 2023 at 22:56

Про дамки я просто забыл, посыпаю лысину пеплом :(

Vindicar May 11 2023 at 19:25

Погодите-ка. Как одного? На доске 64 клетки, но используется только половина, т.е. 32. Каждая клетка может иметь 5 состояний: пустая, белая шашка, белая дамка, чёрная шашка, чёрная дамка. На 5 состояний нужно не менее 3 бит. Получаем 1*32*3 = 96 бит. А вот 2 * 32 * 2 = 128 бит можно получить либо если хранить отдельно белые и отдельно чёрные шашки, либо если для простоты "округлить" 3 бита до ниббла (4 бита).

vadimr May 11 2023 at 20:50

Поскольку состояния клеток теоретически можно хранить совместно, то необязательно округлять 5 состояний до 3 битов, а точная верхняя оценка составит ceil (log2(5)*32), то есть 75 битов. Но это без учёта того, что шашек ограниченное количество, поэтому не все комбинации состояний клеток реализуемы, следовательно ещё несколько битов можно откинуть.

Насколько эффективна для обработки будет такая упаковка – другой вопрос.

mapron May 11 2023 at 21:00

Да просто используем uint64 для того чтобы описать "номер возможной комбинации", их оценивают в 10^20 что меньше чем 2^60. Правда очередность кода и подсчет количества ходов в эндшпиле без взятия уже не впихнуть, похоже.

Не то чтоб я считал это сколько-либо рациональным для любого применения :)

-2

vadimr May 11 2023 at 21:02

То, что Вы написали, очень похоже на правду, но для полного занудства хотелось бы понять, из каких соображений взялась оценка 10^20.

mapron May 11 2023 at 21:19

Из соображений - первая выдача в гугле по запросу "число комбинаций в русских шашках", сорри) я не тратил сам время на расчеты) Это число может быть сколь угодно неточным.

x67 May 11 2023 at 21:56

Откуда такие выводы?

2^60 это примерно 10^18.06, что гораздо меньше 10^20

mapron May 11 2023 at 22:00

Кстати да, я 10^18 взял для расчета, дебил) ну так да, для соточки еще 6-7 бит надо ,не влезет никак. (ушел вешаться)

kipar May 12 2023 at 09:35

У меня получилось 2308487698984342680192 (2.31*10^21) = 71 бит для всех позиций. Считал так: https://carc.in/#/r/f1we

Это правда без учета того что не все позиции возможны в реальной игре (не могут обе стороны провести все свои фишки в дамки) - но ведь в движке может потребоваться и невозможные в реальности позиции представлять.

iamkisly May 11 2023 at 21:26

Можно еще меньше, если первый бит декодирующий: 0b0 - это пустая клетка, 0b100~0b111 - занятая клетка. 72 бита на занятые клетки, и 8 бит пустых. Итого 80 бит в начале игры, и до минимум 35 (остаться должен только один) или 38 (ничья) в конце. Остальные 48+ бит можно потратить на счетчики ходов.

Ужать меньше наверно не получится из-за оверхеда. Не знаю как @datacompboy получил 51 бит.

vadimr May 11 2023 at 22:52

Как у вас получилось 72 и 80? Ровно 64 бита же. 16*3=48 для занятых и 16*1=16 для пустых чёрных клеток доски.

А 51 бит он получил, не учтя дамки, по вашему способу тогда получается 48.

Ogra May 11 2023 at 22:55

В начале игры у каждой стороны по 12 шашек.

vadimr May 11 2023 at 22:59

Я чайник :)

Но тогда это заведомо неоптимальное кодирование (просто пронумеровать все возможные состояния доски без учёта количества фигур можно 75 битами). И даже понятно, почему неоптимальное - первый бит сильно неравновесен, значение 0 фактически имеет вероятность около 1/5, а не 1/2.

kahi4 May 12 2023 at 01:15

У меня получилось что-то вроде:

00 - пустая

01 - Наша шашка

10 - враг

110 - наша дамка

111 - чужая дамка

В лучшем случае 64 бита, в случае с дамками начинает расти.

Наверное, алгебраическое кодирование даст больше, но вероятности все съедят :(

iamkisly May 12 2023 at 01:17

Какие вероятности? Хотя кажется понял.

kahi4 May 12 2023 at 01:34

ошибся, «арифметическое», не алгебраическое шифрование. Оно использует вероятности чтобы кодировать наиболее часто встречаемые последовательности (скажем, у нас довольно быстро будет пустых ячеек больше, чем не пустых), но ручками в полночь сделать его я не смогу, а так же, очевидно, нам для декодирования нам нужно гдето хранить эту самую вероятность.

PS Хотя шахматы, вон, Хаффманом кодируют.

hssergey May 11 2023 at 21:23

Когда-то портировал под j2me опенсорсный шахматный движок от https://www.java-chess.de/java-chess/ - там все поле с фигурами хранится в массиве из 4х long. И вся обработка ходов идет через битовые операции. Весьма мозговыносяще было)

sancoder May 12 2023 at 06:32

Достаточно 3 битовых масок, где каждая - 32 бита (количество полей). Одна маска - белые фигуры, вторая маска - черные фигуры, третья маска - дамки. Это самое эффективное представление.

Если вдруг интересно использовать наработки эндшпильной базы от Тундры, обращайтесь в личку. Параметры сжатия такие: в 4ГБ хранится 400 млрд позиций.

kahi4 May 12 2023 at 13:52

400 млрд в 4ГБ это по 100 позиций на байт. Без серьезных сжатий тут не обошлось. Могу предположить что разреженность поля, пустота большую часть времени игры (пустот сильно больше чем фишек), и значительная репетативность позволяют применить те же кодирования Хоффмана на большом масштабе.

А мне интересно (если не жалко), имеет ли свертка значение или не особо? (Под сверкой я имею ввиду порядок обхода поля -- слева направо сверху вниз или по диагонали или еще какой-то хитрой фигурой, как в JPEG)

datacompboy May 12 2023 at 15:00

Что-то мне подсказывает, что это 3 байта на позицию а потом 7zip или xz поверх

sancoder May 12 2023 at 20:54

Для каждой позиции хранится не только результат Выигрыш/Ничья/Проигрыш (что можно упаковать 5 в один байт), но и то как в ней ходить. Ведь если в дамочном окончании выигрыш где-то очень далеко, то просчет не добивает, а знание результата не позволяет достичь выигрыша без просчета/перебора.

Отвечая на ваш вопрос, порядок полей скорее всего не имеет значения. Важно то, что "соседние позиции" повторяют результат. Хорошо, если соседние поля имеют близкий индекс - это позволяет усилить сжатие, но например в окончаниях важно владение большаком (диагональю a1-h8), а кодировать такие аспекты - вряд ли эффективно.

Elfet May 12 2023 at 22:05

Отличная идея с тремя масками. Можно попробовать переделать мой код и сравнить.

За базы спасибо 🙏

Elfet May 12 2023 at 22:08

Но про базы не уверен что получится использовать для web-версии.

Elfet May 12 2023 at 22:09

Как пока решить конец игры без них не придумал. Обучать на рандомных окончаниях возможно.

Elfet May 12 2023 at 09:50

Так же нужно не забывать что нужно не только эффективно представлять позиции, но и получать информацию тоже. Поэтому чтение по простой маске являются наиболее предпочтительными

sancoder May 12 2023 at 20:37

Есть довольно простой способ сравнения. Сравнить скорость генерации ходов. С представлением 12 байт на позицию (3 маски по 32 бита) мой генератор ходов выдавал 10 миллионов генераций в секунду (когда частота процессоров была 2-3 ГГц; само собой - на одно ядро). Ваш генератор (посмотрел в исходники) способен на сотни тысяч в секунду, не больше.

-1

Elfet May 12 2023 at 22:07

В чем может быть bottleneck? Доступ к полю?

sancoder May 12 2023 at 23:01

Можно параллельно проверять все шашки. Например, a1, c1, e1 могут бить, если на b2, d2, f2 стоит черная фигура и поле c3, e3, g3 - пустое.

brn May 12 2023 at 10:31

Что-то мне кажется что нам для расчёта хода не важно белая это дамка или чёрная. Думаю эффективнее было бы 0b001 - белая шашка, 0b010 - чёрная. Признак дамки вынести в старший бит. 0b101 - белая, 0b110 - чёрная. Если больше 3, то дамка, меньше 4 обычная шашка.

Didimus May 13 2023 at 16:53

Признак дамки можно хранить отдельно. И вообще, положение можно сделать вычисляемым по записям ходов

Show the best of all time