Примерно так и получится. Пробовал я этот майнер на javascript, у него производительность около 25% от нормального.
Попал я как-то на сайт с майнером, сайт ресторана, при нагруженном на 100% своими задачами процессоре и включившимся майнером на сайте я этот сайт около минуты закрывал, не мог курсор с места сдвинуть и с клавиатуры ничего не работало. Я им написал, ответа не получил, больше у этих жлобов ничего не заказываю.
Для парсинга логичнее использовать потоки, а не процессы. Пробовал и так и эдак. Если правильно помню, 256 потоков едва загружали 1 ядро, правда сайт был довольно простой.
With 977 468 314 structures, GDB-13 is the largest publicly available small organic molecule database to date. http://gdb.unibe.ch/downloads/
Довольно просто нагенерить базы химических соединений самому — взять базу доступных билдинг блоков (например с Zinc или emolecules) и по простым для комбинаторного синтеза реакциям сделать базу продуктов реакций, это порядка миллиардов соединений.
Простота и скорость написания на Python просто отличные, но скорость исполнения кода часто здорово огорчает, как и потребление памяти. Результаты методов ускорения весьма далеки от скорости чистого C. Python в комбинации с С великолепен для широкого круга задач.
MACCS довольно странный выбор fingerprint-а, да и модель на основе fingerprint для машинного обучения не видится оптимальной, графы кажутся и логичней и перспективнее.
Из статьи не понял, есть ли какое-то преимущество перед банальной выборкой по similarity к известным активным веществам, хотелось бы видеть саму выборку, что бы понять, дал ли этот подход потенциальные хиты, которые традиционными методами не находятся.
Попал я как-то на сайт с майнером, сайт ресторана, при нагруженном на 100% своими задачами процессоре и включившимся майнером на сайте я этот сайт около минуты закрывал, не мог курсор с места сдвинуть и с клавиатуры ничего не работало. Я им написал, ответа не получил, больше у этих жлобов ничего не заказываю.
Довольно просто нагенерить базы химических соединений самому — взять базу доступных билдинг блоков (например с Zinc или emolecules) и по простым для комбинаторного синтеза реакциям сделать базу продуктов реакций, это порядка миллиардов соединений.
Из статьи не понял, есть ли какое-то преимущество перед банальной выборкой по similarity к известным активным веществам, хотелось бы видеть саму выборку, что бы понять, дал ли этот подход потенциальные хиты, которые традиционными методами не находятся.