Данный скрипт предназначен для выделения последовательностей аминокислотных цепей антител из файлов формата PDB. Для обработки файлов используется SAbDab-база данных.
- Установите Anaconda (если он не установлен) с официального сайта.
- Скачайте репозиторий с помощью команды
git clone https://github.com/SergeiNikolenko/AntibodyCluster.git
. - Создайте новое окружение в Anaconda с помощью команды
conda env create -f environment.yml
. - Для запуска скрипта необходимо активировать созданное окружение с помощью команды
conda activate ml4
.
- Скачайте SAbDab-базу данных с официального сайта (https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/) и распакуйте ее.
- Разместите все файлы PDB в папке
all_structures/chothia
. - Запустите ml.ipynb, он содержит все скрипты для обработки и инструкции.
-
Извлечение последовательностей аминокислот для тяжелых и легких цепей антител из файлов PDB. Данные последовательности сохраняются в отдельных файлах в формате FASTA в папках "heavy_chains" и "light_chains".
-
Удаление пустых файлов. Скрипт проверяет файлы FASTA в папках "heavy_chains" и "light_chains" на наличие пустых файлов и удаляет их.
-
Кластеризация последовательностей аминокислот с помощью алгоритмов DBSCAN, K-mean и иерархической кластеризации.
-
Анализ кластеризации.
Результаты кластеризации можно использовать для анализа структуры антител и их свойств в различных выборках. Также вы можете использовать код из скрипта для своих собственных исследований.
Для использования скрипта необходимо выполнить следующие шаги:
- Скачать базу данных SAbDab с сайта https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/ и разархивировать ее. В данном скрипте используется папка "all_structures/chothia", поэтому необходимо убедиться, что эта папка присутствует после разархивирования.
- Запустите скрипт ml.ipynb в Jupyter Notebook или Jupyter Lab.
- Запустите ячейку с нужной вам функцией
- Проведите анализ результатов и создайте визуализации с помощью полученных данных.
Данный скрипт может обрабатывать большое количество файлов PDB с задержкой. Если у вас возникнут проблемы с обработкой больших файлов, рекомендуется разделить файлы на более мелкие части и запустить скрипт на каждой части отдельно.
Также важно отметить, что данный скрипт был написан в рамках учебного проекта и может быть улучшен и дополнен. Если у вас есть какие-либо предложения или замечания, пожалуйста, свяжитесь с автором.