Извлечение последовательностей антител и кластеризация

Описание

Данный скрипт предназначен для выделения последовательностей аминокислотных цепей антител из файлов формата PDB. Для обработки файлов используется SAbDab-база данных.

Установка и настройка окружения

Установите Anaconda (если он не установлен) с официального сайта.
Скачайте репозиторий с помощью команды git clone https://github.com/SergeiNikolenko/AntibodyCluster.git.
Создайте новое окружение в Anaconda с помощью команды conda env create -f environment.yml.
Для запуска скрипта необходимо активировать созданное окружение с помощью команды conda activate ml4.

Использование

Скачайте SAbDab-базу данных с официального сайта (https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/) и распакуйте ее.
Разместите все файлы PDB в папке all_structures/chothia.
Запустите ml.ipynb, он содержит все скрипты для обработки и инструкции.

Как работает скрипт

Извлечение последовательностей аминокислот для тяжелых и легких цепей антител из файлов PDB. Данные последовательности сохраняются в отдельных файлах в формате FASTA в папках "heavy_chains" и "light_chains".
Удаление пустых файлов. Скрипт проверяет файлы FASTA в папках "heavy_chains" и "light_chains" на наличие пустых файлов и удаляет их.
Кластеризация последовательностей аминокислот с помощью алгоритмов DBSCAN, K-mean и иерархической кластеризации.
Анализ кластеризации.

Как использовать результаты

Результаты кластеризации можно использовать для анализа структуры антител и их свойств в различных выборках. Также вы можете использовать код из скрипта для своих собственных исследований.

Как работать со скриптом

Для использования скрипта необходимо выполнить следующие шаги:

Скачать базу данных SAbDab с сайта https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/ и разархивировать ее. В данном скрипте используется папка "all_structures/chothia", поэтому необходимо убедиться, что эта папка присутствует после разархивирования.
Запустите скрипт ml.ipynb в Jupyter Notebook или Jupyter Lab.
Запустите ячейку с нужной вам функцией
Проведите анализ результатов и создайте визуализации с помощью полученных данных.

Что еще нужно знать

Данный скрипт может обрабатывать большое количество файлов PDB с задержкой. Если у вас возникнут проблемы с обработкой больших файлов, рекомендуется разделить файлы на более мелкие части и запустить скрипт на каждой части отдельно.

Также важно отметить, что данный скрипт был написан в рамках учебного проекта и может быть улучшен и дополнен. Если у вас есть какие-либо предложения или замечания, пожалуйста, свяжитесь с автором.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.gitignore		.gitignore
PDB_chain_to_fasta.py.py		PDB_chain_to_fasta.py.py
README.md		README.md
README_EN.md		README_EN.md
environment.yml		environment.yml
ml.ipynb		ml.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

PDB_chain_to_fasta.py.py

PDB_chain_to_fasta.py.py

README.md

README.md

README_EN.md

README_EN.md

environment.yml

environment.yml

ml.ipynb

ml.ipynb

Repository files navigation

Извлечение последовательностей антител и кластеризация

Описание

Установка и настройка окружения

Использование

Как работает скрипт

Как использовать результаты

Как работать со скриптом

Что еще нужно знать

About

Releases

Packages

Languages

SergeiNikolenko/AntibodyCluster

Folders and files

Latest commit

History

Repository files navigation

Извлечение последовательностей антител и кластеризация

Описание

Установка и настройка окружения

Использование

Как работает скрипт

Как использовать результаты

Как работать со скриптом

Что еще нужно знать

About

Topics

Resources

Stars

Watchers

Forks

Languages