Skip to content

The AntibodyCluster repository contains scripts designed to extract sequences of amino acid chains from antibodies present in Protein Data Bank (PDB) format files. The scripts employ the SAbDab database for file processing.

Notifications You must be signed in to change notification settings

SergeiNikolenko/AntibodyCluster

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Извлечение последовательностей антител и кластеризация

Описание

Данный скрипт предназначен для выделения последовательностей аминокислотных цепей антител из файлов формата PDB. Для обработки файлов используется SAbDab-база данных.

Установка и настройка окружения

  1. Установите Anaconda (если он не установлен) с официального сайта.
  2. Скачайте репозиторий с помощью команды git clone https://github.com/SergeiNikolenko/AntibodyCluster.git.
  3. Создайте новое окружение в Anaconda с помощью команды conda env create -f environment.yml.
  4. Для запуска скрипта необходимо активировать созданное окружение с помощью команды conda activate ml4.

Использование

  1. Скачайте SAbDab-базу данных с официального сайта (https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/) и распакуйте ее.
  2. Разместите все файлы PDB в папке all_structures/chothia.
  3. Запустите ml.ipynb, он содержит все скрипты для обработки и инструкции.

Как работает скрипт

  1. Извлечение последовательностей аминокислот для тяжелых и легких цепей антител из файлов PDB. Данные последовательности сохраняются в отдельных файлах в формате FASTA в папках "heavy_chains" и "light_chains".

  2. Удаление пустых файлов. Скрипт проверяет файлы FASTA в папках "heavy_chains" и "light_chains" на наличие пустых файлов и удаляет их.

  3. Кластеризация последовательностей аминокислот с помощью алгоритмов DBSCAN, K-mean и иерархической кластеризации.

  4. Анализ кластеризации.

Как использовать результаты

Результаты кластеризации можно использовать для анализа структуры антител и их свойств в различных выборках. Также вы можете использовать код из скрипта для своих собственных исследований.

Как работать со скриптом

Для использования скрипта необходимо выполнить следующие шаги:

  1. Скачать базу данных SAbDab с сайта https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/ и разархивировать ее. В данном скрипте используется папка "all_structures/chothia", поэтому необходимо убедиться, что эта папка присутствует после разархивирования.
  2. Запустите скрипт ml.ipynb в Jupyter Notebook или Jupyter Lab.
  3. Запустите ячейку с нужной вам функцией
  4. Проведите анализ результатов и создайте визуализации с помощью полученных данных.

Что еще нужно знать

Данный скрипт может обрабатывать большое количество файлов PDB с задержкой. Если у вас возникнут проблемы с обработкой больших файлов, рекомендуется разделить файлы на более мелкие части и запустить скрипт на каждой части отдельно.

Также важно отметить, что данный скрипт был написан в рамках учебного проекта и может быть улучшен и дополнен. Если у вас есть какие-либо предложения или замечания, пожалуйста, свяжитесь с автором.

About

The AntibodyCluster repository contains scripts designed to extract sequences of amino acid chains from antibodies present in Protein Data Bank (PDB) format files. The scripts employ the SAbDab database for file processing.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published