Skip to content

Latest commit

 

History

History
403 lines (351 loc) · 11.6 KB

index-cn.md

File metadata and controls

403 lines (351 loc) · 11.6 KB

biopython_logo

Biopython Tutorial and Cookbook

Jeff Chang, Brad Chapman, Iddo Friedberg, Thomas Hamelryck, Michiel de Hoon, Peter Cock, Tiago Antao, Eric Talevich, Bartek Wilczyński

Last Update – February ‍12, 2023 (Biopython 1.81)

目录

第一章 简介

  • 1.1 什么是Biopython?
  • 1.2 我能在 Biopython 包中找到什么
  • 1.3 安装Biopython
  • 1.4 常见问题(FAQ)

第二章 快速入门——你能用Biopython做什么?

  • 2.1 Biopython 简介
  • 2.2 处理序列
  • 2.3 一个使用示例
  • 2.4 解析序列文件格式
    • 2.4.1 简单的FASTA解析示例
    • 2.4.2 简单GenBank解析示例
    • 2.4.3 我喜欢解析——请不要停止谈论它!
  • 2.5 与生物数据库连接
  • 2.6 下一步做什么

第三章 序列对象

  • 3.1 序列就像字符串一样
  • 3.2 序列提取
  • 3.3 将 Seq 对象转换为字符串
  • 3.4 连接或添加序列
  • 3.5 大小写转换
  • 3.6 核苷酸序列和(反向)互补序列
  • 3.7 转录
  • 3.8 翻译
  • 3.9 翻译表
  • 3.10 比较 Seq 对象
  • 3.11 创建一个空白(未知)Seq对象
  • 3.12 包含部分空白(未知)的Seq对象
  • 3.13 MutableSeq 对象
  • 3.14 直接使用字符串

第四章 序列注释对象

  • 4.1 SeqRecord对象
  • 4.2 创建SeqRecord
    • 4.2.1 从头开始创建 SeqRecord 对象
    • 4.2.2 从 FASTA 文件创建 SeqRecord 对象
    • 4.2.3 从 GenBank 文件创建 SeqRecord 对象
  • 4.3 Feature, location 和 position对象
    • 4.3.1 SeqFeature 对象
    • 4.3.2 position和location
    • 4.3.3 用Feature或location描述序列
  • 4.4 比较
  • 4.5 参考文献
  • 4.6 格式化方法
  • 4.7 提取SeqRecord中的部分内容
  • 4.8 添加 SeqRecord 对象
  • 4.9 SeqRecord 对象中的反向补充序列

第五章 序列输入/输出

  • 5.1 解析或读取序列
    • 5.1.1 读取序列文件
    • 5.1.2 遍历序列文件中的记录
    • 5.1.3 获取序列文件中的记录列表
    • 5.1.4 提取数据
    • 5.1.5 修改数据
  • 5.2 从压缩文件中解析序列
  • 5.3 解析来自网络的序列
  • 5.3.1 从网上解析GenBank格式文件
  • 5.3.2 解析来自网络的SwissProt序列文件
  • 5.4 将序列文件读取为字典
    • 5.4.1 将序列文件读取为字典——在内存中
    • 5.4.2 将序列文件读取为字典——索引文件
    • 5.4.3 将序列文件读取为字典——数据库索引文件
    • 5.4.4 压缩文件构建索引
    • 5.4.5 讨论
  • 5.5 输出序列文件
    • 5.5.1 保证输出与输入格式一致的提示
    • 5.5.2 序列文件格式之间的转换
    • 5.5.3 将序列文件转换为其反向互补序列
    • 5.5.4 将 SeqRecord 对象转换为格式化字符串
  • 5.6 低级 FASTA 和 FASTQ 解析器

第六章 多序列比对对象

  • 6.1 解析或读取序列比对结果

    • 6.1.1 单比对
    • 6.1.2 多重比对
    • 6.1.3 模糊比对
  • 6.2 输出序列比对结果

    • 6.2.1 序列比对文件格式之间的转换
    • 6.2.2 将比对对象转换为格式化字符串
  • 6.3 提取比对结果

    • 6.3.1 提取部分比对结果
    • 6.3.2 将比对结果转换为数组
  • 6.4 获取比对信息

    • 6.4.1 置换
  • 6.5 比对工具

    • 6.5.1 ClustalW
    • 6.5.2 MUSCLE
    • 6.5.3 MUSCLE的标准输出
    • 6.5.4 MUSCLE的标准输入和标准输出
    • 6.5.5 EMBOSS needle和warer
  • 6.6 成对序列比对

    • 6.6.1 基本用法
    • 6.6.2 成对比对对象
    • 6.6.3 置换得分
    • 6.6.4 Affine gap得分
    • 6.6.5 一般gap得分
    • 6.6.6 使用预定义的置换矩阵和gap得分
    • 6.6.7 遍历比对结果
    • 6.6.8 比对对象
    • 6.6.9 与反向链比对
    • 6.6.10 例子
    • 6.6.11 一般成对比对
  • 6.7 替换矩阵

    • 6.7.1 创建数组对象
    • 6.7.2 从成对序列比对计算置换矩阵
    • 6.7.3 从文件中读取数组对象
    • 6.7.4 加载预定义的置换矩阵
  • 6.8 使用 pairwise2 进行成对比对

第七章 BLAST

  • 7.1 在线运行 BLAST
  • 7.2 本地运行 BLAST
    • 7.2.1 简介
    • 7.2.2 NCBI BLAST+
    • 7.2.3 其他版本的 BLAST
  • 7.3 解析 BLAST 输出结果
  • 7.4 BLAST类
  • 7.5 处理 PSI-BLAST结果
  • 7.6 处理 RPS-BLAST结果

第八章 BLAST和其他序列搜索工具

  • 8.1 SearchIO 对象模型
    • 8.1.1 QueryResult
    • 8.1.2 Hit
    • 8.1.3 HSP
    • 8.1.4 HSPFragment
  • 8.2 关于标准和惯例的注意事项
  • 8.3 读取搜索输出文件
  • 8.4 使用索引处理大型搜索输出文件
  • 8.5 输出和转换搜索输出文件

第九章 访问 NCBI 的 Entrez 数据库

  • 9.1 Entrez指南
  • 9.2 EInfo:获取关于 Entrez 数据库的信息
  • 9.3 ESearch:搜索 Entrez 数据库
  • 9.4 EPost:上传identifiers的列表
  • 9.5 ESummary:从主 ID 中检索摘要
  • 9.6 EFetch:从 Entrez 下载完整记录
  • 9.7 ELink:在 NCBI Entrez 中搜索相关项目
  • 9.8 EGQuery:全局查询——搜索结果的计数
  • 9.9 ESpell:获取拼写建议
  • 9.10 解析巨大的 Entrez XML 文件
  • 9.11 HTML 转义字符
  • 9.12 处理错误
  • 9.13 专用的解析器
    • 9.13.1 解析 Medline 记录
    • 9.13.2 解析 GEO 记录
    • 9.13.3 解析 UniGene 记录
  • 9.14 使用代理
  • 9.15 实例
    • 9.15.1 PubMed 和 Medline
    • 9.15.2 搜索、下载和解析 Entrez 核苷酸记录
    • 9.15.3 GenBank记录的检索、下载、解析
    • 9.15.4 寻找生物的谱系
  • 9.16 使用历史和 WebEnv
    • 9.16.1 使用历史搜索和下载序列
    • 9.16.2 使用历史搜索和下载摘要
    • 9.16.3 搜索引文

第十章 Swiss-Prot 和 ExPASy

  • 10.1 解析 Swiss-Prot 文件
    • 10.1.1 解析 Swiss-Prot 记录
    • 10.1.2 解析 Swiss-Prot 关键字和类别列表
  • 10.2 解析 Prosite 记录
  • 10.3 解析Prosite文档记录
  • 10.4 解析 Enzyme 记录
  • 10.5 访问 ExPASy 服务器
    • 10.5.1 提取 Swiss-Prot 记录
    • 10.5.2 搜索 Swiss-Prot
    • 10.5.3 检索 Prosite 和 Prosite 文档记录
  • 10.6 扫描 Prosite 数据库

第十一章 3D:PDB 模块

  • 11.1 读写晶体结构文件
    • 11.1.1 读取 mmCIF 文件
    • 11.1.2 读取MMTF格式文件
    • 11.1.3 读取 PDB 文件
    • 11.1.4 读取 PQR 文件
    • 11.1.5 读取 PDB XML 格式的文件
    • 11.1.6 写出 mmCIF 文件
    • 11.1.7 写出 PDB 文件
    • 11.1.8 写出 PQR 文件
    • 11.1.9 写出 MMTF 文件
  • 11.2 结构表示
    • 11.2.1 结构
    • 11.2.2 型号
    • 11.2.3 链
    • 11.2.4 残留物
    • 11.2.5 原子
    • 11.2.6从结构中提取特定的原子/残基/链/模型
  • 11.3 混乱
    • 11.3.1 一般方法
    • 11.3.2 无序原子
    • 11.3.3 无序残基
  • 11.4 异质残基
    • 11.4.1 相关问题
    • 11.4.2 水残留物
    • 11.4.3 其他异质残基
  • 11.5 浏览在Structure结构对象
  • 11.6 分析结构
    • 11.6.1 测量距离
    • 11.6.2 测量角度
    • 11.6.3 测量扭转角
    • 11.6.4 内部坐标模块 - 距离、角度、扭转角、距离图等
    • 11.6.5 确定原子-原子接触
    • 11.6.6 叠加两个结构
    • 11.6.7 将两个相关结构的残基相互映射
    • 11.6.8 计算半球曝光
    • 11.6.9 确定二级结构
    • 11.6.10 计算残留深度
  • 11.7 PDB文件中的常见问题
    • 11.7.1 实例
    • 11.7.2 自动校正
    • 11.7.3 致命错误
  • 11.8 访问蛋白质数据库
    • 11.8.1 从蛋白质数据库下载结构
    • 11.8.2 下载整个 PDB
    • 11.8.3 使 PDB 的本地版保持最新
  • 11.9 常见问题
    • 11.9.1 Bio.PDB 的测试情况如何?
    • 11.9.2 有多快?
    • 11.9.3 是否支持分子图形?
    • 11.9.4 谁在使用 Bio.PDB?

第十二章 Bio.PopGen:种群遗传学

  • 12.1 GenePop

第十三章 Bio.Phylo 的系统发育学

  • 13.1 演示:树上有什么?
    • 13.1.1 为树中的分支着色
  • 13.2 输入输出功能
  • 13.3 查看和导出树
  • 13.4 使用Tree和进化 Clade对象
    • 13.4.1 搜索和遍历方法
    • 13.4.2 信息方法
    • 13.4.3 修改方法
    • 13.4.4 PhyloXML树的特征
  • 13.5 运行外部应用程序
  • 13.6 PAML 集成
  • 13.7 未来计划

第十四章 使用 Bio.motifs 进行序列motif分析

  • 14.1 Motif 对象
    • 14.1.1 从实例创建motif
    • 14.1.2 创建序列logo
  • 14.2 读取motif
    • 14.2.1 JASPAR
    • 14.2.2 MEME
    • 14.2.3 TRANSFAC
  • 14.3 写出motif
  • 14.4 位置权重矩阵
  • 14.5 位置特异性的评分矩阵
  • 14.6 搜索实例
    • 14.6.1 搜索精确匹配
    • 14.6.2 使用 PSSM 分数搜索匹配项
    • 14.6.3 选择分数阈值
  • 14.7 每个motif对象都有一个关联的位置特异性评分矩阵
  • 14.8 比较motif
  • 14.9 从头寻找motif
    • 14.9.1 MEME
  • 14.10 有用的链接

第十五章 聚类分析

  • 15.1 距离函数
  • 15.2 计算簇/聚类属性
  • 15.3 分类算法
  • 15.4 层次聚类
  • 15.5 自组织映射
  • 15.6 主成分分析
  • 15.7 处理 Cluster/TreeView 类文件
  • 15.8 计算示例

第十六章 监督学习方法

  • 16.1 逻辑回归模型
    • 16.1.1 背景和目的
    • 16.1.2 训练逻辑回归模型
    • 16.1.3 使用逻辑回归模型进行分类
    • 16.1.4 逻辑回归、线性判别分析和支持向量机
  • 16.2 k - 最近邻
    • 16.2.1 背景和目的
    • 16.2.2 初始化k-最近邻模型
    • 16.2.3 使用k最近邻模型进行分类
  • 16.3 朴素贝叶斯
  • 16.4 最大熵
  • 16.5 马尔可夫模型

第十七章 使用GenomeDiagram可视化基因组区域

  • 17.1 基因组图
    • 17.1.1 简介
    • 17.1.2 图表、tracks、特征集和特征
    • 17.1.3 自上而下的例子
    • 17.1.4 自下而上的例子
    • 17.1.5 没有 SeqFeature 的特征
    • 17.1.6 特征说明
    • 17.1.7 特征标记
    • 17.1.8 箭头标记
    • 17.1.9 一个很好的例子
    • 17.1.10 多条tracks
    • 17.1.11 tracks之间的交叉链接
    • 17.1.12 更多选项
    • 17.1.13 转换旧代码
  • 17.2 染色体
    • 17.2.1 简单染色体
    • 17.2.2 带注释的染色体

第十八章 KEGG

  • 18.1 解析 KEGG 记录
  • 18.2 查询 KEGG API

第十九章 Bio.phenotype:分析表型数据

  • 19.1 表型芯片
    • 19.1.1 解析表型芯片数据
    • 19.1.2 处理表型芯片数据
    • 19.1.3 输出表型芯片数据

第二十章 Cookbook – 用它做很酷的事情

  • 20.1 使用序列文件
    • 20.1.1 过滤序列文件
    • 20.1.2 生成随机基因组
    • 20.1.3 翻译 CDS 区域的 FASTA 文件
    • 20.1.4 将 FASTA 文件中的序列转换为大写
    • 20.1.5 序列文件排序
    • 20.1.6 FASTQ 文件的简单质量过滤
    • 20.1.7 修剪引物序列
    • 20.1.8 修剪接头序列
    • 20.1.9 转换 FASTQ 文件
    • 20.1.10 将 FASTA 和 QUAL 文件转换为 FASTQ 文件
    • 20.1.11 索引 FASTQ 文件
    • 20.1.12 转换 SFF 文件
    • 20.1.13 识别开放阅读框
  • 20.2 解析序列并绘制简单图形展示
    • 20.2.1 序列长度直方图
    • 20.2.2 序列 GC% 图
    • 20.2.3 核苷酸点图
    • 20.2.4 绘制测序read数据的质量分数
  • 20.3 处理比对
    • 20.3.1 计算汇总信息
    • 20.3.2 快速计算一致序列
    • 20.3.3 位置特异打分矩阵
    • 20.3.4 信息内容
  • 20.4 置换矩阵
    • 20.4.1 使用通用替换矩阵
    • 20.4.2 从多序列比对计算替换矩阵
  • 20.5 BioSQL——在关系数据库中存储序列

第二十一章 Biopython测试框架

  • 21.1 运行测试
    • 21.1.1 使用 Tox 运行测试
  • 21.2 写入测试
    • 21.2.1 使用 unittest 写入测试
  • 21.3 写入doctests
  • 21.4 在教程中写入 doctests

第二十二章 从这里去哪里——为Biopython做贡献

  • 22.1 错误报告 + 功能请求
  • 22.2 邮件列表和帮助新人
  • 22.3 贡献文档
  • 22.4 贡献cookbook示例
  • 22.5 维护平台的分发
  • 22.6 贡献单元测试
  • 22.7 贡献代码

第二十三章 附录:关于Python的有用的东西

  • 23.1 句柄是什么?
  • 23.1.1 从字符串创建句柄