生信数据格式—SAM/BAM文件

职业培训 培训职业 2024-12-27
SAM文件是一种以制表符分隔的文本格式,用于记录每个单独读取片段与其基因组比对信息。BAM文件是SAM文件的压缩二进制版本,旨在减小文件体积并支持索引,以高效访问文件内容。SAM文件结构包含头部和比对两部分。头部部分以“@”开头,比对部分不以“@”开始。头部是可选的,若

SAM文件是一种以制表符分隔的文本格式,用于记录每个单独读取片段与其基因组比对信息。BAM文件是SAM文件的压缩二进制版本,旨在减小文件体积并支持索引,以高效访问文件内容。

SAM文件结构包含头部和比对两部分。头部部分以“@”开头,比对部分不以“@”开始。头部是可选的,若存在,必须位于比对部分之前。比对行包含11个必需字段,提供基本信息,如映射位置。同时,还包括可变数量的可选字段,以适应不同比对软件的具体需求。

接下来,我们简要介绍比对行中的11个必需字段:

1. 比对ID:标识比对行的唯一编号。

2. 序列ID:表示原始读取序列的标识。

3. 基因组位置:表示比对位置的基因组坐标。

4. 基因组映射符号:指示读取与基因组的相对位置。

5. 质量得分:表示比对的质量值。

6. 序列匹配长度:显示匹配序列的长度。

7. 不匹配数:记录序列比对时的不匹配数量。

8. 插入或删除数:表示读取序列与基因组序列间的插入或删除操作。

9. 映射符号:指示映射位置的具体类型。

10. 质量得分符号:提供额外的质量信息。

11. 补充信息:可包含额外的软件特定信息。

深入学习:探索GEO数据挖掘——差异基因表达分析

深入解读:掌握GEO数据分析——GO基因通路富集

标签

版权声明:本文由哟品培原创或收集发布,如需转载请注明出处。

本文链接:http://www.yopinpei.com/20241227/2/921673

猜你喜欢
其他标签