生信数据格式—SAM/BAM文件
职业培训
培训职业
2024-12-27
SAM文件是一种以制表符分隔的文本格式,用于记录每个单独读取片段与其基因组比对信息。BAM文件是SAM文件的压缩二进制版本,旨在减小文件体积并支持索引,以高效访问文件内容。SAM文件结构包含头部和比对两部分。头部部分以“@”开头,比对部分不以“@”开始。头部是可选的,若
SAM文件是一种以制表符分隔的文本格式,用于记录每个单独读取片段与其基因组比对信息。BAM文件是SAM文件的压缩二进制版本,旨在减小文件体积并支持索引,以高效访问文件内容。
SAM文件结构包含头部和比对两部分。头部部分以“@”开头,比对部分不以“@”开始。头部是可选的,若存在,必须位于比对部分之前。比对行包含11个必需字段,提供基本信息,如映射位置。同时,还包括可变数量的可选字段,以适应不同比对软件的具体需求。
接下来,我们简要介绍比对行中的11个必需字段:
1. 比对ID:标识比对行的唯一编号。
2. 序列ID:表示原始读取序列的标识。
3. 基因组位置:表示比对位置的基因组坐标。
4. 基因组映射符号:指示读取与基因组的相对位置。
5. 质量得分:表示比对的质量值。
6. 序列匹配长度:显示匹配序列的长度。
7. 不匹配数:记录序列比对时的不匹配数量。
8. 插入或删除数:表示读取序列与基因组序列间的插入或删除操作。
9. 映射符号:指示映射位置的具体类型。
10. 质量得分符号:提供额外的质量信息。
11. 补充信息:可包含额外的软件特定信息。
深入学习:探索GEO数据挖掘——差异基因表达分析
深入解读:掌握GEO数据分析——GO基因通路富集
标签
版权声明:本文由哟品培原创或收集发布,如需转载请注明出处。
猜你喜欢
其他标签