之前的我发现基因组不仅存在ATCG和表示Gap的N,还有一些模糊序列,用来表示两种或两种以上的碱基。
对于这些序列,我有以下几个问题:
这些非ATCG的序列在基因组的哪些位置?
这些非ATCG的序列长度分别是多少?
基因组上存在多少个gap序列?
解决这个问题通常有以下两个思路:
通过检索,找到能够回答以上问题的工具
自己编写脚本,写一段代码进行分析。
而这里,我会用一个大家都想不到的工具来解答这些问题,这个工具就是我们经常用于二代序列回帖的BWA。
通常而言,我们使用bwa index建立索引,建立完索引之后,我们就直接用索引进行比对,而不会在乎索引文件。bwa index建立完索引之后,会得到5个文件,分别是amb, ann, bwt, pac,sa. 而amb就是我们所需的文件,amb是ambiguous的缩写,也就是模糊之意。
剩余文章内容<<<<<
本文发布于:2024-01-30 19:00:24,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170661242322153.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |