基因组中存在污染的典型特征:
1、组装质量差:主要体现在组装后Scaffolds 偏多,偏短的Scaffolds 数量较大;
2、组装长度偏大:组装后,总长度比该物种正常长度更大;
3、GC-depth异常:GC-depth 呈现出明显的两簇或多簇;
4、kmer-频率分布异常:多数是多峰;
5、测序深度不均匀:组装后的各条scaffold ,测序深度高低差异大;
6、基因预测偏离:基因数目偏多、基因平均长度偏小;
7、看家基因异常:基因长度偏小(可能是近缘污染或者同种不同株污染,同源基因存在单碱基差异,会在SNP处断开,导致基因);
8、NT比对异常:reads 、组装序列比对NT,比对出不相干的物种的比例偏高。