2020/12 atualize
consulte a wiki do Kraken 2 Github para obter todas as atualizações em andamento. Estamos no processo de mover todas as informações/links relevantes para a página Wiki do Github. Obrigado pela sua paciência.
em setembro de 2020, criamos um site da Amazon Web Services para hospedar muitos dos índices Kraken2 mais usados, disponíveis em https://github.com/BenLangmead/aws-indexes. O KrakenTools é um conjunto de scripts para auxiliar na análise dos resultados do Kraken. KrakenTools é um projeto em andamento liderado por Jennifer Lu. Consulte a página do KrakenTools para obter mais detalhes.
sobre Kraken 2
Kraken 2 é a versão mais recente do Kraken, um sistema de classificação taxonômica usando correspondências K-mer exatas para alcançar alta precisão e velocidades de classificação rápidas. Este classificador corresponde a cada K-mer dentro de uma sequência de consulta ao ancestral comum mais baixo (LCA) de todos os genomas contendo o K-mer fornecido. As atribuições k-mer informam o algoritmo de classificação. . O Kraken 2 fornece melhorias significativas para o Kraken 1, com tempos de compilação de banco de dados mais rápidos, tamanhos de banco de dados menores e velocidades de classificação mais rápidas. Essas melhorias foram alcançadas pelas seguintes atualizações do Programa de classificação Kraken:
- armazenamento de minimizadores: em vez de armazenar/consultar k-mers inteiros, a Kraken 2 armazena minimizadores (l-mers) de cada K-mer. O comprimento de cada l-mer deve ser ≤ o comprimento k-mer. Cada K-mer é tratado por Kraken 2 como se seu LCA fosse o mesmo que o LCA de seu minimizador. Introdução de sementes espaçadas: Kraken 2 também usa sementes espaçadas para armazenar e consultar minimizadores para melhorar a precisão da classificação.
- Estrutura Do Banco De Dados: Enquanto Kraken 1 salvou uma lista indexada e classificada de pares k-mer/LCA, Kraken 2 usa uma tabela hash compacta. Esta tabela hash é uma estrutura de dados probabilística que permite consultas mais rápidas e requisitos de memória mais baixos. No entanto, essa estrutura de dados tem uma chance <1% de retornar o LCA incorreto ou retornar um LCA para um minimizador não inserido. Os usuários podem compensar essa possibilidade usando os limites de pontuação de confiança da Kraken.
- bancos de dados de proteínas: Kraken 2 permite bancos de dados construídos a partir de sequências de aminoácidos. Quando consultado, Kraken 2 executa uma pesquisa traduzida de seis quadros das sequências de consulta contra o banco de dados.
- bancos de dados 16s: Kraken 2 também fornece suporte para Bancos de dados não baseados na taxonomia do NCBI. Atualmente, estes incluem os bancos de dados 16s: Greengenes, SILVA e RDP.