クラケン2

2020/12 更新

今後のすべての更新については、Kraken2Github Wikiを参照してください。 関連するすべての情報/リンクをGithub Wikiページに移動しています。 あなたの忍耐に感謝します。

2020年9月現在、https://github.com/BenLangmead/aws-indexesで入手可能な、最も広く使用されているKraken2インデックスの多くをホストするAmazon Web Servicesサイトを作成しました。

KrakenToolsは、Krakenの結果の分析を支援するためのスクリプトのスイートです。 KrakentoolsはJennifer Luが率いる進行中のプロジェクトです。 詳細については、KrakenToolsのwebページを参照してください。

Kraken2について

Kraken2は、正確なk-merマッチを使用して高精度かつ高速な分類速度を達成する分類学的分類システムであるKrakenの最新バージョンです。 この分類子は、クエリ配列内の各k-merを、指定されたk-merを含むすべてのゲノムの最低共通祖先(LCA)に一致させます。 K-mer割り当ては、分類アルゴリズムに通知します。 .
Kraken2は、kraken1を大幅に改善し、データベースの構築時間を短縮し、データベースサイズを小さくし、分類速度を高速化しました。 これらの改善は、Kraken分類プログラムの以下の更新によって達成されました:

  1. ミニマイザの保存:k-mer全体を保存/照会する代わりに、Kraken2は各k-merのミニマイザ(l-mer)を保存します。 各l-merの長さは、k-merの長さのσでなければなりません。 各k-merは、そのLCAがそのミニマイザのLCAと同じであるかのようにKraken2によって扱われます。
  2. 間隔シードの導入:Kraken2はまた、分類精度を向上させるために、間隔シードを使用してミニマイザを格納およびクエリします。
  3. データベース構造: Kraken1はk-mer/LCAペアのインデックス付きおよびソートされたリストを保存しましたが、Kraken2はコンパクトなハッシュテーブルを使用します。 このハッシュテーブルは、より高速なクエリとより低いメモリ要件を可能にする確率的なデータ構造です。 ただし、このデータ構造には、不正なLCAを返すか、挿入されていないミニマイザのLCAを返す可能性が<1%あります。 ユーザーは、Krakenの信頼スコアのしきい値を使用することで、この可能性を補うことができます。
  4. タンパク質データベース:Kraken2は、アミノ酸配列から構築されたデータベースを可能にします。 クエリを実行すると、Kraken2はデータベースに対してクエリシーケンスの六フレーム翻訳検索を実行します。
  5. 16Sデータベース:Kraken2はNCBIの分類法に基づいていないデータベースもサポートしています。 現在、これらにはGreengenes、SILVA、RDPの16Sデータベースが含まれています。

コメントを残す

メールアドレスが公開されることはありません。