2020/12 업데이트
앞으로 나아갈 모든 업데이트에 대해서는 크라켄 2 깃허브 위키를 참조하십시오. 우리는 모든 관련 정보/링크를 깃허브 위키 페이지로 이동하는 과정에 있습니다. 양해해 주셔서 감사합니다.
2020 년 9 월 현재https://github.com/BenLangmead/aws-indexes에서 가장 널리 사용되는 크라켄 2 인덱스를 호스팅하는 아마존 웹 서비스 사이트를 만들었습니다.
크라켄툴스는 크라켄 결과의 분석을 돕기 위한 스크립트이다. 크라켄툴은 제니퍼 루가 이끄는 진행중인 프로젝트입니다. 자세한 내용은 크라켄툴 웹 페이지를 참조하십시오.
크라켄 2 소개
크라켄 2 는 크라켄의 최신 버전으로,높은 정확도와 빠른 분류 속도를 달성하기 위해 정확한 케이메르 일치를 사용하는 분류학 분류 시스템입니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 케이 메르 할당은 분류 알고리즘을 알려줍니다. .
크라켄 2 는 크라켄 1 을 크게 개선하여 데이터베이스 구축 시간이 빨라지고 데이터베이스 크기가 작아지고 분류 속도가 빨라집니다. 이러한 개선 사항은 크라켄 분류 프로그램에 대한 다음 업데이트를 통해 달성되었습니다:
- 미니 마이저의 저장:대신 저장/전체 케이-메르스 쿼리,크라켄 2 저장 미니 마이(엘-메르스)각 케이-메르의. 이 경우,각각의 길이는 100000000000 의 길이와 같아야합니다. 각 k-mer 의해 처리된 크라켄의 2 면 LCA 과 같 minimizer’s LCA.
- 간격의 씨앗 소개:크라켄 2 는 또한 간격의 씨앗을 사용하여 분류 정확도를 향상시키기 위해 최소화기를 저장하고 쿼리합니다.
- 데이터베이스 구조: 크라켄 1 은 인덱싱되고 정렬 된 목록을 저장했지만 크라켄 2 는 컴팩트 한 해시 테이블을 사용합니다. 이 해시 테이블은 더 빠른 쿼리와 더 낮은 메모리 요구 사항을 허용하는 확률 론적 데이터 구조입니다. 그러나 이 데이터 구조에는<1%의 확률로 잘못된 최소값이 반환되거나 삽입되지 않은 최소값이 반환됩니다. 사용자는 크라켄의 신뢰 점수 임계 값을 사용하여 이러한 가능성을 보상 할 수 있습니다.
- 단백질 데이터베이스:크라켄 2 는 아미노산 서열로부터 구축된 데이터베이스를 허용한다. 쿼리할 때 크라켄 2 는 데이터베이스에 대해 쿼리 시퀀스의 6 프레임 변환 검색을 수행합니다.
- 16 초 데이터베이스:크라켄 2 는 또한 분류를 기반으로하지 않는 데이터베이스에 대한 지원을 제공합니다. 이 데이터베이스는 현재 16 개의 데이터베이스로 구성되어 있습니다.