클러스터링 예제

를 의미합니다.2018. 아래 그림과 같이 이 예제 데이터 세트의 각 행은 세 개의 와인 양조장(ㅏ,비,또는 씨)중 하나에서 가져온 와인 샘플을 나타냅니다. 이 예제에서는 와이너리를 나타내는 유형 변수가 무시되고 클러스터링은 와인 샘플의 속성(나머지 변수)을 기반으로 간단하게 수행됩니다.

데이터 집합 내의 셀을 선택한 다음 데이터 분석 탭에서 클러스터링을 선택하여 클러스터링 단계 1/3 대화 상자를 엽니다.

변수 목록에서 유형을 제외한 모든 변수를 선택한 다음>버튼을 클릭하여 선택한 변수를 선택한 변수 목록으로 이동합니다.

케이-3 단계 중 1 단계 클러스터링 대화상자

다음을 클릭하여 3 단계 중 2 단계 대화상자로 진행합니다.

케이-클러스터링 3 단계 중 3 단계 대화상자

#클러스터에서 8 을 입력합니다. 이 매개 변수입니다 케이 에 케이-클러스터링 알고리즘을 의미합니다. 군집의 수는 최소 1 이상이어야 하며 최대 관측치 수는 데이터 범위에서-1 이어야 합니다. 설정 케이 여러 다른 값으로 각각 출력을 평가합니다.

#반복을 기본 설정인 10 으로 둡니다. 이 옵션의 값은 프로그램이 초기 파티션으로 시작하고 클러스터링 알고리즘을 완료하는 횟수를 결정합니다. 클러스터 구성(및 데이터 분리)은 시작 파티션마다 다를 수 있습니다. 이 프로그램은 반복의 지정된 번호를 통해 이동하고,거리 측정을 최소화하는 클러스터 구성을 선택합니다.

무작위 시작을 5 로 설정합니다. 이 옵션을 선택하면 알고리즘이 임의의 지점에서 모델 작성을 시작합니다. 5 개의 클러스터 세트를 생성하고 최상의 클러스터를 기반으로 출력을 생성합니다.

시드 설정은 기본적으로 선택되어 있습니다. 이 옵션은 초기 군집 중심점을 계산하는 데 사용되는 난수 생성기를 초기화합니다. 난수 시드를 0 이 아닌 값(기본값 12345)으로 설정하면 초기 클러스터 중심이 계산될 때마다 동일한 난수 시퀀스가 사용됩니다. 초기값이 0 이면 난수 생성기는 시스템 클럭에서 초기화되므로 중심값이 초기화될 때마다 난수 시퀀스가 다릅니다. 클러스터링 메서드의 연속 실행을 비교할 수 있도록 초기값을 설정합니다.

입력 데이터 정규화 옵션을 선택하여 데이터를 정규화합니다. 이 예제에서는 데이터가 정규화되지 않습니다. 다음을 선택하여 3 단계 중 3 단계 대화 상자를 엽니다.

데이터 요약 표시(기본값)및 각 군집 중심으로부터의 거리 표시(기본값)를 선택한 다음 마침을 클릭합니다.

케이-클러스터링 3 단계 중 3 단계 대화상자

케이-클러스터링 방법은 지정된 대로 케이 초기 클러스터로 시작합니다. 각 반복에서 레코드는 가장 가까운 중심 또는 중심을 가진 클러스터에 할당됩니다. 각 반복 후에 각 레코드에서 클러스터 중앙까지의 거리가 계산됩니다. 레코드의 재배포로 인해 거리 값이 증가할 때까지 이러한 두 단계(레코드 할당 및 거리 계산)가 반복됩니다.

무작위 시작이 지정되면 알고리즘은 무작위로 클러스터 센터를 생성하고 해당 클러스터의 데이터 포인트를 맞 춥니 다. 이 프로세스는 지정된 모든 임의 시작에 대해 반복됩니다. 출력은 가장 적합한 클러스터를 기반으로 합니다.

워크시트는 데이터 워크시트의 오른쪽에 바로 삽입됩니다. 출력 워크시트의 맨 위 섹션에 선택한 옵션이 나열됩니다.

케이-출력 데이터 클러스터링을 의미한다 요약

출력 워크시트의 중간 부분에서,엑스엘마이너는 제곱 거리의 합을 계산하고 가장 낮은 제곱 거리의 합을 가장 좋은 시작(#5)으로 시작을 결정했다. 최상의 시작이 결정되면 최상의 시작을 시작점으로 사용하여 나머지 출력을 생성합니다.

랜덤 시작 요약

출력 워크시트의 아래 부분에 클러스터 센터가 나열되어 있습니다(아래 그림 참조). 위쪽 상자에는 클러스터 센터의 변수 값이 표시됩니다. 클러스터 8 은 평균 알코올,총 페놀,플라 바 노이드,프로 안토시아닌,색상 강도,색조 및 프롤린 함량이 가장 높습니다. 이 클러스터를 클러스터 2 와 비교하면 평균 재칼륨 및 비플라바노이드 페놀이 가장 높습니다.

아래쪽 상자는 군집 중심 사이의 거리를 나타냅니다. 이 표의 값으로부터,클러스터 3 은 1,176.59 의 높은 거리 값으로 인해 클러스터 8 과 매우 다르며,클러스터 7 은 낮은 거리 값이 89.73 인 클러스터 3 에 가깝다고 판단된다.

케이-클러스터링 출력 클러스터 중심을 의미

데이터 요약(아래)은 각 클러스터에 포함된 레코드(관측치)의 수와 클러스터 멤버에서 각 클러스터의 중심까지의 평균 거리를 표시합니다. 클러스터 6 의 평균 거리는 42.79 이며 24 개의 레코드를 포함합니다. 이 클러스터를 가장 작은 평균 거리가 29.66 이고 26 개의 멤버를 포함하는 클러스터 2 와 비교하십시오.

케이-클러스터링 출력 데이터 요약

워크시트를 클릭합니다. 이 워크시트에는 각 레코드가 할당된 클러스터와 각 클러스터까지의 거리가 표시됩니다. 첫 번째 레코드의 경우 클러스터 6 까지의 거리는 최소 거리 23.205 이므로 이 첫 번째 레코드는 클러스터 6 에 할당됩니다.

답글 남기기

이메일 주소는 공개되지 않습니다.