고급 기계 학습:기본 및 커널 회귀

우리는 그것을’커널 화’하는 방법을 보여주기 전에 이중 형태의 선형/능선 회귀를 보는 것으로 시작합니다. 후자를 설명 할 때,우리는 커널이 무엇인지,그리고’커널 트릭’이 무엇인지 볼 것입니다.

이중 형태 리지 회귀

선형 회귀는 일반적으로 열(특징)의 선형 조합으로 기본 형태로 제공됩니다. 그러나,거기에 두 번째,이중 양식 새로운 데이텀의 내부 제품의 선형 조합(우리는 추론을 수행 하는)훈련 데이터의 각.

우리는 리지 회귀(엘 2 정규화 된 선형 회귀)의 경우를 고려하며,기본 선형 회귀는\(\람다=0\)의 경우에 해당한다는 것을 기억합니다. 그런 다음 능선 회귀에 대한 공식,여기서\(엑스\)및\(와이\)는\(엔\시간 미디엄\)훈련 데이터 및\(엑스^\프라임,와이^\프라임\)추정 할 새로운 사례는 다음과 같습니다.:

\ \ \ \

이 문제를 해결하기 위해 몇 가지 방법이 있습니다.이 문제를 해결하기 위해 몇 가지 방법이 있습니다.

이중 형태는 선형/능선 회귀가 각각의 훈련 사례와 함께 새로운 케이스의 내부 곱의 가중치 합계의 추정치를 제공하는 것으로 이해 될 수 있음을 보여줍니다.

이것은 행보다 열이 더 많은 경우에도 선형 회귀를 수행 할 수 있음을 의미하지만,이것의 중요성은 과장 될 수 있기 때문에(1)우리는 이것을 사용하여 어쨌든 이것을 할 수 있습니다 엘 2 정규화 이것은 항상\(엑스^티\)행렬을 반전시킬 수 있기 때문에;그리고(2)\(엑스^티\)행렬은 종종 반전에 대한 수치 안정성을 보장하기 위해 어쨌든 엘 2 정규화를 요구할 수 있습니다. 또한 훈련 데이터의 각 추가 데이터가 새로운 것을 가져 오는 순차적 학습 과정의 선형 회귀를 훨씬 더 많이 볼 수 있습니다.

가장 중요한 것은 우리의 목적을 위해,이중 형태는 흥미로운 특성을 가지고 있습니다:특징 벡터는 내부 제품 내부에서만 방정식에서 발생합니다. 학습 데이터에 있는 모든 특징 벡터 쌍의 내부 곱에 해당하는 행렬을 생성합니다. 우리가 진행하는 우리는 이것의 중요성을 볼 것이다.

따로:관심있는 학생들은이 문서의 끝 부분에 다운로드 섹션에서 사용할 수있는 이중 양식 문서의 파생에서 이중 양식이 파생 된 방법을 볼 수 있습니다.

비선형 듀얼 Ridge Regression

우리가 설정할 수 있습니다 우리의 이중 형태 ridge regression 으로 비선형 모델에 의해 표준 방법을 사용하여 비선형 변환 기능을\(\phi\):

\ \

커널 기능을

커널 기능,\(K:\mathcal X\번\mathcal X\to\mathbb{R}\), 는 기능은 대칭\(K(x_1,x_2)=K(x_2,x_1)\)–고 긍정적인 명(보 고객께 공식적인 정의). 긍정적-확실성은 커널의 사용을 정당화하는 수학에서 사용됩니다. 그러나 중요한 수학적 지식이 없으면 정의가 직관적으로 조명되지 않습니다. 따라서 양성-확실성의 정의에서 커널을 이해하려고 시도하는 대신,우리는 여러 가지 예를 소개 할 것입니다.

이 작업을 수행하기 전에 커널은 2 인수 함수이지만 첫 번째 인수에 위치하며 두 번째 인수의 함수라고 생각하는 것이 일반적입니다. 이 해석에 따르면 다음과 같은 표기법이 표시됩니다.\(케이_엑스(와이)\),이는\(케이(엑스,와이)\). 특히,우리는 종종 커널이 훈련 데이터의 데이터 포인트(특징 벡터)에’위치한’단일 인수 함수라고 생각할 것입니다. 때때로 당신은 우리가 데이터 포인트에 커널을’떨어 뜨리는’것을 읽을 것입니다. 그래서 우리는 기능 벡터가있는 경우\(엑스_나는\),우리는 그것에 커널을 드롭 것,함수로 이어지는\(케이_{엑스_나는}(엑스)\)에 위치한\(엑스_나는\)와 동등한\(케이(엑스_나는,엑스)\).

또한 커널은 종종 파라 메트릭 패밀리의 구성원으로 지정됩니다. 이러한 커널 패밀리의 예는 다음과 같습니다:

가우스 커널

가우스 커널은 방사형 기초 함수 커널의 예이며 방사형 기초 커널이라고도합니다. 방사형 기준 함수 커널의 값은 인수 벡터의 위치가 아닌 인수 벡터 사이의 거리에만 의존합니다. 이러한 커널은 고정식이라고도합니다.100,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000\|^2}\)

라플라시안 커널

라플라시안 커널도 방사형 기본 함수입니다.

매개 변수:\(\시그마\)

방정식 형식: 3290>다항식 커널

다항식 커널은 고정되지 않은 커널의 예입니다. 따라서 이러한 커널은 값에 따라 동일한 거리를 공유하는 점 쌍에 다른 값을 할당합니다. 이러한 커널이 확실한지 확인하려면 매개 변수 값이 음수가 아니어야 합니다.

커널 패밀리의 매개 변수에 대한 특정 값을 지정하면 커널 함수가 생성됩니다. 다음은 특정 매개 변수 값이 다른 지점에 위치한 위의 패밀리에서 나온 커널 함수의 예입니다(즉,플롯 된 그래프는 첫 번째 인수가 특정 값으로 설정된 두 번째 인수의 함수입니다).

가우시안 커널

라플라시아 커널

다항식 커널

다항식 커널 2

옆으로: 관심있는 학생들은 커널에 대한 긍정적 인 명확성의 정의를 볼 수 있습니다 이 문서의 끝 부분에있는 다운로드 섹션에서 사용할 수있는 커널과 긍정적 인 확실성 문서.

커널 트릭

커널 함수의 중요성은 매우 특별한 속성에서 비롯됩니다: 이 두 가지 특징 벡터에 적용하는 것은 이러한 특징 벡터를 일부 투영 함수에 의해\(\피\)에 투영하고 내부 제품을 거기에 투영하는 것과 같습니다.:

\

이 패키지에는 주 프로그램 바이너리와 미리 컴파일된 대수 및 자동 로드 모듈이 전부 들어있습니다. 가우시안 패밀리 커널과 같은 일부 커널의 경우 무한 차원입니다.

위의 유명한’커널 트릭’에 대 한 기초:입력 기능 내부 제품의 형태만 통계 모델의 방정식에 관련 된 경우 다음 방정식에 있는 내부 제품 커널 함수에 대 한 호출으로 대체할 수 있습니다 그리고 그 결과 우리가 더 높은 차원 공간에 입력된 기능 투영(즉,잠재 변수 기능의 큰 숫자를 선도 하는 기능 변환을 수행)와 그들의 내부 제품을 찍은 것 처럼. 그러나 우리는 실제 투영을 수행 할 필요가 없습니다.

머신러닝 용어에서,커널과 연관된 코알라 코알라는 입력 공간과는 반대로 기능 공간으로 알려져 있다. 커널 트릭을 통해 우리는 암시 적으로 입력 기능을이 기능 공간에 투영하고 내부 제품을 사용합니다.

커널 회귀

이것은 커널 회귀로 알려진 기술로 이어집니다. 그것은 단순히 리지 회귀의 이중 형태에 커널 트릭의 응용 프로그램입니다. 쉽게하기 위해 우리는 커널,또는 그램,매트릭스,\(케이\),그러한\(케이_{나는,제이}=케이(엑스_나는,엑스_제이)\). 그런 다음 커널 회귀에 대한 방정식을 다음과 같이 쓸 수 있습니다:

\ \

여기서\(케이\)는 긍정적 인 커널 함수입니다.

대표 이론

수행 할 때 해결하고자하는 최적화 문제를 고려하십시오 엘 2 어떤 형태의 모델에 대한 정규화,\(에프\):

\

커널 회귀를 수행 할 때 커널\(케이\),위의 방정식의 최소화 기가 형식이 될 것이라는 것은 정규화 이론의 중요한 결과입니다:

\

와\(\알파\)상술 한 바와 같이 계산.

이것은 정당하게 사자화 된 대표 이론이다. 즉,특정 커널에 의해 얻어진 암시 적 특징 공간에서 선형 회귀에 대한 최적화 문제의 최소화 자(따라서 비선형 커널 회귀 문제의 최소화 자)는 각 특징 벡터에’위치한’커널의 가중 합에 의해 제공 될 것이라고 말합니다.

이 주제에 대해 할 말이 훨씬 더 있습니다. 우리는 심지어 어떤 녹색 함수(커널이 하위 집합 임)가 특정 정규화 사양을 최소화하는지 알아낼 수 있습니다. 커널과 티코 노프 정규화 문제에 대한 최적의 솔루션 사이의 이러한 관계는 기계 학습에서 커널 방법의 중요성에 대한 원칙적인 이유입니다. 그러나 여기에 수학은이 과정을 넘어,관심있는 고급 학생들은 헤이 킨의 신경 네트워크 및 학습 기계의 제 7 장이라고합니다.

이것은 가능한 경우에 커널 회귀를 사용하는 수학적 정당성을 제공합니다. 정규화 페널티킥에 사용할 최적의 선형 미분 연산자를 알아야 합니다. 예를 들어,얇은 판 스플라인 커널이 엘 2 정규화에 최적이라는 것을 알고 있습니다. 아래쪽에,우리는 그람 행렬을 계산해야하기 때문에,커널 회귀는 잘 확장되지 않습니다–신경 네트워크로 전환 큰 데이터 세트에 대한 더 나은 생각이다.

답글 남기기

이메일 주소는 공개되지 않습니다.