일변량 함수와 다변량 함수에 대한 미적분학의 연쇄 규칙

체인 규칙을 사용하면 복합 함수의 도함수를 찾을 수 있습니다.

피드포워드 신경망을 훈련시키기 위해 역전파 알고리즘에 의해 광범위하게 계산됩니다. 특정 연산 순서를 따르면서 효율적인 방식으로 체인 규칙을 적용함으로써 역전파 알고리즘은 네트워크의 각 가중치에 대한 손실 함수의 오차 기울기를 계산합니다. 

이 튜토리얼에서는 일변량 함수와 다변량 함수에 대한 미적분학의 연쇄 규칙을 발견하게 됩니다.

이 자습서를 완료하면 다음을 알 수 있습니다.

  • 복합 함수는 두 개(또는 그 이상) 함수의 조합입니다. 
  • 체인 규칙을 사용하면 복합 함수의 도함수를 찾을 수 있습니다.
  • 체인 규칙은 다변량 함수로 일반화할 수 있으며 트리 다이어그램으로 나타낼 수 있습니다. 
  • 체인 규칙은 각 가중치에 대한 손실 함수의 오차 기울기를 계산하기 위해 역전파 알고리즘에 의해 광범위하게 적용됩니다.

튜토리얼 개요

이 자습서는 다음과 같이 네 부분으로 나뉩니다. 

  • 복합 함수
  • 체인 규칙
  • 일반화 된 체인 규칙
  • 머신러닝의 응용


필수 구성 요소

이 자습서에서는 사용자가 이미 무엇인지 알고 있다고 가정합니다.

위에 제공된 링크를 클릭하여 이러한 개념을 검토할 수 있습니다.


복합 함수

우리는 지금까지 단일 변수와 다중 변수 (각각 변량 및 다변량 함수)의 함수를 만났습니다. 이제 두 가지를 복합 형태로 확장하겠습니다. 우리는 결국 파생 상품을 찾기 위해 체인 규칙을 적용하는 방법을 보게 될 것이지만 이에 대해서는 곧 더 자세히 설명하겠습니다. 

복합 함수는 두 함수의 조합입니다.

– 49페이지, 인형을 위한 미적분학, 2016.

단일 독립 변수의 두 함수 f(x) = 2 x – 1 및 g(x) = x 3. 이들의 복합 함수는 다음과 같이 정의할 수 있습니다.

h = g(f(x))

이 연산에서 g는 f의 함수입니다. 즉, 함수 f를 x에 적용한 결과에 g가 적용되어 h를 생성합니다. 

이를 더 잘 이해하기 위해 위에 지정된 함수를 사용하는 구체적인 예를 고려해 보겠습니다. 

f(x)와 g(x)가 캐스케이드의 두 시스템이고 입력 x = 5를 받는다고 가정합니다.

 

복합 함수를 나타내는 캐스케이드의 두 시스템

 

f (x)는 캐스케이드의 첫 번째 시스템이므로 (합성의 내부 함수이기 때문에) 출력이 먼저 계산됩니다.

f (5) = (2 × 5) – 1 = 9

이 결과는 캐스케이드의 두 번째 시스템 인 g (x)에 입력으로 전달되어 (합성의 외부 함수이기 때문에) 복합 함수의 순 결과를 생성합니다.

 (9) = 93 = 729

또는 다음 계산을 수행 한 경우 한 번에 순 결과를 계산할 수 있습니다.

h = g(f(x)) = (2– 1)3 = 729

함수의 구성은 한 함수의 출력이 체인의 다음 함수로 공급되는보다 친숙한 용어를 사용하기 위해 체인 프로세스로 간주 될 수도 있습니다. 

복합 함수에서는 순서가 중요합니다.

– 49페이지, 인형을 위한 미적분학, 2016.

함수 구성은 비교환 프로세스이므로 캐스케이드(또는 체인)에서 f(x)와 g(x)의 순서를 바꿔도 동일한 결과가 생성되지 않습니다. 따라서: 

g(f(x)) ≠ f(g(x))

함수의 구성은 다변량의 경우로 확장 될 수도 있습니다.

h = g(r, s, t) = g(r(x, y), s(x, y), t(x, y)) = g(f(x, y)) 

여기서 f(x, y)는 두 개의 독립 변수(또는 입력값)인 x와 y의 벡터 값 함수입니다. r(x, y), s(x, y) 및 t(x, y)의 세 가지 구성 요소(이 특정 예의 경우)로 구성되며 f의 구성 요소 함수라고도 합니다.  

즉, f(xy)는 두 개의 입력을 세 개의 출력에 매핑한 다음 이 세 개의 출력을 체인의 연속 시스템 g(rst)에 공급하여 h를 생성합니다. 



체인 규칙

체인 규칙을 사용하면 복합 함수의 도함수를 찾을 수 있습니다. 

먼저 체인 규칙이 복합 함수를 구별하는 방법을 정의한 다음 더 잘 이해할 수 있도록 별도의 구성 요소로 나눕니다. 복합 함수 h = g(f(x))를 다시 고려해야 한다면 연쇄 규칙에 의해 주어진 도함수는 다음과 같습니다.

여기서 u는 내부 함수 f(따라서 u = f(x))의 출력이며, 다음 함수 g에 입력으로 공급되어 h를 생성합니다(따라서 h = g( u)). 따라서 연쇄 규칙이 중간 변수 u를 통해 순 출력값 h를 입력 x와 어떻게 관련시키는지 주목하십시오.

복합 함수는 다음과 같이 정의됩니다.

h (x) = g (f (x)) = (2 x – 1) 3

체인 규칙의 첫 번째 구성 요소 인 dh du는 내부에있는 모든 것을 무시하면서 복합 함수의 외부 부분의 도함수를 찾는 것으로 시작하도록 지시합니다. 이를 위해 우리는 권력 규칙을 적용합니다.

((2– 1)3)’ = 3(2– 1)2

그런 다음 결과는 체인 규칙의 두 번째 구성 요소 인 du dx로 곱해지는데, 이는 복합 함수의 내부 부분의 도함수이며 이번에는 외부에있는 것을 무시합니다.

( (2– 1)’ )3 = 2

체인 규칙에 의해 정의된 복합 함수의 도함수는 다음과 같습니다.

h‘ = 3(2– 1)2 × 2 = 6(2– 1)2

우리는 이로써 간단한 예를 고려했지만 더 복잡한 기능에 체인 규칙을 적용하는 개념은 동일하게 유지됩니다. 우리는 별도의 튜토리얼에서 더 어려운 기능을 고려할 것입니다. 


일반화 된 체인 규칙

일변량 사례를 넘어 체인 규칙을 일반화할 수 있습니다. 

x가 R∈ 경우를 고려하십시오.m 및 u ∈ Rn즉, 내부 함수 f는 m 입력을 n 개의 출력값에 매핑하고 외부 함수 g는 n 개의 입력을 받아 출력 h를 생성합니다. i = 1, …, m 의 경우 일반화 된 체인 규칙은 다음과 같습니다.


우리는 여러 변수 함수의 기울기를 찾을 때 편미분을 사용한다는 것을 상기하십시오.

트리 다이어그램으로 체인 규칙의 작동을 시각화 할 수도 있습니다. 

두 개의 독립 변수 x 의 합성 함수가 있다고 가정합니다.1 및 x2는 다음과 같이 정의됩니다.

h = g(f(x1, 엑스2)) = g(u1(x1, 엑스2), u2(x1, 엑스2))

여기, u1 및 u2 중간 변수 역할을 합니다. 트리 다이어그램은 다음과 같이 표시됩니다.

 

트리 다이어그램으로 체인 규칙 표현

 

각 입력에 대한 공식을 도출하기 위해, x1 및 x2, 트리 다이어그램의 왼쪽에서 시작하여 분기를 오른쪽으로 따라갈 수 있습니다. 이런 식으로 우리는 다음 두 공식을 형성한다는 것을 알게됩니다 (요약되는 분기는 단순화를 위해 색상으로 구분되었습니다).

머신러닝의 응용

트리 다이어그램이 신경망의 일반적인 표현과 얼마나 유사한지 관찰하십시오(일반적으로 입력을 왼쪽에 배치하고 출력을 오른쪽에 배치하여 후자를 표현하지만). 역전파 알고리즘을 사용하여 신경망에 체인 규칙을 적용할 수 있으며, 위의 트리 다이어그램에 적용한 방법과 매우 유사한 방식으로 적용할 수 있습니다.

체인 규칙이 극단적으로 사용되는 영역은 함수 값 y 가 다단계 함수 구성으로 계산되는 딥러닝입니다.

– 페이지 159, 머신러닝을 위한 수학, 2020.

신경망은 실제로 거대한 중첩 복합 함수로 나타낼 수 있습니다. 예를 들어:

y = ff케이 – 1 ( … ( 에프1(x)) … ))

여기서 x는 신경망에 대한 입력값(예: 이미지)이고 y는 출력값(예: 클래스 레이블)입니다. 모든 함수, f나는i = 1, …, K는 자체 가중치로 특징 지어집니다. 

이러한 복합 함수에 연쇄 규칙을 적용하면 신경망을 구성하는 모든 은닉 계층을 거꾸로 작업하고 각 가중치에 대한 손실 함수의 오차 기울기를 효율적으로 계산할 수 있습니다.나는, 입력에 도달 할 때까지 네트워크의. 

추가 정보

이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.

요약

이 자습서에서는 일변량 함수와 다변량 함수에 대한 미적분학의 연쇄 규칙을 발견했습니다.

특히 다음 내용을 배웠습니다.

  • 복합 함수는 두 개(또는 그 이상) 함수의 조합입니다. 
  • 체인 규칙을 사용하면 복합 함수의 도함수를 찾을 수 있습니다.
  • 체인 규칙은 다변량 함수로 일반화할 수 있으며 트리 다이어그램으로 나타낼 수 있습니다. 
  • 체인 규칙은 각 가중치에 대한 손실 함수의 오차 기울기를 계산하기 위해 역전파 알고리즘에 의해 광범위하게 적용됩니다.
네피리티
No Comments

Sorry, the comment form is closed at this time.