실제 미적분학: 신경망
인공 신경망은 입력과 출력 간의 매핑을 근사화하는 계산 모델입니다.
그것은 이웃 뉴런으로부터 일련의 자극을받을 때 정보를 전파하는 상호 연결된 뉴런의 네트워크로 유사하게 구성되어 있다는 점에서 인간 두뇌의 구조에서 영감을 받았습니다.
신경망 훈련에는 역전파 알고리즘과 경사하강법 알고리즘을 함께 사용하는 프로세스가 포함됩니다. 앞으로 살펴보겠지만 이 두 알고리즘은 모두 미적분학을 광범위하게 사용합니다.
이 튜토리얼에서는 미적분학의 측면이 신경망에 어떻게 적용되는지 알아볼 것입니다.
이 자습서를 완료하면 다음을 알 수 있습니다.
- 인공 신경망은 뉴런과 연결의 계층으로 구성되며, 후자는 각각 가중치 값에 기인합니다.
- 각 뉴런은 입력 집합을 출력 활성화에 매핑하는 비선형 함수를 구현합니다.
- 신경망을 훈련시킬 때 미적분학은 역전파 및 경사하강법 알고리즘에 의해 광범위하게 사용됩니다.
튜토리얼 개요
이 자습서는 다음과 같이 세 부분으로 나뉩니다.
- 신경망 소개
- 뉴런의 수학
- 네트워크 훈련시키기
필수 구성 요소
이 자습서에서는 사용자가 이미 무엇인지 알고 있다고 가정합니다.
위에 제공된 링크를 클릭하여 이러한 개념을 검토할 수 있습니다.
신경망 소개
인공 신경망은 함수 근사 알고리즘으로 간주 될 수 있습니다.
지도 학습 환경에서 관심 문제를 나타내는 많은 입력 관찰과 해당 대상 출력이 제공되면 인공 신경망은 둘 사이에 존재하는 매핑을 근사화하려고 합니다.
신경망은 인간 두뇌의 구조에서 영감을 받은 계산 모델입니다.
– 65페이지, 딥러닝, 2019.
인간의 뇌는 상호 연결된 뉴런의 거대한 네트워크(약 1천억 개)로 구성되며, 각각은 세포체, 수상 돌기라고 하는 섬유 세트 및 축삭으로 구성됩니다.
수상 돌기는 뉴런에 대한 입력 채널 역할을하는 반면 축삭은 출력 채널 역할을합니다. 따라서 뉴런은 수상 돌기를 통해 입력 신호를 수신하고 다른 이웃 뉴런의 (출력) 축삭에 연결됩니다. 이러한 방식으로 충분히 강한 전기 펄스 (활동 전위라고도 함)가 한 뉴런의 축삭을 따라 연결된 다른 모든 뉴런으로 전달 될 수 있습니다. 이것은 신호가 인간 두뇌의 구조를 따라 전파되도록합니다.
따라서 뉴런은 전부 또는 전무 스위치 역할을 하며, 이 스위치는 일련의 입력을 받아들이고 활동 전위를 출력하거나 출력을 출력하지 않습니다.
– 66페이지, 딥러닝, 2019.
인공 신경망은 인간 두뇌의 구조와 유사한데, 그 이유는 (1) 유사하게 많은 수의 상호 연결된 뉴런으로 구성되어 있기 때문에 (2) 네트워크를 통해 정보를 전파하려고 노력하고, (3) 이웃 뉴런으로부터 자극 세트를 수신하고이를 출력물에 매핑하여 다음 뉴런 계층에 공급합니다.
인공 신경망의 구조는 일반적으로 뉴런 층으로 구성됩니다 (트리 다이어그램의 묘사를 기억하십시오). 예를 들어, 다음 다이어그램은 한 계층의 모든 뉴런이 다음 계층의 모든 뉴런에 연결되는 완전 연결 신경망을 보여줍니다.
입력값은 네트워크의 왼쪽에 표시되고 정보는 반대쪽 끝에 있는 출력값을 향해 오른쪽으로 전파(또는 흐름)됩니다. 이로써 정보는 네트워크를 통해 순방향으로 전파되기 때문에 이러한 네트워크를 피드포워드 신경망이라고도 합니다.
입력 계층과 출력 계층 사이에 있는 뉴런 계층은 직접 액세스할 수 없기 때문에 숨겨진 계층이라고 합니다.
두 뉴런 사이의 각 연결 (다이어그램에서 화살표로 표시됨)은 곧 보게 될 네트워크를 통해 흐르는 데이터에 작용하는 가중치에 기인합니다.
뉴런의 수학
보다 구체적으로, 특정 인공 뉴런 (또는 Frank Rosenblatt가 처음에 명명 한 퍼셉트론)이 n 개의 입력을 받는다고 가정 해 봅시다.1, …, xn], 여기서 각 연결은 해당 가중치에 기인합니다.1, …, wn].
수행되는 첫 번째 연산은 입력 값에 해당 가중치를 곱하고 합계에 바이어스 항 b를 추가하여 출력 z를 생성합니다.
z = ((x1 × 승1) + (x2 × 승2) + … + (xn × 승n)) + b
또는 이 작업을 다음과 같이 보다 간결한 형식으로 나타낼 수 있습니다.
지금까지 수행한 이 가중 합계 계산은 선형 연산입니다. 모든 뉴런이 이 특정 계산만 구현해야 한다면 신경망은 선형 입력-출력 매핑만 학습하도록 제한됩니다.
그러나 우리가 모델링하려는 세계의 많은 관계는 비선형이며 선형 모델을 사용하여 이러한 관계를 모델링하려고 하면 모델이 매우 부정확해집니다.
– 77페이지, 딥러닝, 2019.
따라서 두 번째 연산은 비선형 활성화 함수 a(.)를 적용하여 가중 합을 변환하는 각 뉴런에 의해 수행됩니다.
각 뉴런이 수행하는 연산을 훨씬 더 간결하게 표현할 수 있습니다., 바이어스 항을 합계에 다른 가중치로 통합해야 하는 경우, w0 (이제 합계가 0부터 시작됨).
각 뉴런에 의해 수행되는 연산은 다음과 같이 설명할 수 있습니다.
따라서 각 뉴런은 입력 집합을 출력 활성화에 매핑하는 비선형 함수를 구현하는 것으로 간주 될 수 있습니다.
네트워크 훈련시키기
인공 신경망 훈련에는 데이터의 패턴을 가장 잘 모델링하는 가중치 집합을 검색하는 프로세스가 포함됩니다. 역전파 알고리즘과 경사하강법 알고리즘을 함께 사용하는 프로세스입니다. 이 두 알고리즘은 모두 미적분학을 광범위하게 사용합니다.
네트워크가 정방향(또는 오른쪽) 방향으로 순회할 때마다 네트워크의 오차는 손실 함수(예: 제곱 오차의 합(SSE))를 통해 네트워크에서 생성된 출력값과 예상되는 실측 자료의 차이로 계산할 수 있습니다. 그런 다음 역전파 알고리즘은 가중치의 변화에 대한 이 오차의 기울기(또는 변화율)를 계산합니다. 그렇게 하려면 체인 규칙과 부분 파생 상품을 사용해야 합니다.
단순화를 위해, 단일 활성화 경로로 연결된 두 개의 뉴런으로 구성된 네트워크를 고려해 보십시오. 그것들을 열어야 한다면 뉴런이 계단식으로 다음 연산을 수행한다는 것을 알게 될 것입니다.
체인 규칙의 첫 번째 적용은 네트워크의 전체 오차를 입력 z에 연결합니다.2, 활성화 기능 a2 제2 뉴런의, 그리고 후속적으로 가중치를 하기 위해, w2, 다음과 같이:
연쇄 규칙의 적용은 다른 용어들 중에서도 입력 z에 대한 뉴런의 활성화 함수의 편미분에 의한 곱셈을 포함한다는 것을 알 수 있습니다.2. S 자 또는 물류 함수와 같이 선택할 수있는 다양한 활성화 기능이 있습니다. 로지스틱 함수를 예로 들어야한다면 편미분은 다음과 같이 계산됩니다.
따라서 우리는 δ 계산할 수 있습니다.2 다음과 같이:
여기서, t2 는 예상되는 활성화이며, t 사이의 차이를 찾는 데 있어2 그리고2 따라서 우리는 네트워크에 의해 생성 된 활성화와 예상되는 실측 자료 사이의 오류를 계산하고 있습니다.
활성화 함수의 도함수를 계산하기 때문에 실수의 전체 공간에 대해 연속적이고 미분 가능해야합니다. 심층 신경망의 경우 오차 기울기는 많은 수의 숨겨진 계층에 걸쳐 뒤로 전파됩니다. 이로 인해 오류 신호가 0으로 빠르게 감소할 수 있으며, 특히 미분 함수의 최대값이 이미 작아서 시작할 수 없는 경우(예: 로지스틱 함수의 역함수의 최대값이 0.25인 경우) 더욱 그렇습니다. 이를 소실 그라디언트 문제라고 합니다. ReLU 함수는 도메인의 양수 부분에 있는 도함수가 1과 같기 때문에 이 문제를 완화하기 위해 딥러닝에서 널리 사용되었습니다.
다음 가중치는 네트워크 깊숙이 들어가므로 체인 규칙의 적용도 마찬가지로 확장되어 전체 오차를 가중치 w1, 다음과 같이:
로지스틱 함수를 선택한 활성화 함수로 다시 취하면 계산δ1 다음과 같이:
각 가중치에 대한 네트워크 오차의 기울기를 계산한 후에는 기울기 하강법 알고리즘을 적용하여 t+1 시간에 다음 순방향 전파에 대한 각 가중치를 업데이트할 수 있습니다. 무게의 경우, w1에서 경사하강법을 사용하는 가중치 업데이트 규칙은 다음과 같이 지정됩니다.
이로써 간단한 네트워크를 고려했지만, 우리가 겪은 프로세스는 더 복잡하고 심층적 인 네트워크, 예를 들어 컨볼루션 신경망 (CNN)을 평가하도록 확장 될 수 있습니다.
고려중인 네트워크가 여러 입력에서 오는 여러 분기 (그리고 여러 출력으로 흐를 수 있음)를 특징으로 하는 경우, 평가에는 이전에 일반화 된 체인 규칙을 도출 한 방법과 유사하게 각 경로에 대한 다른 파생 체인의 합계가 포함됩니다.
추가 정보
이 섹션에서는 더 자세히 알아보려는 경우 주제에 대한 더 많은 리소스를 제공합니다.
책
- 딥 러닝, 2019.
- 패턴 인식 및 머신러닝, 2016.
요약
이 자습서에서는 미적분학의 측면이 신경망에 어떻게 적용되는지 알아보았습니다.
특히 다음 내용을 배웠습니다.
- 인공 신경망은 뉴런과 연결 계층으로 구성되며, 후자는 각각 가중치 값에 기인합니다.
- 각 뉴런은 입력 집합을 출력 활성화에 매핑하는 비선형 함수를 구현합니다.
- 신경망을 훈련시킬 때 미적분학은 역전파 및 경사하강법 알고리즘에 의해 광범위하게 사용됩니다.