AI 5

ResNet의 Identity Mapping에 대한 Ablation experiment와 결론

ResNet은 Skip Connection을 포함하는 Residual Unit을 포함한 구조를 제안했고, 이건 우리에게 '어떤 Skip Connection이 가장 학습에 용이한가'라는 질문을 하게 만들었다. 여러 번의 ablation experiment를 통해 낸 결론은, identity mapping으로 연결해놓고, 마지막 f(y)도 identity mapping으로 설계되어있을 때, 가장 학습이 용이하다는 것이었다. 정확히는, "If both h(x) and f(y) are identity mappings, the signal could be directly propagated from one unit to any other units, in both forward and backward passes..

AI 2026.01.20

ResNet 설계 아이디어

이 글은 2015년 ResNet을 발표했던 'Deep Residual Learning for Image Recognition' 라는 논문의 기초적인 내용을 다루고 있습니다. DeepCNN은 이미지 분류에 매우 중요한 돌파구가 되었고, 많은 연구가 진행되었어. 그 과정에서 깊이를 깊게 만들면 Gradient Vanishing/Exploding 문제가 발생할 수 있었고, 그건 Normalized Initialization이나 Batch Normalization 등의 기법으로 어느 정도 해결된 것으로 보여. 이제 약간 더 복잡한 challenging image set에 대해서도 높은 성능의 분류가 가능해진 것 같아. 그러다보니 이제 이런 문제가 떠올랐어. "Optimization이 네트워크 layer 하나 더..

AI 2026.01.20

ZK-Proof 기초 커리큘럼

ZK의 개념 및 P/NP/IPS와의 구분ZK-proof: 내가 어떤 계산을 올바르게 수행했다는 사실을, 그 계산의 내용은 공개하지 않고 증명하는 기술이를 위해 필요한 것: 계산을 수학적으로 표현 그 계산이 맞다는 것에 대한 설득 아무 정보도 새지 않게 하는 장치P vs NP, IPS 등의 개념은 1번을 극단까지 밀어붙인 이론적 정당화 과정에서 나오는 개념. ZK-Proof 기초 커리큘럼0단계 - ZK가 왜 필요한가?목표: ZK가 '증명기술'이라는 것에 대한 감각 잡기, '비밀을 숨긴다'가 정확히 무슨 의미인지 이해하기 핵심 개념: 증명 vs 계산 신뢰 vs 검증 말로 주장 vs 수학적으로 증명 필수 키워드:Prover / VerifierStatement vs WitnessSoundness / C..

AI 2026.01.17

모델의 복잡도와 표현력: 가중치, 과대적합, 그리고 일반화

'모델의 복잡도'는 "입력벡터 x의 작은 변화가 출력값 f(x)를 얼마나 변화시킬 수 있는지"를 의미하는 개념이다. 가중치가 커지면, 입력벡터가 약간만 달라지더라도 큰 가중치에 의하여 출력값이 크게 달라질 것이다. 그런 점에서, 가중치가 큰 모델은 모델의 복잡도가 크다고 표현할 수 있다. 모델의 복잡도는 과대적합 문제와 관련있다. 과대적합 문제는, 학습데이터에서는 loss가 매우 작고, 테스트데이터에 대해서는 loss가 작지 않거나 성능이 잘 안 나오는 문제를 말한다. 과대적합 문제는 보통 학습데이터에 존재하는 노이즈를 많이 반영하여 학습한 결과, 일반적인 데이터셋에 대한 성능이 나오지 않게 되어 발생한다. 모델이 구조상 큰 가중치도 가능한 구조이기 때문에, 학습 과정에서 학습데이터셋에 있는 노이즈까지..

AI 2026.01.13

모델의 분산과 편향

모델의 분산이란, 모델의 예측값을 확률변수로 보았을 때의 분산. 모델의 출력값을 확률변수로 본다. 정확히는 "고정된 입력 𝑥에 대해, 학습 데이터셋의 샘플링에 따라 달라지는 모델 예측값을 확률변수로 보았을 때의 분산". 어떤 학습데이터셋을 샘플링하여 모델 학습을 진행한다고 하면, 데이터셋을 다시 샘플링하면, 같은 알고리즘이라도 학습된 결과모델은 매번 조금씩 달라질 것. 이때, 특정 입력 input vector에 대한 예측값은, 데이터셋 D에 따라 달라지는 값, 즉 확률변수임. "훈련데이터를 약간 바꾸면, 모델의 예측값이 얼마나 크게 달라지는가?" 이걸 정확하게 수치화한 개념이 모델의 분산. 따라서, 파라미터가 많거나 레이어가 많은 등 모델이 복잡하다 = 학습데이터셋에 포함된 노이즈에 대한 민감도..

AI 2026.01.12