갑자기 어느날 이상헌이 말해줌
chat GPT 에서 bias-variance tradeoff 를 이용해서 람다에 대한 tradeoff 를 이용해 최적점을 찾는다.
뉴럴 탄젠트 커널
Neural tangent Kernel 이라는 논문이 있는데
모델 사이즈가 졸라 크면 generalization이 잘된다