728x90
반응형
회사에서 비전 딥러닝을 담당하고 Tensorflow Object Detection API를 사용하던 중 훈련 중에 발생한 에러들이 있다.
모두에게 반드시 통용되지는 않겠지만 일부 나와 같은 오류를 겪고 헤매는 사람들을 위해 올린다.
1. Invoke with: None, value error
위와 같은 에러는 명령어를 입력할 때 argument에 값을 잘못 넣은 경우이다. 오타 혹은 경로에 문제가 있는지 다시 확인하면 잘 고쳐졌다.
2. loss = nan
loss값이 nan으로 찍히는 경우가 있다. 이는 total step이나 learning rate를 높게 설정하면 발생하는 문제로 역전파 과정에서 값이 증폭되며 loss에 찍힐 수 있는 값의 범위를 넘어가면 발생한다고 한다. total step을 무작정 줄이기보다는 learning rate와 warmup learning rate를 조절하는 방향으로 설정하는 것을 권장한다.
3. Deadlock
학습을 위해 initialize하는 과정 중 아무리 기다려도 더 이상 진행을 하지 않을 때가 있다. deadlock으로 봐야 할지 stop으로 봐야 할지 잘 모르겠다. 이 부분을 해결하기 위해 시도했던 내용은 다음과 같다.
- 현재 내 학습 데이터를 잘 확인해본다. 혹시라도 record파일이 잘못 생성되어 크기가 0인데 이를 확인 안하고 그냥 돌리면 발생하였다.
- pipeline.config파일 내 절대경로를 사용하는 값에 대해 상대 경로로 수정해준다.
- TPU사용 중이 아닌데 bfloat16의 값이 True로 되어있다면 False로 바꿔준다.
728x90
반응형
'Python > 딥러닝 (Deep-Learning)' 카테고리의 다른 글
우리 EasyOCR로 한번 가자(2) (6) | 2021.04.18 |
---|---|
우리 EasyOCR로 한번 가자(1) (2) | 2021.04.13 |
눈물없이는 볼 수 없는 회사 딥러닝 프레임워크 업데이트 모험기(3) (0) | 2021.03.17 |
눈물없이는 볼 수 없는 회사 딥러닝 프레임워크 업데이트 모험기(2) (0) | 2021.02.21 |
눈물없이는 볼 수 없는 회사 딥러닝 프레임워크 업데이트 모험기(1) (0) | 2021.01.30 |