본문 바로가기
도서리뷰/IT 도서

[한빛미디어] <밑바닥부터 시작하는 딥러닝5> 리뷰

by james_janghun 2024. 11. 9.

 

 

총평

- 책의 난이도 : ★

- 추천 별점     : ★★★★

- 추천 독자     :  머신러닝/딥러닝을 공부하는 모든 사람

- 지은이          : 사이토 고키 지음 / 개앞맵시 옮김

- 출판사          : 한빛미디어

 


와 벌써 5번째 책이 나왔네요.

딥러닝 공부하시는 분의 필독서죠. 너무 시리즈가 좋아서 벌써 5번째 시리즈가 나왔나 봅니다.

번역은 항상 해주시는 개앞맵시 님께서 해주셨네요. 구글 디자이너는 이렇게 일한다를 번역하신 분이기도 합니다. ㅎㅎ

 

아무튼 이번에 나온 책은 10단계로 익히는 이미지 생성 모델의 원리가 부제입니다.

즉 GEN AI라고 해야할까요? 이미지 생성형 모델을 중점적으로 다룬다고 볼 수 있겠습니다.

 

이번 판은 정말 풀 컬러로 예쁘게 나왔습니다. 원래도 컬러이긴 한데 뭔가 퀄리티가 점점 더 좋아지는 느낌이에요 ㅎㅎ

 

책의 목차

1장. 정규분포

2장. 최대 가능도 추정

3장. 다변량 정규 분포

4장. 가우스 혼합 모델

5장. EM 알고리즘

6장. 신경망

7장. 변이형 오토인코더

8장. 확산 모델 이론

9장. 확산 모델 구현

10장. 확산 모델 응용

첨부로 다변량 정규 분포 최대 가능도 추정법 도출 / 옌센 부등식 / 계층형 VAE의 이론과 구현 / 수식 기호 목록 이렇게가 있어요.

 

책의 내용

 

간단하게 책에서 어떤 내용을 다루고 있는지 자세하게 서술해보겠습니다.

 

1장에서 정규분포의 이론과 함께 수식과 확률분포 등에 대해서 학습하게 됩니다. 코드도 같이 첨부되어 있기 때문에 코드로 하나씩 따라가보면 될것같아요.

 

2장에서는 실제 데이터로 생성 모델도 구현합니다. 키 데이터 셋을 불러와서 정규 분포를 따르는 생성 모델을 구현해보고 실제로 코드로 구현해보면서 이론을 추론하게 됩니다.

 

3장에서는 다변량 정규 분포를 살펴보는데요. 다변량 정규 부ㄴ포는 여러 개의 실수로 이뤄진 벡터의 정규분포를 말합니다. 이것을 시각화해보고 최대가능도를 추정하는 실습을 합니다. 넘파이를 이용하기 때문에 아무래도 파이썬이 익숙하신 분들이 보는게 좋다고 생각되네요.

 

4장 부터는 가우스 혼합 모델을 보게되는데, 정규분포만으로 표현하기 어려운 현상들을 가우스 혼합 모델을 통해서 해결하곤 합니다. 이는 정규분포를 여러개를 혼합하게 되면서 나오는 복잡 모델을 해결하는 방법입니다. 이 기법은 통계학과 머신러닝에서 널리 쓰이고 있고 데이터 생성에서도 중요한 기법입니다.

 

5장은 EM 알고리즘을 설명하는데요. EM은 Expectation-Maximization의 약자로 기댓값 최대화 알고리즘을 이야기 합니다. 가우스 혼합 모델의 매개변수를 효율적으로 추정하기 위해서 사용하게 됩니다.

 

6장은 신경망입니다. 이제 알고리즘을 학습했으면 신경망으로 들어가야죠. 신경망 프레임워크인 파이토치를 사용하게 되는데 역시 넘파이랑 파이토치를 이미 1편부터 읽으신 분들이라면 잘 알고 계실겁니다. 이를 통해서 신경망을 구현하는 학습을 진행합니다.

 

7장 변이형 오토인코더 에서는 신경망을 활용해 보다 복잡한 데이터를 활용하는데 쓰입니다. VAE라고도 하는데요 variational autoencoder입니다. VAE는 인코더 이기 때문에 디코더도 같이 학습하면서 비교해봅니다. 

 

8장 확산 모델 이론에서는 VAE에서 좀더 발전한 모델들을 학습합니다. 잠재 변수를 계층화한 계층형 VAE가 있습니다. 그리고 Denoising Diffusion Probabilistic Models(DDPM, 노이즈 제거 확산 확률 모델)이라는 게 있는데 이런 것들을 확산 모델이라고 합니다.

 

9장 확산 모델 구현에서는 8장에서 서술한 모델들의 이론을 직접 구현해봅니다. 확산 모델에서는 신경망에 U-Net이라는 모델을 많이 활용하는데요. 여기서는 이 모델에 대해서 학습하고 구현해봅니다. 그리고 시각 데이터를 효율적으로 처리하기 위한 사인파 위치 인코딩을 학습하고 가우스 노이즈를 추가하는 확산 과정을 확인해봅니다. 그리고 MNIST 데이터셋으로 확산 모델을 학습해봅니다.

 

10장에서는 확산 모델 응용을 해봅니다. 시테이블 디퓨전, 그리고 우리가 가장 많이 들어본 미드저니가 대표적인 서비스이빈다. 이들은 모두 텍스트를 입력받아서 이미지를 생성하고 조건부 확산 모델을 이용해서 구현합니다. 10장에서는 그래서 조건부 확산 모델을 학습하고 이런 첨단 이미지 생성 AI가 어떤 기술을 사용하는지 좀 더 구체적으로 분석해봅니다.

 

 

정말 이 책은 잘 알려진 명서라서 크게 소개드리기보다는 이미 공부하시는 분들이 학습할 내용이 있다면 바로 사서 읽어보시면 좋을 것 같습니다^^

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."