도서 소개
우리가 흔히 머신러닝, 딥러닝이라고 부르는 데이터 분석 모델에 대해서 학습한다. 이번 전면개정판에서는 머신러닝, 딥러닝 알고리즘을 만들어가는 각각의 단계에서 어떠한 고민을 할 수 있을지를 담는 것에 집중하였다. 복잡한 이론을 간결하게 정리하되, 퀴즈를 통해 실제 모델 설계 과정에서 마주하게 될 고민들을 체험하도록, 적어도 A라는 알고리즘과 B라는 알고리즘(예. RandomForestClassifier와 SVC)이 어떻게 동작하는지, 각 모델의 중요한 특징은 선명하게 머리 속에 그려낼 수 있게 도움이 되도록 각 개념의 정의와 예시를 설명하고, 다양한 퀴즈를 통해 개념을 다시 정리할 수 있도록 구성했다.
출판사 리뷰
이 책이 제시하는 핵심 내용이 책에서는 우리가 흔히 머신러닝, 딥러닝이라고 부르는 데이터 분석 모델에 대해서 학습합니다. 이번 전면개정판에서는 머신러닝, 딥러닝 알고리즘을 만들어가는 각각의 단계에서 어떠한 고민을 할 수 있을지를 담는 것에 집중하였습니다. 복잡한 이론을 간결하게 정리하되, 퀴즈를 통해 실제 모델 설계 과정에서 마주하게 될 고민들을 체험하도록, 적어도 A라는 알고리즘과 B라는 알고리즘(예. RandomForestClassifier와 SVC)이 어떻게 동작하는지, 각 모델의 중요한 특징은 선명하게 머리 속에 그려낼 수 있게 도움이 되도록 각 개념의 정의와 예시를 설명하고, 다양한 퀴즈를 통해 개념을 다시 정리할 수 있도록 구성했습니다.
어떤 독자를 위한 책인가?이 책은 인공지능에 대한 일을 하고 싶거나 혹은 해야만 하는 독자를 위한 책입니다.
__보다 구체적으로 인공지능에 관한 문서나 대화를 이해할 수 있거나,
__직접적으로 인공지능에 관한 프로젝트를 기획하거나 개발하고 싶거나.
아마 전자는 어학에서 읽기/듣기에 해당하는 영역과 비슷하고, 후자는 말하기/쓰기와 비슷합니다. 경우에 따라 어떤 것이 더 쉽고 어렵고 차이가 있을 수 있지만, 본질적인 이해 없이 일을 수행할 수 없음은 분명합니다. 이 책은 머신러닝, 딥러닝에 대해 선명하게 이해하는 데 도움이 될 것입니다.
도서 소개“비전공자도 스스로 머신러닝, 딥러닝 모델을 만들 수 있다.”
* QR코드로 제공하는 동영상 강의 35개 (8시간)
개념정리가 필요한 곳, 심화 내용과 실무 팁이 필요한 곳에 QR코드로 동영상 강의를 제공합니다.
* 학습효과를 극대화하는 문제 120개
학습한 내용을 바로 확인할 수 있는 문제를 본문 적재적소에 넣었습니다.
-------------------------------------------------------------------------------------------------------------------
이 책의 목표는 독자 여러분이 스스로 AI 모델을 만들 수 있게 하는 것입니다.
Q: 데이터를 분석하고, 인공지능 알고리즘을 만드는 이유는 무엇인가요?
A: 가장 중요한 이유는 현실 세계를 데이터에 기반하여 최대한 객관적으로 바라보고, 적용할 수 있는 솔루션을 만들어 내기 위해서입니다. 단순히 취업을 위해서 또는 소위 요즘 핫하다니까 배워보는 ‘패션’으로 인공지능을 배우는 것은 시간만 낭비할 뿐 아무런 쓸모가 없습니다. 인공지능, 머신러닝, 데이터 분석의 궁극적인 목표는 ‘현실 세계에 적용할 수 있는 솔루션을 만드는 것’이라는 것을 잊지 마세요.
Q: 시중에 이미 많은 책이 있습니다. 그와 대비되는 이 책의 차별점은 무엇인가요?
A: 이 책에서는 머신러닝, 딥러닝 알고리즘을 만들어가는 각각의 단계에서 어떠한 고민을 할 수 있을지를 담는 것에 집중했습니다. 많은 사람들이 모델의 성능을 높이기 위해서 ‘어떠한 작업을 해야 하는지’ 궁금해합니다. 안타깝게도 어떻게 하면 된다는 절대적인 규칙이나 방법 같은 것은 없습니다. 다만 각 개별 과정을 “왜?” 수행하는지에 대한 이해가 있다면, 상황에 따라 어떻게 해결해야 할 지에 대한 힌트를 얻을 수 있을 것이라 생각합니다. 그래서 머신러닝, 딥러닝 알고리즘에 대한 주요 개념에 대한 설명은 최대한 간결하고 명료하게 정리했습니다. 개별 알고리즘에 대한 깊이 있는 원리나 사용법을 모두 이해하기에는 부족할 수 있으나, 적어도 A라는 알고리즘과 B라는 알고리즘(예. RandomForestClassifier와 SVC)이 어떻게 동작하는지, 각 모델의 중요한 특징은 선명하게 머릿속에 그려낼 수 있게 도움이 되도록 각 개념의 정의와 예시를 설명하고, 다양한 퀴즈를 통해 개념을 다시 정리할 수 있도록 구성했습니다.
Q: 『파이썬으로 시작하는 데이터 분석(전면개정판)』과 이 책은 어떤 연관성이 있나요?
A: 1권은 파이썬 기초부터 데이터 탐색 및 대시보드 생성까지 데이터를 이해하고 다루기 위한 준비 과정이고, 2권은 본격적으로 데이터 분석 모델을 만들며 머신러닝과 딥러닝 알고리즘을 다룹니다. 2권은 1권과 시리즈를 구성하고 있습니다. 만약 데이터 분석의 기본기가 부족하다고 느낀다면 1권을 먼저 학습하기를 권해 드립니다.
일러두기이 책을 읽기 위해 필요한 사전 지식이 있습니다.
__파이썬 기초 ***
__pandas *
__데이터 시각화 *
책의 내용은 위의 사전 지식을 어느 정도 숙지하고 있음을 가정하고 작성하였습니다. 만약 위의 지식에 대한 이해가 필요하다면 『파이썬으로 시작하는 데이터 분석, 전면개정판』 (2025, 아이리포) 책을 먼저 읽는 것을 추천합니다. 이 책은 순서대로 읽는 것을 권장하지만 머신러닝, 딥러닝 모델에 대해 경험이 있거나 ‘문제 해결사’ 유형의 학습 방법을 선호하는 사람의 경우 다음의 순서로 읽는 것도 좋습니다.
__유형 1: ‘이론 마스터’
이론을 탄탄히 다지고 문제 풀이를 하는 유형
순차적으로 미션을 수행하기
__유형 2: ‘문제 해결사’
문제에 먼저 부딪혀보고, 궁금한 것을 찾아보는 유형
코드 작성을 먼저하고 개념을 정리하기
실습 단원의 코드는 주어진 문제를 웹 검색이나 책의 이론을 찾아보지 않고, 스스로 작성할 수 있어야 합니다. 처음에 이 작업이 어려울 수 있습니다. 그렇다면 먼저 완성된 코드를 보고 완벽하게 이해하도록 하세요. 그 후 스스로 문제와 기본 뼈대 코드(Skeleton Code)의 내용을 채워보세요. 코드 작성이 익숙해졌다면, 스스로 데이터셋 분석 방향을 정해보고 AI 모델을 학습시켜본다면 이 책을 완벽하게 마스터한 것입니다.
작가 소개
지은이 : 강지영
정보관리기술사, 정보시스템 수석감리원인공지능과 데이터 분석을 전혀 모르던 평범한 직장인이었다. 우연히 맡게 된 업무를 계기로 이 분야에 뛰어들었고, 독학으로 하나씩 배워나가며 성장했다. 누군가에게는 깊이 있는 이론보다 쉬운 설명이, 간단한 문제 풀이를 통한 실전 연습을 위한 가이드가 필요하다는 것을 누구보다 잘 안다. 정보가 넘쳐나는 시대지만, 정작 필요한 것만 골라 배우기는 더 어려워졌다. 현재는 비슷한 어려움을 겪는 사람들에게 실질적인 도움을 주는 것에서 가장 큰 보람을 느낀다. 이론서가 아닌 실용서로, 구구절절한 설명 대신 꼭 필요한 핵심만 담아 이 책을 완성했다. AI Agent 시대를 준비하는 모든 이들에게 이 책이 든든한 첫걸음이 되기를 바란다.『파이썬으로 시작하는 데이터 분석(전면개정판) 』 (2025, 아이리포) 집필 『파이썬으로 시작하는 머신러닝+딥러닝(전면개정판) 』 (2025, 아이리포) 집필
목차
일러두기
__『파이썬으로 시작하는 머신러닝+딥러닝, 전면개정판』 100% 학습하기
__『파이썬으로 시작하는』 시리즈 안내
__IT 분야 취업을 위한 학습 로드맵
1장. 머신러닝, 딥러닝의 주요 개념
__1.1 인공지능, 머신러닝, 딥러닝
__1.2 종속변수, 독립변수, 모델, 학습, 추론
__1.3 지도학습, 비지도학습, 강화학습
__1.4 머신러닝 프로세스
__1.5 과대적합과 과소적합
__1.6 딥러닝의 주요 용어
__1.7 이 책에서 다루는 분석 모델
__1.8 컴퓨터를 학습시키기 위한 준비
2장. 데이터 전처리
__2.1 데이터 탐색(EDA)
__2.2 결측치 처리
__2.3 이상치 처리
__2.4 데이터 통합
__2.5 데이터 변환
__2.6 데이터 축소
__2.7 데이터 분할
__2.8 데이터 전처리 연습문제
3장. 지도학습
__3.1 의사결정나무
__3.2 앙상블(Random Forest, LightGBM, XGBoost)
__3.3 KNN(K Nearest Neighbor)
__3.4 SVM(Support Vector Machine)
__3.5 로지스틱 회귀(Logistic Regression)
__3.6 선형 회귀(Linear Regression)
__3.7 평가 지표
4장. 비지도학습
__4.1 군집 모델이란?
__4.2 계층적 군집 알고리즘
__4.3 K-means 알고리즘
__4.4 군집 알고리즘의 평가 방법
5장. 머신러닝의 성능 개선
__5.1 머신러닝에서 성능이란?
__5.2 교차검증
__5.3 하이퍼파라미터 튜닝
__5.4 특성 공학(Feature Engineering)
__5.5 학습의 이른 종료
6장. 머신러닝 연습문제
__6.1 유방암 예측 모델
__6.2 AI 면접관, 지원자 합격 여부 예측하기
__6.3 주택 가격 예측 모델
__6.4 쇼핑몰 고객 데이터 분석
7장. 딥러닝
__7.1 인공신경망이란?
____7.1.1 인공신경망
____7.1.2 인공신경망의 학습
____7.1.3 인공신경망의 활성화 함수
____7.1.4 인공신경망의 손실 함수
__7.2 인공신경망 구성하기
__7.3 인공신경망의 성능 개선
____7.3.1 드롭아웃(Dropout)
____7.3.2 이른 종료(Early Stop)
____7.3.3 배치 정규화(Batch Normalization)
____7.3.4 가중치 초기값 설정(Weight Initialization)
8장. CNN
__8.1 CNN의 이해
____8.1.1 컨볼루션 레이어(Convolution Layer)
____8.1.2 풀링 레이어(Pooling Layer)
____8.1.3 완전 연결 레이어(Fully Connected Layer)
__8.2 CNN 구성하기
__8.3 이미지 분류 응용
____8.3.1 이미지란?
____8.3.2 이미지 데이터 전처리
____8.3.3 이미지넷
____8.3.4 VGGNet
____8.3.5 GoogLeNet
____8.3.6 ResNet
____8.3.7 EfficientNet
____8.3.8 전이 학습
9장. RNN
__9.1 RNN의 이해
__9.2 언어 모델의 이해
____9.1.1 자연어 처리
____9.1.2 텍스트 전처리
____9.1.3 Seq2Seq
____9.1.4 Attention
____9.1.5 Transformer
____9.1.6 최신 자연어 처리 분야의 핵심 기술 요소