머신러닝
머신러닝 1주차 (03/06) - 인공지능 개념과 머신러닝이란..
vitamin3000
2025. 3. 6. 22:52
머신러닝은 다음의 깊이에 존재한다
- 인공지능
- 머신러닝
- 지도학습 : 문제와 정답이 쌍으로 주어지고, 새로운 데이터에 대해 예측(훈련 데이터, 학습하기 위함), 분류(테스트 데이터, 성능 테스트) 등을 수행
- 비지도학습 : 데이터로부터 일정한 규칙을 찾는 방법, 정답이 주어지지 않는다
- 강화학습 : 보상과 벌칙을 정의
- 학습 대상은 시행착오를 통해 스스로 벌칙을 최소화하고 보상을 최대화하도록 행동을 학습
- 지도, 비지도에 비해 학습하기 위한 데이터가 적게 필요하지만 보상을 언제 줄 것인가를 고민해야한다
- 보상을 줄 때는 예를 들어 맞춘 갯수가 일정 수가 넘거나, 정확도 측정시 95%보다 높거나..
- 머신러닝
딥러닝과 신경망은 완전하진 않지만 같은 의미를 내포한다
강화란 ?
어떤 지속적인 자극에 의해 반응이 점차적으로 강해지거나 약해지는 것을 의미
Q-Learning - (강화학습 알고리즘)
문제 : 학습 공간(저장), 학습 시간
Q-table이 아닌 함수 근사(모든 결과를 저장하지 않고 압축하여 저장)에 집중
압축 저장 -> 양이 많아짐에 따라 문제 발생 -> 인공 신경망으로 해결중
오차 역전파법
으로 신경망이 발달하여 Q-table은 신경망으로 대체한 연구가 활발히 진행
문제 : 경사손실 문제 발생, (강화학습 알고리즘이 아닌 신경망 알고리즘의 문제)
원인 : 신경망이 복잡해져서
해결방법 : 알렉스넷으로 해결, 합성곱 신경망
강화 학습의 기본 요소
- 환경
- 정의 : 강화학습을 이용해 풀고자하는 대상이나 문제
즉 AI(에이전트)를 제외한 나머지 - 이산공간 : 그리드 월드처럼 나눔
- 연속공간: 우리가 생활하는 시간이나 공간이 연속적인 것
- 즉 이산 공간을, 연속공간으로 확장
- 정의 : 강화학습을 이용해 풀고자하는 대상이나 문제
- 상태
- 현재의 상태는 현재 선택한 action의 결과로 St + 1로 전이될 수 있으며, 현재의 action에 따라 어떠한 state로 전이 할 수 있을지에 대해 통계적으로 정의된다
- 액션
- t 시점에서 취하는 액션
- 강의에서는 상 우 하 좌 , 순서로 a1 a2 a3 a4이다. 기억하자!
- 보상
- t 시점에 받을 수 있는 reward로 강화학습의 매우 중요한 지표이다
왜냐하면 모든 action set에 대한 reward 합인 total reward를 최대화하는 것이 목적이기 때문이다
- t 시점에 받을 수 있는 reward로 강화학습의 매우 중요한 지표이다