머신러닝

머신러닝 1주차 (03/06) - 인공지능 개념과 머신러닝이란..

vitamin3000 2025. 3. 6. 22:52

 

머신러닝은 다음의 깊이에 존재한다

  • 인공지능
    • 머신러닝
      • 지도학습 : 문제와 정답이 쌍으로 주어지고, 새로운 데이터에 대해 예측(훈련 데이터, 학습하기 위함), 분류(테스트 데이터, 성능 테스트) 등을 수행
      • 비지도학습 : 데이터로부터 일정한 규칙을 찾는 방법, 정답이 주어지지 않는다 
      • 강화학습 : 보상과 벌칙을 정의
        • 학습 대상은 시행착오를 통해 스스로 벌칙을 최소화하고 보상을 최대화하도록 행동을 학습
        • 지도, 비지도에 비해 학습하기 위한 데이터가 적게 필요하지만 보상을 언제 줄 것인가를 고민해야한다
        • 보상을 줄 때는 예를 들어 맞춘 갯수가 일정 수가 넘거나, 정확도 측정시 95%보다 높거나.. 

딥러닝과 신경망은 완전하진 않지만 같은 의미를 내포한다

 

강화란 ? 

어떤 지속적인 자극에 의해 반응이 점차적으로 강해지거나 약해지는 것을 의미

 

Q-Learning - (강화학습 알고리즘)

문제 : 학습 공간(저장), 학습 시간

Q-table이 아닌 함수 근사(모든 결과를 저장하지 않고 압축하여 저장)에 집중

압축 저장 -> 양이 많아짐에 따라 문제 발생 -> 인공 신경망으로 해결중

오차 역전파법

으로 신경망이 발달하여 Q-table은 신경망으로 대체한 연구가 활발히 진행

문제 : 경사손실 문제 발생, (강화학습 알고리즘이 아닌 신경망 알고리즘의 문제)

원인 : 신경망이 복잡해져서

해결방법 : 알렉스넷으로 해결, 합성곱 신경망

 

 

강화 학습의 기본 요소

  • 환경
    • 정의 : 강화학습을 이용해 풀고자하는 대상이나 문제
      즉 AI(에이전트)를 제외한 나머지
    • 이산공간 : 그리드 월드처럼 나눔
    • 연속공간: 우리가 생활하는 시간이나 공간이 연속적인 것
    • 즉 이산 공간을, 연속공간으로 확장
  • 상태 
    • 현재의 상태는 현재 선택한 action의 결과로 St + 1로 전이될 수 있으며, 현재의 action에 따라 어떠한 state로 전이 할 수 있을지에 대해 통계적으로 정의된다
  • 액션
    • t 시점에서 취하는 액션
    • 강의에서는 상 우 하 좌   , 순서로 a1 a2 a3 a4이다. 기억하자!
  • 보상
    • t 시점에 받을 수 있는 reward로 강화학습의 매우 중요한 지표이다
      왜냐하면 모든 action set에 대한 reward 합인 total reward를 최대화하는 것이 목적이기 때문이다