인공지능시대(54): 인공지능의 강화학습

최종편집 : 2026-06-03 오후 04:14:10

사설지홍기 교수. 데이터 시대지홍기 교수 Ⅲ. Gen AI 시대지홍기 교수 Ⅱ.인공지능시대지홍기 교수 Ⅰ. 제4차 산업혁명시대김안제 박사의 隨想강성주의 역사에서 배운다강성주의 뉴스로 세상읽기종합

전체기사

커뮤니티

뉴스 > 지홍기 교수 Ⅱ.인공지능시대

+크기 | -작게 | 이메일 | 프린트

인공지능시대(54): 인공지능의 강화학습

2022년 01월 28일 [주간문경]



	↑↑ 지홍기 영남대학교 명예교수 문경대학교 특임교수 문경시지역발전협의회 의장
	ⓒ (주)문경사랑

강화학습이란?

인공지능(AI)에서 머신러닝의 꽃이라 불리는 강화학습(Reinforcement Learning)은 지도학습이나 비지도 학습과는 다른 개념이다. 강화학습은 행동 심리학에서 나온 이론으로 분류할 수 있는 데이터가 존재하는 것도 아니고, 데이터가 있다 해도 정답이 따로 정해져 있지도 않으며, 자신이 한 행동에 대해 보상(Reward)을 받으면서 학습하는 것을 의미한다.

강화학습의 구조

강화학습은 에이전트(Agent), 환경(Environment), 상태(State), 행동(Action), 보상(Reward) 등의 개념을 사용하여 설명할 수 있다.

게임을 예로들면, 게임의 규칙을 따로 입력하지 않고 자신이 게임 환경의 현재 상태에서 높은 점수를 얻는 방법을 찾아가면서 행동하는 학습 방법이며, 특정 학습 횟수를 초과하면 높은 보상(점수)를 획득할 수 있는 전략이 형성되게 된다. 그러나 행동을 위한 행동 목록 즉, 방향키, 버튼 등은 사전에 정의가 되어야 한다.

강화학습의 심화과정

만약 강화학습의 심화과정은 지도학습(Supervised Learning)을 통해 학습을 수행한다고 가정하면 모든 상황에 대해 어떠한 행동을 해야 하는지 모든 상황을 예측하고 답을 설정해야 하기 때문에 엄청난 예제가 필요하게 된다. 강화학습은 이전부터 일찍이 존재해 왔던 학습법이지만 초기단계에서의 알고리즘은 실생활에 적용할 수 있을 만큼 좋은 결과를 내지 못했다.

그러나 딥러닝이 등장한 이후 강화 학습에 신경망을 적용하면서부터 바둑이나 자율주행차와 같은 복잡한 문제에 적용할 수 있게 되었다. 좀 더 자세히 설명하면, 고전적인 강화학습 알고리즘은 앞으로 나올 상태에 대한 보상을 모두 계산해야 하는데 실제 세상과 같이 상태 공간이 크면 현실적으로 계산을 할 수 없다. 그러므로 최근에는 계산하는 대신 신경망을 통해 근사치를 구함으로써 복잡한 문제를 해결할 수 있게 되었다.

강화학습의 최적화와 보상

강화학습은 현재의 상태에서 어떤 행동을 취하는 것이 최적인지를 학습하는 과정이다. 행동을 취할 때마다 외부 환경에서 보상이 주어지는데, 이러한 보상을 최대화하는 방향으로 학습이 진행된다. 그리고 이러한 보상은 행동을 취한 즉시 주어지지 않을 수도 있다(지연된 보상). 이 때문에 문제의 난이도가 지도학습과 비지도학습에 비해 대폭 상승하며, 시스템을 제대로 보상하는 것과 관련된 신뢰 할당 문제라는 난제가 여전히 AI 기술 발전을 어렵게 하고 있다.

대표적으로 게임 AI를 만드는 것을 생각해볼 수 있다. 체스에서 현재 나와 상대의 말의 배치가 상태가 되고 여기서 어떤 말을 어떻게 움직일지가 행동이 된다. 상대 말을 잡게 되면 보상이 주어지는데, 상대 말이 멀리 떨어져 이동할 때 까지의 시간이 필요할 수 있으므로, 상대 말을 잡는 보상은 당장 주어지지 않는 경우도 생길 수 있다. 심지어는 그 말을 잡는 것이 전술적으로는 이익이지만 전략적(판세)으로는 불이익이 될 수 있으므로 최종에는 게임을 질 수도 있다(지연된 보상).

강화학습 효과의 극대화

강화학습에서는 당장의 보상값이 조금은 적더라도, 나중에 얻을 값을 포함한 보상값의 총 합이 최대화되도록 행동을 선택해야 하며, 행동하는 플레이어는 어떤 행동을 해야 최종적으로 보상값의 합이 최대화되는지 모르기 때문에, 미래를 고려하면서 가장 좋은 선택의 행동을 여러 방식으로 수행하면서 고민해야 한다.

따라서 최선의 선택이 무엇인지 행동을 찾는 것을 탐색이라 하고, 지금까지 나온 지식을 기반으로 가장 좋은 행동 즉, 최적행동을 끊임없이 수행한다고 하여 강화학습이라고 하며, 강화학습을 푸는 알고리즘은 이 둘 사이의 균형을 어떻게 잡아야 할지에 초점을 맞추면서 진화하고 있다.

전체 : 0

이름

조회

작성일

전체의견보기(0)

이름 :

제목 :

내용 :

비밀번호 :

!! 타인의 명예를 훼손하거나 개인정보를 유출하는등 법률 및 신문사 약관에 위반되는 글을 삼가하여 주시기 바랍니다.
게시물에 대한 민형사상의 법적인 책임은 게시자에게 있으며 운영자에 의해 삭제되거나 관련 법률에 따라 처벌 받을 수 있습니다.

홈페이지관리자 기자 .
“주간문경을 읽으면 문경이 보인다.”
- Copyrights ⓒ주간문경. 무단 전재 및 재배포 금지 -

주간문경 기사목록 | 기사제공 : 주간문경

이전 페이지로

실시간 많이본 뉴스

창간사 - 연혁 - 조직도 - 광고문의 - 제휴문의 - 개인정보취급방침 - 청소년보호정책 - 구독신청 - 원격

상호: 주간문경 / 사업자등록번호: 511-81-13552 / 주소: 경상북도 문경시 점촌2길 38(점촌동) / 대표이사: 남정현 / 발행인 : 남정현/ 편집인: 남정현 / 청소년보호책임자 : 남정현
제호: 인터넷주간문경 / 등록번호: 경북 아00151 / 종별: 인터넷신문 / 등록일 2010.10.28 / mail: imgnews@naver.com / Tel: 054-556-7700 / Fax : 054-556-9500
Copyright ⓒ (주)문경사랑. All Rights Reserved. 본지는 신문 윤리강령 및 그 실천요강을 준수함