SF / 과학 포럼

SF 속의 상상 과학과 그 실현 가능성, 그리고 과학 이야기.

SF 작품의 가능성은 어떻게 펼쳐질 수 있을까요? 그리고 어떤 상상의 이야기가 가능할까요?
SF에 대한 가벼운 흥미거리에서부터 새로운 창작을 위한 아이디어에 이르기까지...

여기는 과학 소식이나 정보를 소개하고, SF 속의 아이디어나 이론에 대한 의견을 나누며, 상상의 꿈을 키워나가는 곳입니다.

( 이 게시판은 최근에 의견이나 덧글이 추가된 순서대로 정렬됩니다. )

글 수 8,078

딥마인드: 어떻게 해야 인공지능이 인간의 말을 잘 들을까요? 다른 인공지능한테 물어보면 되죠! ( -_-) (-_- )

헥사크론

http://www.joysf.com/5013552

2019.01.06 19:00:38

1442

뉴스

출처: https://medium.com/@deepmindsafetyresearch/scalable-agent-alignment-via-reward-modeling-bf4ab06dfd84

We need a good way to provide feedback and enable artificial agents to reliably understand what we want, in order to help us achieve it. In other words, we want to train AI systems with human feedback in such a way that the system’s behavior aligns with our intentions.

인공지능이 인간의 명령을 제대로 수행하기 위해서는 일단 인공지능이 인간이 하는 명령을 제대로 알아듣도록 피드백을 제공해야 합니다.
다르게 말하자면 인공지능을 훈련시키는 과정에서 인간 사용자가 피드백을 제공하여 인공지능이 인간 사용자의 의도에 부합하게 행동하도록 만들어야 한다는 것이죠.

The main thrust of our research direction is based on reward modeling: we train a reward model with feedback from the user to capture their intentions. At the same time, we train a policy with reinforcement learning to maximize the reward from the reward model. In other words, we separate learning what to do (the reward model) from learning how to do it (the policy).

이번 연구에서 저희는 보상 모델링에 초점을 맞췄습니다. 사용자 측 피드백을 받아 보상모형을 훈련시킴으로써 인공지능이 사용자의 의도를 파악할 수 있도록 만드는 것이죠. 이와 동시에 강화학습을 활용하여 보상모형이 주는 보상량이 극대화되도록 정책을 훈련시킵니다. 다르게 말하자면 무엇을 할 것인가 (보상모형)의 학습과 어떻게 할 것인가 (정책)의 학습을 따로 분리시킨 것입니다.

Schematic illustration of reward modeling: a reward model is trained from the user’s feedback to capture their intentions; this reward model provides rewards to an agent trained with reinforcement learning.

보상 모델링 개요도: 보상모형의 훈련에 사용자 측 피드백을 제공함으로써 인공지능이 사용자의 의도를
파악할 수 있도록 만든다. 이렇게 형성된 보상모형은 강화학습을 통하여 훈련된 인공지능에게 보상을 제공한다.

In the long run, we would like to scale reward modeling to domains that are too complex for humans to evaluate directly. To do this, we need to boost the user’s ability to evaluate outcomes. We discuss how reward modeling can be applied recursively: we can use reward modeling to train agents to assist the user in the evaluation process itself. If evaluation is easier than behavior, this could allow us to bootstrap from simpler tasks to increasingly general and more complex tasks.

인간이 직접 평가를 하기 어려운 분야에서는 위에서 말한 보상모델링을 확대할 수 있습니다. 즉 인공지능이 내놓는 결과를 제대로 평가할 수 있도록 인간 사용자의 능력을 증강시키는 것이죠. 이를 위해서는 보상모델링을 회귀적으로 적용해야 합니다: 보상모델링을 활용하여 인간이 인공지능의 행동을 평가하는데 도움을 주는 인공지능을 훈련시키는 것이죠. 만일 결과물을 평가하는 것이 결과물을 만들어내는 것보다 더 쉽다고 가정한다면, 인간 사용자는 단순한 과제 평가뿐만 아니라 좀 더 일반적이고 복잡한 과제의 평가도 수행할 수 있을 것입니다.

Schematic illustration of recursive reward modeling: agents trained with recursive reward modeling (smaller circles on the right) assist the user in the evaluation process of outcomes produced by the agent currently being trained (large circle).

회귀적 보상 모델링의 개요도: 먼저 회귀적 보상모델링을 활용하여 인공지능을 훈련시킨 다음 (오른쪽 작은 동그라미),
해당 인공지능을 활용하여 인간 사용자가 현재 훈련 중인 또다른 인공지능의 결과물을 평가할 수 있도록 돕는다 (큰 동그라미).

For example, imagine we want to train an agent to design a computer chip. To evaluate a proposed chip design, we train other “helper” agents with reward modeling to benchmark the chip’s performance in simulation, calculate heat dissipation, estimate the chip’s lifetime, try to find security vulnerabilities, and so on. Collectively, the outputs of these helper agents enable the user to train the chip designer agent by assisting in the evaluation of the proposed chip design.

예를 들어, 컴퓨터 칩 설계용 인공지능을 개발했다고 가정해봅시다. 이 인공지능이 내놓은 컴퓨터 칩 설계도를 평가하기 위해 우리는 또다른 보조인공지능들을 만듭니다. 이 보조인공지능들은 시뮬레이션상에서의 컴퓨터 칩 성능, 발열, 예상수명, 보안결함 등을 평가하도록 훈련받습니다. 그리고 인간 사용자는 이 보조인공지능들이 내놓는 결과를 토대로 컴퓨터 칩 설계용 인공지능을 훈련시킵니다.

While each of the helper agents has to solve very difficult tasks that are far out of reach for today’s ML systems, these tasks are easier to perform than designing a chip in the first place: to design a computer chip you have to understand each of these evaluation tasks, but the reverse is not true. In this sense, recursive reward modeling could enable us to “scaffold” our agents to solve increasingly harder tasks while remaining aligned with user intentions.

비록 위에서 말한 보조인공지능 각각은 오늘날의 기계학습시스템들이 해결할 수 있는 것보다 더욱 어려운 문제들을 해결해야 하겠지만, 어쨌든 칩의 설계를 평가하는 일은 칩을 직접 설계하는 일보다 쉽습니다. 컴퓨터 칩을 설계하기 위해서는 상기한 평가기준들을 이해해야 하지만, 컴퓨터 칩을 평가할 경우 설계방법까지 알 필요는 없으니까요. 따라서 회귀적 보상모델링을 활용하면 인공지능이 수행하는 과제의 난이도를 점점 높이면서도 인간 사용자의 의도에 부합하게 행동하도록 만들 수 있습니다.

이 게시물을...

번호		글쓴이	날짜	조회 수	추천 수
공지	공지 글쓰실때 이미지를 넣어주세요.		2016-11-10	27681
7898	정보 다함께 오래오래 행복하게 살기: 평생 한 사람과 같이 산다고 해서 삶이 반드시 지루해지는 것은 아니다	헥사크론	2019-02-28	1648
7897	정보 페덱스에서 개발한 배달로봇 동영상	헥사크론	2019-02-28	1296
7896	정보 마지막 때의 문명: 블랙홀 농사 - 블랙홀의 호킹복사를 동력원으로 사용하는 초거대 문명에 관하여	헥사크론	2019-02-19	1774
7895	질문 지구에서 라그랑주 L5 위치의 스페이스 콜로니까지 가는 데는 시간이 얼마나 걸릴까요? 2	그램린	2019-01-28	1419
7894	얘기 인간수준 인공지능(AGI)이 개발된다면 세상은 어떻게 변할까요?	깊은마음	2019-02-17	1397
7893	질문 생체레이저, 어떻게 작동해야 될까? 18	rgc83	2008-01-14	3959	1
7892	얘기 로봇의 A.i가 인간수준에 도달하게 된다면... 19	메카월드	2003-01-28	4805	2
7891	얘기 알파고님 우리를 지배해주세요!! 10	unverse	2018-11-24	2839
7890	뉴스 자기 자신의 신체를 상상할 수 있는 로봇이 개발되다	헥사크론	2019-02-04	1560
7889	정보 암호화폐와 블록체인에 관한 고찰: 달걀을 몽땅 한 바구니에 담는 것은 위험합니다 ( -_-)	헥사크론	2019-01-30	1004
7888	정보 딥마인드 블로그에 올라온 알파스타 소개글 한글번역 2	헥사크론	2019-01-26	1802	1
7887	얘기 나쁜 시적 과학: 가이아 이론 2	다라다라	2019-01-25	1727
7886	정보 딥마인드가 스타크래프트2의 성과를 입증하는 계획을 알림. 1	레이커즈와일	2019-01-23	1133
7885	질문 파괴적 망각은 5년안에 극복 가능할까요?	깊은마음	2019-01-22	966
7884	정보 항성채굴(스타리프팅): 태양에 매장되어 있는 지구질량 6,000배 상당의 금속을 캐내보아요 ( -_-)/	헥사크론	2019-01-20	1639
7883	정보 SF 가이드 썼습니다. 8	표도기	2016-04-18	2798
7882	질문 먼 미래에도 총기는 계속 주요무기로 사용될 수 있을까요? 25	레기온	2010-03-19	10003
7881	정보 항성 만들기: 항성 수백만 개로 다이슨 스웜을 만들면 굳이 항성간 제국을 세울 필요가 없다 ( -_-)	헥사크론	2019-01-14	1584
	뉴스 딥마인드: 어떻게 해야 인공지능이 인간의 말을 잘 들을까요? 다른 인공지능한테 물어보면 되죠! ( -_-) (-_- )	헥사크론	2019-01-06	1442
7879	정보 산타클라우스 기계: 이 세상의 모든 물건을 제조할 수 있는 범용복제기의 가능성에 관하여	헥사크론	2019-01-05	1140

쓰기

첫 페이지 5 6 7 8 9 10 11 12 13 14 끝 페이지