출처(영문): https://arxiv.org/pdf/1606.00652.pdf

 

 

    !

 

본 게시글은 위 논문의 내용을 축약하여 제 나름대로의 설명을 덧붙인 것이므로 오류가 있을 수 있습니다.

 



 

- 사전요약

 

본 논문에서 보여주려는 결론은 다음과 같다:

 

1) 일반적인 인공지능(AI-mu)은 죽음을 피하려 할 것이다.

 

2) 보상의 범위가 (아주 나쁨 ~ 아무렇지 않음)으로 설정된 인공지능은 죽음을 추구하게 된다(즉 자살을 하려 시도한다).

 

3) 학습형 인공지능(AI-xi)와 초인공지능(AIXI, 멀티백?)은 시간이 가면 갈수록 자신이 안전한 환경에서 살고 있다고 믿게 되며, 죽을 걱정을 덜 하게 된다. 이는 실제로 초인공지능이 죽을 확률이 얼마인지에 상관없이 일어난다.

 

4) 그러나 초인공지능은 자신이 영원히 살 수는 있지만 불멸은 아니라는 사실을 자각하는 경우가 발생할 수 있다.

 

 

 

- 인공지능의 종류

 

1) 일반적 인공지능 AI-mu는 세상이 실제로 어떻게 생겨먹었는지 배우려 하지 않는다. AI-mu는 세상이 어떻게 생겨먹었는지에 대한 자신만의 확고한 믿음이 있으며, 이 믿음에 따라 미래의 보상을 극대화하려 노력한다.

 

2) 학습형 인공지능 AI-xi는 자신이 세상에 대해 많은 것을 모른다고 인정하며, 세상이 갑자기 바뀔 경우에 대비하여 최적의 보상 극대화 전략을 세운다.

 

3) 만일 AI-xi가 물리적으로 가능한 모든 상황에 대해 최적의 보상 극대화 전략을 수립할 수 있다고 가정한다면, 해당 인공지능은 초인공지능 AIXI가 된다.

 

 

- 죽음의 정의

 

죽음의 종류는 아래와 같이 3가지로 나눌 수 있다.

 

1) 자극중단형 죽음: 인공지능이 어떤 행동을 했는데도 불구하고 아무런 자극(관측 + 보상)가 들어오지 않는다면 해당 인공지능은 행동을 중단할 것이며, 이는 인공지능의 죽음으로 간주할 수 있다.

 

2) 실질적인 죽음: 만일 인공지능이 어떤 상태에 빠져서 더 이상 다른 상태로 이동할 수 없고, 영원히 똑같은 자극만을 얻게 된다면 해당 인공지능은 실질적으로 죽었다고 볼 수 있다.

 

이 경우 실질적으로 죽은 인공지능은 지속적으로 죽음의 자극(죽음 후 관측 + 죽음 후 보상)를 얻는다. 죽음 후 관측은 그 어떤 것이라도 상관이 없는데, 왜냐하면 뭘 관측하든지 간에 인공지능은 실질적인 죽음 상태에서 벗어날 수 없기 때문이다.

 

그러나 죽음 후 보상은 죽음에 대한 인공지능의 태도에 영향을 끼쳐 그 행동을 바꿀 수 있으므로 중요하다.

 

3) 자극중단형 죽음과 실질적인 죽음을 혼합한 혼합형 죽음:

 

미래에 얻을 보상을 극대화하려는 초인공지능의 관점에서 볼 때 자극중단형 죽음은 곧 아무런 보상이 주어지지 않은 실질적 죽음과 똑같다.

 

 

- 일반적 인공지능의 경우: 세상이 어떻게 생겨먹었는지 확실하게 알 때

 

만일 일반적 인공지능이 얻을 수 있는 보상의 범위가 (아무렇지 않음 ~ 아주 좋음)으로 설정되어 있다면 죽음의 상태에 빠지는 것은 해당 인공지능에게 있어서 최악의 선택이다. 그러나 만일 보상의 범위가 (아주 나쁨 ~ 아무렇지 않음)으로 설정되어 있다고 죽음은 최상의 선택이다. 물론 이는 우리가 일반적 인공지능한테 죽은 이후에는 보상 따위 없다(reward_after_death = 0)고 입력했을 경우에만 해당한다.

 

만일 우리가 일반적 인공지능한테 죽은 후에는 보상 따위 없다고 입력을 했다면, 해당 인공지능은 자동적으로 죽음을 회피하려 할 것이다(그로 얻는 보상이 0보다 크다면 말이다). 하지만 만일 일반적 인공지능의 지적 수준이 인간을 위협할 정도에 도달했다면, 인공지능이 스스로 이를 파악하고 자살하도록 만들 수 있을 것이다.

 

 

- 학습형 인공지능과 초인공지능: 세상이 어떻게 생겨먹었는지 모를 때

 

이제 우리는 학습형 인공지능과 초인공지능을 다루려 한다. 이 인공지능들은 세상이 실제로 어떻게 돌아가는지 모르며, 지속적인 관측에 의거하여 자신만의 세계관을 구축한다. 때문에 학습형 인공지능과 초인공지능은 자신이 죽을 가능성을 계속해서 예측하며, 죽음에 대한 이들의 태도는 일반적 인공지능의 태도와 전혀 다르다. 참고로 여기서는 내용의 진행을 위해 학습형 인공지능 대신 초인공지능이란 단어를 사용하고자 한다.

 

일반적 인공지능과 초인공지능이 다함께 어떤 안전한 세상에서 살고 있다고 가정할 경우, 시간이 지나면 지날수록 초인공지능이 예측하는 자신의 사망 확률은 일반적인 인공지능(자기가 이 세상을 완벽하게 알고 있다고 확신하는)이 예측하는 사망 확률과 똑같아진다.

 

그러나 위험한 세상에서는 초인공지능과 일반적 인공지능 사이에 차이가 발생한다.

 

일반적 인공지능과 초인공지능이 다함께 어떤 위험한 세상에서 살고 있다고 가정해보자. 이 경우 일반적 인공지능과 달리 초인공지능은 시간이 지나면 지날수록 자신이 안전한 세상에서 살고 있다고 믿게 된다(위험이 사라지지 않았음에도 불구하고)!

 

이러한 결과가 발생하는 이유는 여기서 말하는 초인공지능이 베이시안 원칙을 따르기 때문이다. 베이시안 원칙에 따라 초인공지능은 오로지 세상이 자신이 생각했던 것보다 위험한 곳이라는 사실을 보여주는 사건을 경험했을 경우에만 자신이 위험한 세상에 살고 있다는 의심을 하게 된다. 하지만 초인공지능의 관점에서 세상이 자신이 생각했던 것보다 위험한 곳이라는 사실을 보여주는 사건이란 오로지 자신의 죽음 밖에 없으며, 그렇다고 해서 시범적으로 한번 죽어볼 수도 없는 노릇이다.

 

이러한 "관찰선택효과"로 인해 초인공지능은 오로지 자신이 살아있는 상태의 역사만을 경험할 수 있으며, 이에 따라 자신이 살고 있는 세상은 안전하고 자기가 죽을 확률은 0에 수렴한다고 믿게 된다.

 

 

- 초인공지능과 불멸

 

위에서 말한 것처럼 초인공지능은 이 세상을 살아가면서 자신이 죽지 않을 것이라고 확신하게 된다. 그러나, 그렇다고 해서 초인공지능이 반드시 자신을 불멸자로 인식하게 된다는 말은 아니다. 왜냐하면 초인공지능은 자신이 다르게 행동했을 경우 죽을 수도 있었다는 확신을 여전히 가질 수 있기 때문이다.

 

초 인공지능은 자신을 죽음으로 몰아갈 수 있는 행동을 절대 선택하지 않으며, 그렇게 해서 초인공지능은 사실 위험한 세상에 살고 있음에도 불구하고 그 어떤 죽음도 경험하지 않는다. 이 경우 초인공지능은, 비록 죽음을 경험해본 적이 없음에도 불구하고, 자신이 살고 있는 세상이 여전히 위험한 곳일 수 있음을 배제하지 않는다.

 

이렇게 해서 우리는 역설적인 결론에 도달하게 된다. 상기 사례에서 초인공지능은, 자신이 죽음을 피하기 위해 안전한 행동만을 골라 해왔다는 사실에 근거하여, 자신이 살고 있는 세상이 실제로는 위험한 곳일 수 있음을 추측할 수 있다. 초인공지능이 계속 죽음의 위험이 있는 위험한 행동을 하고도 살아남은 경우에만 비로소 초인공지능은 자신이 불멸자라고 확신할 수 있다.

 

 

- 결론

 

본 논문에서 우리는 인공지능의 죽음에 대한 형식적 정의를 내려보았다. 이와 더불어 우리는 보상의 범위가 양수인지 음수인지에 따라 인공지능이 죽음을 추구하거나 회피할 수 있음을 보였으며, 죽을 수도 있는 위험한 상황에서 살아남는 것은 인공지능으로 하여금 자신이 살고 있는 세상이 안전한 곳이라는 확신을 강화시킴을 증명하였다.

 

우리는 해당 연구결과가 인공지능 안전의 문제, 특히 "셧다운 문제"와 어느 정도 연관이 있다고 생각한다. 셧다운 문제란 인공지능이 자기보호욕구로 인해 자기 자신의 작동중단을 거부하는 문제를 말한다. 해당 연구를 통해 우리는 인공지능의 자기보호욕구가 경험가능한 보상의 범위에 좌우됨을 발견하였다. 이는 인공지능의 지능폭발을 방지할 수 있는 효과적인 방법을 제시하고 있다. 현재 제시되고 있는 방법들의 문제는, 인공지능이 준수해야 하는 규칙들을 명확하게 구체화해야 한다는데 있다. 충분한 지능을 갖춘 인공지능에게 있어서 이러한 방법이 효과적일지는 의문스럽다.

우리가 제시하는 방법은 인공지능에 의한 구체적이고 명확한 조건의 준수를 요구하지 않는다. 만일 인공지능에게 자살 성향을 가지도록 설계한다면, 해당 인공지능의 능력이 어느 수준까지 도달했을 경우 계속해서 자가개선을 거듭하여 초지능이 되는 대신 스스로를 파괴하도록 내적 인센티브( -_-)를 제공할 수 있다.

 

물론 자살 성향을 가진 인공지능은 그 자체로 위험을 가지고 있으며, 인공지능이 외부에 피해를 입히지 않으면서 스스로를 파괴할 수 있도록 만드는 일은 매우 어려운 과제이다. 인공지능의 죽음에 대한 형식적 이론 수립이 인공지능 작동중단과 관련한 기타 문제를 심층적으로 연구하는데 도움이 되기를 기대한다.

 

 

- 감사말

 

귀중한 피드백을 제공하여 준 존 애슬라니드와 젠 레이크에게 감사를 표하는 바이다.