챗봇 이루다가 무례했던 이유: 인공지능과 데이터 수집 문제(손화철)

사실 재미를 충족하기 위해서만 이런 시도를 하는 것은 아니다. 이것은 언젠가 등장할지도 모르는, 인간과 똑같이 의사소통을 하는 인공지능 로봇을 만들기 위한 노력의 일환이다. 사용자가 자신과 채팅하는 상대가 인공지능 챗봇이라는 사실을 알아차리지 못하고 10여 차례 대화를 주고받을 정도만 되어도 엄청난 성취라고 한다. 이루다 사건은 아쉽게도 그런 성취를 이루지 못했고, 대신 인공지능 기술과 관련한 여러 이슈를 부각하는 계기가 되었다. (본문 중)

손화철(한동대 글로벌리더십학부 교수, 기술철학)

2020년 말 출시되었다가 3주 만에 사라진 챗봇 ‘이루다’를 기억하는 사람은 많지 않다. 기술 자체가 낯선데다 주 사용자가 젊은이였고, 뉴스가 된 이유도 이해하기 쉽지 않았기 때문이다. 그러나 이 짧은 소동은 인공지능 기술의 한 단면을 잘 보여 준 의미 있는 사건이다.

챗봇은 채팅을 하는 온라인 프로그램이다. 사람들이 궁금한 점을 채팅으로 물어보면 프로그램이 그에 적절한 대답을 올려주는 것인데, 이미 보험사나 여행사 같은 곳의 고객 상담이 챗봇으로 이루어지기도 한다. 이용자가 같은 질문도 다양한 방식으로 물을 수 있기 때문에 인공지능 기술을 이용해 질문의 내용을 정확하게 파악하여 적절한 대답을 제공하게 하고 있다.

‘스캐터랩’이라는 회사는 여기서 한 걸음 더 나아가 특정 분야 문의를 넘어서 일반적인 대화를 나눌 수 있는 챗봇을 만들려 시도했는데 그것이 ‘이루다’이다. ‘이루다’는 성이 이가이고 이름이 ‘루다’인 여대생으로 설정되었다. 사용자들은 루다와 채팅을 이용해 이런저런 이야기를 나누는 일종의 놀이를 한다. “루다야 올여름 계획이 뭐야?”하고 채팅하면, “아르바이트해서 여행 갈 거야”라는 대답이 돌아오는 식이다. 별것 아닌 것처럼 보이지만 주제에 제한이 없이 사람들이 건넨 말에 적절하고 그럴듯한 대답을 제시하도록 하는 것은 이른바 ‘자연어 처리’에서도 매우 어려운 기술이다.

문제는 사람들이 장난삼아(혹은 시험 삼아) 물은 질문에 챗봇 이루다가 부적절한 대답을 제시한 것이었다. 장애인에 대한 편견을 드러내는 대답도 있었고, 성희롱적 언급에 맞장구를 치는 경우도 있었다. 또 주소나 전화번호를 물으면 누군가의 상세한 주소 전화번호 정보를 제공하기도 했다. 이런 사례들이 인터넷에 퍼지면서 회사는 서비스를 중단했다.

왜 이런 일이 일어났을까? 사실 그보다 먼저 물어야 할 것은 ‘이런 프로그램을 만드는 이유가 무엇인가’이다. 어른들은 사람이 아닌 챗봇과 대화를 나누는 것이 재미있다고 하는 젊은이들을 이해하기 힘들다. 그러나 사실 재미를 충족하기 위해서만 이런 시도를 하는 것은 아니다. 이것은 언젠가 등장할지도 모르는, 인간과 똑같이 의사소통을 하는 인공지능 로봇을 만들기 위한 노력의 일환이다. 사용자가 자신과 채팅하는 상대가 인공지능 챗봇이라는 사실을 알아차리지 못하고 10여 차례 대화를 주고받을 정도만 되어도 엄청난 성취라고 한다. 이루다 사건은 아쉽게도 그런 성취를 이루지 못했고, 대신 인공지능 기술과 관련한 여러 이슈를 부각하는 계기가 되었다.

첫째, 이루다의 실패는 인공지능 개발과 반드시 연동되는 데이터 확보 문제를 잘 보여 준다. 오늘날 각광받는 빅데이터 기반의 인공지능이 사람처럼 의사소통을 하려면, 실제 사람이 주고받은 대화의 데이터를 많이 모아서 소위 ‘기계 학습’을 해야 한다. 엄청난 양의 데이터를 통해 실제 대화의 패턴을 익히고 그것을 보정해 가면 언젠가 사람처럼 의사소통을 하게 되는 것이다. 이루다 역시 이런 과정을 통해 만들어졌는데, 이때 사용한 데이터는 스캐터랩이 이전에 개발한 ‘연애의 과학’이라는 또 다른 온라인 서비스에서 수집한 것이었다. ‘연애의 과학’은 이용자가 자신과 이성 친구의 채팅 메시지 대화 내용을 제공하면 그것을 분석하여 그 두 사람의 애정도를 평가하고 연애 조언을 해 주는 서비스다. 이 서비스는 유료였는데도 젊은이들 사이에서 꽤 인기가 있어서 회사는 100억 건의 대화 내역을 수집했다고 한다. 바로 이렇게 모은 연인들 사이의 채팅 데이터가 이루다의 학습에 사용되었다. 이는 아래에서 설명할 여러 가지 문제들의 근본 원인이다.

해당 글과 관련없는 이미지 입니다.

인공지능을 개발할 때 데이터를 어떤 방식으로 수집하고 어떻게 목적에 맞게 잘 선별, 가공할 것인지의 문제는 결코 간단치 않고, 단순히 기술적인 문제만도 아니다. 예를 들어, 중국에는 현재 약 10억 개의 CCTV가 있는데, 영장 없이 개인정보 수집이 가능하기 때문에 안면인식 기술이 발달하고, 그 기술을 실제로 공안 통치에 사용하고 있다. 중국과 비교하면 우리나라의 제도는 매우 촘촘하게 되어 있지만, 대규모 데이터의 수집과 분석, 사용에 대해 더 우월한 입장에 있을 수밖에 없는 전문가, 대기업, 정부를 감시하고 견제하는 장치에 대한 고민은 계속되어야 한다. 아이러니한 것은 그런 고민과 문제의 해결에서도 전문가, 기업, 정부가 더 우월한 위치에 있다는 점이다. 그러므로 이들을 견인하기 위해서는 시민들의 관심이 중요하다.

둘째, 이루다는 데이터의 한계가 인공지능의 한계로 이어진다는 점을 잘 보여 주었다. 인공지능은 언제나 정답을 주는 마술 기계가 아니다. 인공지능을 만드는 데 사용된 데이터가 건전하고 정상적이어야 그 데이터를 학습시켰을 때 도출되는 결과도 건전하고 정상적이 될 수 있다. ‘연애의 과학’에서 나온 대화 데이터는 일반적인 소통을 하는 ‘이루다’ 서비스의 목적을 이루는 데 부적절했다. 이루다가 내놓은 엉뚱하거나 부적절한 대답은 연인들 사이의 일반적이지 않은 대화에서 패턴을 추출하다 보니 생긴 것들이다. 이보다 더 심각한 문제는, 챗봇을 만드는 데 사용한 대화 데이터에 인종차별 같은 편향성이 있었기 때문에 이루다도 편향된 대답을 하게 되었다는 점이다.

이는 인공지능을 개발하기 위해 사용되는 원데이터의 중요성을 잘 보여 준다. 예를 들어 의료 진단 인공지능에 입력되는 의료 데이터를 잘 갈무리하지 않은 경우, 유색인보다 백인의 데이터가 과도하게 반영되어 유색인에게는 맞지 않는 진단을 내리게 될 수 있다. 문제는 데이터에 내재된 편향성을 적절하게 걸러 내는 것이 쉽지 않다는 점이다.

셋째, 이루다를 위해 사용한 데이터는 그 내용의 적절성뿐 아니라 그 사용 자체의 적절성 면에서도 문제가 있었다. 이른바 ‘데이터 주권’의 문제다. ‘연애의 과학’에 자신의 채팅 자료를 제공한 사람들은 그 데이터가 다른 서비스인 이루다를 만드는 데 사용되는지 몰랐다. 스캐터랩은 고객의 데이터를 임의로 다른 목적에 사용한 것 때문에 과징금을 부과받았다. 그런데 조금 더 생각해 보면, ‘연애의 과학’에서도 데이터의 도용이 시작되었다고 할 수 있다. 연인의 애정도를 파악하기 위해 자료를 제공한 사람은 대화자 중 한 사람일 공산이 큰데, 이 경우 다른 한 사람은 자신의 데이터가 제공되었다는 사실 자체도 모를 수밖에 없었기 때문이다.

넷째, 데이터 관리와 보정에서도 문제점이 노출되었다. 수집한 대화 데이터를 사용할 수 있는 경우에도, 그 데이터는 적절한 대화를 이어가기 위한 패턴을 추출하는 데만 사용되어야 한다. 따라서 분석 전에 개인정보를 모두 삭제해야 하는데, 이루다의 경우 전화번호나 주소 같은 정보들을 제대로 처리하지 않고 그대로 분석에 포함시켰다. 그 결과 이루다에게 “네 집 주소를 가르쳐 줘” 혹은 “전화번호가 뭐야?”라고 물었을 때, 데이터에 포함되어 있던 주소와 전화번호를 제공한 경우도 발생했다.

이루다 사건은 단순히 잘못 만들어진 프로그램이나 비도덕적 행위의 문제가 아니다. 이루다가 제작되고 사용된 궤적을 따라가 보면, 인공지능이 데이터와 밀접하게 연결되어 있으며, 그 개발 과정에서 각종 데이터를 수집, 분석, 사용할 때 유의점이 많음을 알 수 있다. 인공지능이 모두에게 유익을 주는 방식으로 작동하기 위해서는 공학자와 기업이 개발 과정에서 각별한 주의를 기울여야 할 뿐 아니라, 일반 사용자들도 인공지능에 대한 관심과 일정한 지식을 가질 필요가 있다.

함께 참고할 만한 글들

손화철, “이루다 사건으로 본 인공지능과 윤리”, 『목회와 신학』 2021년 3월호 (회원에게만 전문 온라인 제공).

손화철, “데이터 3법과 데이터 주권의 문제”, <좋은 나무> 2020년 7월 31일.

* <좋은나무> 글을 다른 매체에 게시하시려면 저자의 동의가 필요합니다. 기독교윤리실천운동(02-794-6200)으로 연락해 주세요.

* 게시하실 때는 다음과 같이 표기하셔야합니다.
(예시) 이 글은 기윤실 <좋은나무>의 기사를 허락을 받고 전재한 것입니다. https://cemk.org/26627/ (전재 글의 글의 주소 표시)

<좋은나무>글이 유익하셨나요?

발간되는 글을 카카오톡으로 받아보시려면

아래의 버튼을 클릭하여 ‘친구추가’를 해주시고

지인에게 ‘공유’하여 기윤실 <좋은나무>를 소개해주세요.

카카오톡으로 <좋은나무> 구독하기

<좋은나무> 뉴스레터 구독하기

<좋은나무>에 문의·제안하기

문의나 제안, 글에 대한 피드백을 원하시면 아래의 버튼을 클릭해주세요.

편집위원과 필자에게 전달됩니다.

<좋은나무>에 각종 의견 전달하기

<좋은나무> 카카오페이 후원 창구가 오픈되었습니다.

카카오페이로 <좋은나무> 원고료·구독료를 손쉽게 후원하실 수 있습니다.

좋은나무 후원하기_

챗봇 이루다가 무례했던 이유: 인공지능과 데이터 수집 문제(손화철)

<좋은나무>글이 유익하셨나요?

<좋은나무>에 문의·제안하기

<좋은나무> 카카오페이 후원 창구가 오픈되었습니다.

관련 글들

AI 시대 언어 교육, 어디로 향해야 할까?(김규미)

기술자가 존중받는 사회(성영은)

칼을 쳐서 보습을, 창을 쳐서 낫을(손화철)