본문 바로가기
책/IT과학

세상을 읽는 새로운 언어, 빅데이터, 조성준

by Caferoman 2023. 5. 18.

빅데이터(Big Data)와 데이터 마이닝(Data Mining), 그리고 이를 활용한 머신러닝에 대해 알아보자 : 세상을 읽는 새로운 언어, 빅데이터, 조성준

빅 데이터(Big Data)의 특징 : Volume, Velocity, Variety

빅데이터의 특징은 우선 데이터의 양(volume)이 방대하고 생성 속도(velocity)가 빠르며 텍스트, 이미지, 동영상 같은 비정형 데이터들이 다양하다(variety) 존재한다고 저자는 정의합니다. 이에 해당하는 영단어의 조합으로 3V라고도 할 수 있습니다.

 

미국의 어떤 은행은 대출받는 이유를 글로 쓰게 하고 그 글에 등장하는 단어를 분석해 대출 신청자가 돈을 잘 갚을 사람인지, 못 갚을 사람인지를 추정한다. 해당 은행이 발견한 인사이트는 다음과 같다. 대출금을 잘 갚는 사람들은 ‘금리’, ‘금리 차이’ 등의 단어를 많이 사용했고, 잘 갚지 못하는 사람들은 ‘절대로’, ‘죽어도’, ‘반드시’, ‘하나님께 맹세’와 같은 단어나 구문들을 많이 사용했다. 약속을 지키지 못하는 사람들이 어떻게라도 대출을 받으려고 과장된 모습을 보인 것이다. - 본문 중

최근 화제가 되고 있는 머신러닝은 이러한 빅데이터를 바탕으로 컴퓨터가 귀납적인 추론을 통해 일정 수준의 판단능력을 가지게 하는 학습기법인데요, 여기서 귀납적 추론의 의미는 컴퓨터에게 정제된 지식(명제)를 주는 대신, 반복해서 데이터를 보여줌으로써 컴퓨터가 자연스럽게 인지하고 판단할 수 있게 만드는 것을 의미합니다.

 

이러한 비지도식 학습 방법이 가능하려면 두 가지가 필요한데, 하나가 충분히 많은 데이터(빅데이터)이고 이를 신속하게 보고 학습결과를 수정, 강화할 수 있는 아주 빠른 연산능력을 가진 컴퓨터입니다. 오늘날 알파고, ChatGPT와 같은 막강한 인공지능의 탄생이 가능한 것도 이 두가지 조건이 갖추어졌기 때문이라고 볼 수 있습니다.

 

연결주의의 암흑기였던 1970~1980년대에 기호주의는 연결주의를 완전히 무시했다. 인공지능 교과서에는 100퍼센트 기호주의 이론만 있었다. 기호주의가 적자요, 연결주의는 서자 취급을 받았던 것이다. 그런데 1990년대 초중반까지 엄청난 전성기를 누리던 연결주의는 결정적인 현실 문제에 부닥치면서 두 번째 겨울을 맞게 된다. 첫 번째 문제는, 연결주의 지식의 핵심은 데이터에서 오는 것인데 이론적으로 머신러닝하는 알고리즘은 개발되었지만 정작 데이터가 없다는 것이다. 이는 학습의 주재료가 없다는 것이었다. 두 번째 이유는 컴퓨터의 계산 속도였다. 1946년 탄생한 에니악 이후 컴퓨터의 계산 속도는 지수적으로 향상되었다. 그러나 머신러닝은 많은 데이터를 수없이 보면서 인공 신경망의 연결 구조를 조금씩 변화시키는 과정이므로 계산 속도가 많이 부족했다. - 책의 본문 중

 

이 책에서는 하라스라는 라스베이거스의 오래된 카지노의 사례를 소개하고 있습니다. 이 카지노에서는 단골 회원 고객의 개개인에 대한 ‘고통 커브pain curve’를 추정해서 데이터로 가지고 있는데요, 여기서 재방문 확률 값은 일정하게 높이 유지되다가 잃은 돈의 액수가 어느 지점을 넘게 되면 급격히 감소하게 된다는 점을 착안하여 단골 회원이 입장하여 베팅을 시작하면 그 회원이 잃은 금액을 실시간으로 모니터링하다가, 잃은 돈의 액수가 ‘고통 포인트’에 접근하게 되면 더 이상 잃지 못하도록 직원을 시켜서 음료수를 제공한다거나 디너 쇼 티켓을 서비스로 주면서 도박 자체를 하지 못하게 슬쩍 방해한다고 합니다. 이성이 잠시 마비되어 있던 회원이 정신을 차리고 자신이 잃은 돈의 액수를 인지하고 카지노를 떠나게 만들어 그 고객이 다음 주에 다시 카지노에 방문할 수 있도록하는 이 시스템이야 말로 빅데이터를 활용한 사례로 볼 수 있습니다.

 

다른 예로 미국의 유명한 프린터 제조 기업 제록스의 콜센터에서는 상담원들의 조기퇴사율이 높은 문제를 빅데이터를 활용해 해결했습니다. 제록스는 애널리틱스를 동원해서 조기퇴사하는 사람들에 대한 특징들을 찾아보니 우선 회사에서 멀리 거주하며 확실한 교통수단이 없는 사람, SNS 활동이 전혀 없거나 5개 이상의 소셜네트워크를 가진 사람, 궁금한 것이 너무 많은 유형(inquisitive type), 공감을 너무 잘하는 사람, 창의력이 낮은 상담원들의 조기퇴사 가능성이 매우 높았다는 상관관계를 발견하고 이를 바탕으로 의사결정을 내리게 됩니다.

 

결국 제록스는 성격검사를 통해 퇴사율이 높은 성향의 지원자를 더 이상 선발하지 않았고 현재 1년에 4만 8700명에 가까운 상담원 고용을 사실상 빅데이터 애널리틱스가 도출한 인사이트에 따라 결정하고 있습니다. 제록스에서 새로운 기준으로 상담원을 채용하고 나서 퇴사율을 비교해보니 기존에 비해 조기퇴사율이 무려 20퍼센트나 감소한 사실을 발견하게 됩니다.

 

데이터를 기반으로한 인사이트의 절정 : 알파고

바둑의 승자 알파고는 이렇게 해야 바둑에서 이긴다고 믿어왔던 기존의 길을 벗어나 정석과 다른 길로 갔기 때문에 승리했다. 전문가인 내가 이해하지 못했다고 해서 인사이트가 틀린 것이라고 할 수 없다는 사실을 전 국민 앞에서 증명한 것이다. 알파고 덕분에 내가 모르는 길이 있을 수 있다는 것을 대한민국의 많은 전문가가 깨달았다. 이를 인정하면서 모두가 겸손해졌다. - 본문의 내용 중

 

세상의 모든 지식을 명제로 만든 다음에 명제들의 연역적 추론을 통해 무엇이든 대답할 수 있다는 것이 기호주의 학파의 주장인데요, 빅데이터를 활용한 인공지능의 경우 이와는 다른 접근에서 출발합니다. 즉, 인간의 뇌는 지능이 있으니 이것이 어떻게 운용되는지 보고 따라서 해보자고 주장하는데요, 이와 같이 인간 뇌를 본떠서 인공지능을 학습시키고 뇌 세포들 간의 연결을 변화시키자는 것이 바로 연결주의(connectionism)라고 합니다. 반복적 자극에 따른 뇌의 시냅스 변화를 통해 인간의 뇌가 학습하듯이, 컴퓨터에게도 데이터로 계속 자극을 주어 컴퓨터 내의 시냅스를 변화시켜서 똑똑하게 만드는 개념이라 할 수 있습니다.

 

연결주의 방식은 기호주의 방식과는 다르게 명제에서 출발하지 않고 데이터에서 출발합니다. 데이터를 반복적으로 보는 과정을 통해서 명제를 만들어내는데, 기호주의의 명제로부터 명제를 도출하는 추론을 연역이라고 한다면, 연결주의의 데이터로부터 명제를 도출하는 추론은 귀납이라고 할 수 있습니다.

 

2019년 1분기 기준 세계 시가총액 톱 10 기업을 살펴보자. 1위는 아마존이고, 그 뒤로는 마이크로소프트, 알파벳, 애플, 버크셔헤서웨이, 페이스북, 텐센트, 알리바바, 존슨앤존슨, JP모건체이스 순이다. 이 가운데 1위부터 4위, 그리고 6위부터 8위까지가 데이터 기업이다.

 

바야흐로 연결주의자들은 기존에 가지고 있던 "충분한 데이터"와 "충분한 컴퓨팅 능력"을 모두 확보함으로서 전성기를 맞이하게 됩니다. 그렇게 알파고, Chat GPT등과 같은 충분히 똑똑해진 인공지능들은 우리에게 엄청난 성능을 선보이게 됩니다.

반응형

댓글