텍스트에서 감정을 읽어내기

2016년 01월 25일 모종훈

감정 분석이란 정형화가 되어 있지 않은 텍스트로부터 사람들의 태도, 의견 혹은 성향과 같은 정보를 알아내는 기법입니다. 예를 들어 인터넷에 아래와 같은 글들이 있다고 해봅시다.

우리는 위의 두 글에서 휴대폰에 대한 부정적인 감정과 영화에 대한 긍정적인 감정을 알아낼 수 있습니다. 인터넷에는 이렇게 감정과 의견을 나타내는 수많은 글들이 매일 올라옵니다. 이런 글들을 수집해서 감정 분석을 한다면 정책, 상품, 브랜드에 대한 사람들의 감정과 의견을 알아낼 수 있습니다. 전통적인 설문 조사나 다른 조사 기법에 비해 비용이나 노력도 적게 들고 얻을 수 있는 정보도 풍부하지요.

그럼 감정 분석은 어떻게 할 수 있을까요?

감정 단어 사전

감정 분석에는 여러 가지 기법이 있습니다. 이중에서 감정 단어 사전은 비교적 간단하면서도 정확한 방법입니다. 감정 단어 사전이란 긍정적이거나 부정적인 감정을 나타내는 단어들을 모아놓은 사전입니다. 영어에는 SentiWordnet, LIWC 등이 있습니다. 국내에도 몇 몇 분들께서 연구를 진행중이신데요. 한국어 감정 분석 말뭉치에 참고할만 한 감정 분석 자원이 있습니다.

어떤 글에 긍정 단어가 많이 나타난다면 그 글은 긍정적인 내용을 담고 있을 가능성이 큽니다. 부정 단어가 많이 나타난다면 부정적인 내용일 가능성이 크겠죠. 감정 단어 사전을 만들어서 글에 나타난 긍정 단어와 부정 단어의 비율을 조사해본다면 그것만으로도 글 전체에 나타난 감정을 어느 정도 추측해볼 수 있습니다.

감정 사전은 여러 가지 방법이 있지만 통계적인 기법을 통해서 만들 수 있습니다. 인터넷에 올리는 상품평의 경우 사용자가 별점을 함께 줄 수가 있습니다. 별점이 높은 상품평은 긍정적인 내용을 담고 있을 가능성이 높습니다. 이런 상품평에 흔히 쓰이는 단어들을 통계적으로 분석한다면 긍정 단어들을 찾아낼 수 있을 것입니다. 반대로 별점이 낮은 상품평은 부정적인 내용을 담고 있을 가능성이 높으니까 같은 방법으로 부정 단어들도 찾을 수 있습니다.

대학생들이 부모님을 묘사할 때 쓰는 감정 단어

그럼 실제로 이런 방법을 사용해서 감정 사전을 만든 연구1를 하나 소개해드리도록 하겠습니다. 이 연구에서는 대학생들이 부모님을 묘사할 때 어떤 감정 단어들을 사용하는지 알아보았습니다. 이를 위해서 먼저 실험에 참여한 학생들에게 "나의 어머니는.."이나 "나의 아버지는.."으로 시작하는 문장을 쓰게 했습니다. 그리고 설문지를 통해 부모님과의 심리적인 관계를 점수로 측정했습니다.

이제 설문지로 측정한 부모님과의 관계 점수가 높은 학생들이 쓴 문장에 나오는 단어들과 낮은 학생들이 쓴 문장에 나오는 단어들을 통계적으로 분석하면, 대학생들이 부모님을 묘사할 때 쓰는 긍정 단어와 부정 단어를 알아낼 수 있게 됩니다. 그 결과를 한 번 볼까요? 아래 단어 구름에서 파란색으로 나타낸 단어는 긍정 단어, 빨간색으로 나타낸 단어는 부정 단어입니다.

부모님에 대한 감정 단어 구름

한 눈에 보기에도 그럴 듯 해보이죠? 이런 긍정 단어와 부정 단어는 단어의 의미를 전혀 모르는 컴퓨터가 통계적 분석만으로 찾아낸 것입니다. 가만히 살펴보면 이상한 단어들도 몇 개 있습니다. '이성적' 같은 단어는 보통 긍정적인 의미로 쓰입니다. '궁금하다'도 특별히 부정적인 의미는 없지요. 이 두 단어는 부정 단어로 분류됐네요. 왜 그런지 학생들이 실제로 쓴 문장을 찾아보았습니다.

아주 부정적이지는 않지만 부모님에 대한 아쉬움이 느껴지는 문장입니다. 이런 문장들 때문에 '이성적', '궁금하다'라는 단어는 부모님과 친밀함이 떨어진다는 것을 암시하는 부정 단어로 분류된 것입니다.

긍정 단어 중에도 이상한 단어들이 있습니다. '안쓰럽다'라는 단어도 보통은 부정적인 느낌인데 여기서는 긍정 단어로 분류됐네요. '계시다'는 중립적인 단어처럼 보이는데 역시 긍정 단어로 분류되었습니다. 역시 실제 문장을 보겠습니다.

네, 실제 문장을 보니 일반적인 의미와 달리 부모님에 대한 감사의 마음이 드러나는 대목에서 학생들이 이런 단어들을 쓰고 있네요. 그래서 이 단어들도 긍정 단어로 분류된 것입니다.

이렇게 만들어낸 감정 단어의 사전을 이용하면 부모님과 관계가 좋거나 좋지 않은 학생들을 약 80% 정도로 정확하게 분류할 수 있었습니다. 컴퓨터는 아래와 같은 문장을 쓴 학생들이 부모님과 관계가 좋을 거라고 예측했습니다.

또 아래와 같은 문장을 쓴 학생들은 부모님과 관계가 좋지 않을 거라고 예측했네요.

여러분의 생각은 어떠신가요? 컴퓨터의 판단에 동의하시나요?

감정 단어 사전 만드는 법 배우기

통계적 기법을 이용한 감정 단어 사전 만들기는 매우 복잡한 기법이지만 여러 가지 프로그램이 잘 만들어져 있어서 통계나 컴퓨터를 잘 모르는 분들도 동영상 강의를 보고 따라 하기만 하면 쉽게 만들어서 감정 분석을 해볼 수 있습니다. 마인드스케일의 감정 분석 동영상 강의도 그런 강의입니다. 텍스트 분석에 대해 잘 모르신다면 감정 분석 강의를 포함한 텍스트 분석 완전 정복 패키지를 수강하시면 되겠네요.


  1. 모종훈. (2015). 변수 선택 기법을 이용한 감정 단어 사전의 영역 특수성 확장. 석사학위논문, 서울대학교, 서울.

더 많은 글 읽기