선거 여론, 생성형 AI로 분석하는 것이 가능할까

[박선춘의 여의도 빅데이터]서울 강서구청장 보궐선거 사례를 중심으로

씨지 박선춘 대표 입력 : 2023.11.06 10:17
▲박선춘 씨지인사이드 대표
“여론조사로 심사숙고를 대신할 수는 없다.” 워렌 버핏의 말이다. 대중의 여론을 추종하기보다 신중하게 판단해서 결정하라는 뜻이다. 하지만 정치, 특히 선거와 여론조사는 불가분의 관계다. 

때론 여론조사 결과가 곧 여론 형성의 기폭제로 작용하기도 한다. 이러한 현상을 ‘밴드왜건(Bandwagon) 효과’로 부르거나 ‘침묵의 나선(Spiral of Silence) 효과’라고도 부른다. 사회적으로 다수에게 지지받는 의견은 더욱 힘을 얻게 됨에 따라 ‘여론’으로 불리는 ‘지배적 의견’이 형성되는 현상을 설명하고 있다.

여론조사와 AI
최근 여론조사의 오류가 잇따르면서 국내외적으로 ‘여론조사 무용론’이 대두되기도 했다. 지난 10월 11일 서울 강서구청장 보궐선거 이후엔 여론조사 관련한 다양한 의견이 분출되는 양상이다. 대표적인 사례가 ‘ARS 여론조사’ 중단이다. 여론조사기관 34곳이 가입한 한국조사협회(KORA)는 각종 선거 관련 여론조사 때 조사원이 직접 진행하는 전화 면접 조사만 시행한다고 밝힌 것이다. 여론조사 무용론이나 ARS 여론조사 중단과 같은 최근의 현상은 여론조사의 정확도에서 기인한 것이다.

최근 “생성형 AI가 특정 정당·후보자에 대한 지지도나 선거결과를 예측한 내용을 선거운동 기간에 발표해도 공직선거법 위반이라고 볼 수 없다”라는 취지로 중앙선거관리위원회가 유권해석을 내렸다고 한다.1 더 나아가 중앙선거관리위원회는 생성형 AI로 도출한 글, 사진, 음성, 동영상 등을 선거운동에 활용할 수 있고 생성형 AI를 활용한 자료의 법적 책임은 후보자에게 있다고 밝혔다.2 선거운동뿐만 아니라 선거 여론조사에도 생성형 AI가 활용되는 시대가 도래한 것이다.

분석 방법
필자가 대표로 있는 연구팀에서 생성형 AI를 활용해 이번 강서구청장 보궐선거의 선거 여론을 분석해보았다. 분석 대상은 유력 후보자인 국민의힘 김태우 후보(이하 김태우 후보)와 더불어민주당의 진교훈 후보(이하 진교훈 후보)다.3 분석 기간은 2023년 9월 1일부터 선거 당일인 10월 11일까지로, 805개 언론사로부터 API와 크롤링 방식으로 8210건의 기사를 자동으로 수집했다. 수집된 8210건의 언론기사 전체를 대규모언어모델(LLM) 생성형 AI를 통해 분석을 수행했다.

분석 방법은 간단하다. 생성형 AI가 8210건의 언론기사를 읽고 해당 기사가 각 후보 입장에서 긍정적인 내용인지 부정적인 내용인지를 판별하고 그 결과를 수(수치)화하는 것이다.

후보 간 평판 분석결과
분석 기간 동안 수집된 언론기사 8210건 중 김태우 후보에 대한 기사 건수는 3300건(52.6%)이고 진교훈 후보에 대한 기사 건수는 2970건(47.4%)으로 분석됐다. 두 정당에 대한 언론 보도 비중도 두 후보자에 대한 보도 비중과 유사했다. 국민의힘이 7410건(54.6%)이고 더불어민주당이 6169건(45.4%)으로 분석됐다.

두 후보에 대한 언론기사 기반 평판을 AI로 분석한 결과는 다음과 같다. 먼저, 김태우 후보의 언론기사 3300건에 대해 AI가 분석한 평판지수 평균은 57.65점이었다. 반면, 진교훈 후보의 언론기사 2970건에 대해 AI가 분석한 평판지수 평균은 65.19점이었다. 양 후보의 차이는 7.53%p로 진교훈 후보가 높게 분석됐다.

한 가지 흥미로운 것은 두 후보별로 전체 언론기사 중에서 부정적 내용을 담은 언론기사의 비중을 분석한 결과다. 김태우 후보의 경우 전체 3300건의 기사 중 1079건인 26.32%가, 진교훈 후보의 경우 전체 2970건의 기사 중 538건인 13.12%가 부정적 내용을 담은 언론기사였다. 부정적 언론기사의 비율을 보면 김태우 후보가 진교훈 후보에 비해 13.2%p 높았다.

후보 간 이슈 분석 결과
생성형 AI를 활용할 경우 두 후보에 대한 평판 외에도 후보별 긍정 키워드와 부정 키워드를 분석할 수 있고, 시기별로 대두된 이슈를 분석할 수 있다.
먼저 키워드 분석 결과를 부정적 이슈로만 보면, 김태우 후보의 경우 ‘윤석열 키즈’, ‘보궐선거 비용’, ‘애교발언’, ‘아파트 보유’, ‘명분 없는 출마’ 등이 높은 빈도로 분석됐다. 진교훈 후보는 ‘낮은 인지도’, ‘김태우 공격’, ‘낙하산’, ‘이해충돌’, ‘아바타’ 등이 높은 빈도로 분석됐다.

시기별로 대두된 이슈에 대한 AI의 분석 결과는 다음과 같다. 공천 초기에는 ‘검찰 vs 경찰 프레임’, ‘두 후보자에 대한 전략공천’ 등이 주요 이슈로 분석됐다. 후보 등록 기간 동안은 ‘공익제보자라는 관점과 부끄러움 모르는 출마로 보는 관점이 충돌’, ‘민생구청장 vs 방탄구청장’이라는 이슈(프레임) 등으로 두 후보 간 이슈가 경합하는 양상을 보인 것으로 분석됐다.

공식 선거 기간 동안에는 김태우 후보에 대한 부정적 이슈가 높은 빈도로 분석됐다. ‘보궐선거 유발 지적’, ‘청와대 근무 중 골프접대’, ‘대법원 유죄 확정 후 3개월 만에 출마 선언’, ‘보궐선거 비용 40억원 애교발언’, ‘성동구와 경기 성남시 아파트 보유’ 등과 같이 김태우 후보에 대한 부정적 이슈가 분석됐다.
진교훈 후보의 경우 부정적 이슈의 분석 빈도가 상대적으로 낮았다. 예를 들면, ‘이재명 대표의 아바타로 평가절하’, ‘김태우 후보만 공격하며 정책과 비전이 없음’, ‘진교훈 후보 캠프의 불법선거운동 고발’ 등이다.

마무리하며
언론기사를 자동화 프로그램으로 수집한 후 대규모언어모델(LLM) 생성형 AI를 활용해 언론기사 전체를 분석한 후 이를 계량화된 수치로 변환함으로써 온라인에서 후보자에 대한 여론이 어떻게 언급되고 변화되고 있는지를 실험적으로 분석해보았다. 생성형 AI 분석 결과와 실제 선거 결과의 일치 여부를 떠나 온라인상에서 후보자와 정당에 대한 평판과 언론이 어떻게 변화하고 있는지, 어떠한 이슈가 대두되고 소멸되는지를 분석하는 도구로서는 일정 부분 유용한 것으로 보인다.


1 공직선거법 제108조에 따르면, 누구든지 선거일 전 6일부터 선거일의 투표 마감 시각까지 선거에 관해 정당 지지도나 당선인을 예상케 하는 여론조사의 경위와 그 결과를 공표하거나 인용해 보도할 수 없다.
2 https://www.metroseoul.co.kr/article/20231019500400
3 정당 명칭과 후보자 명칭은 가나다순으로 명시했다.

▶본 기사는 입법국정전문지 더리더(the Leader) 11월호에 실린 기사입니다.
yunis@mt.co.kr
PDF 지면보기