옵션
뉴스
인공지능이 뉴스 콘텐츠 속 숨겨진 의도를 밝혀내다

인공지능이 뉴스 콘텐츠 속 숨겨진 의도를 밝혀내다

2026년 2월 26일
72

ChatGPT 스타일 모델들은 이제 뉴스 기사의 근본적인 관점을 밝혀내기 위해 훈련되고 있다. 심지어 그 관점이 인용문, 프레임, 또는 (때로는 진정성 없는) 중립성의 외관 아래 숨겨져 있을 때조차도 말이다. 기사를 헤드라인, 리드문, 인용문 등의 단편으로 분할함으로써, 새로운 시스템은 장문의 전문 저널리즘에서도 편향을 식별하는 법을 학습한다.

 

학술 문헌에서 '입장 탐지(stance detection)'로 알려진, 필자나 화자의 진정한 입장을 파악하는 능력은 언어 해석에서 가장 복잡한 과제 중 하나를 해결합니다: 의도를 숨기거나 흐리게 하도록 의도적으로 설계된 내용에서 의도를 분별하는 것입니다.

조너선 스위프트의 『한 가지 겸손한 제안 』부터 최근 정치인들이 이념적 반대자의 수사법을 차용하는 퍼포먼스에 이르기까지, 발언의 표면은 더 이상 그 의도를 신뢰할 수 있는 지표가 아닙니다. 아이러니, 트롤링, 허위정보, 전략적 모호성의 부상은 텍스트가 진정으로 어느 편을 지지하는지, 혹은 아예 편을 들지 않는지 판단하기를 점점 더 어렵게 만듭니다.

종종 말하지 않은 내용이 명시된 내용만큼이나 중요하며, 특정 주제를 다루기로 한 결정 자체가 저자의 입장을 암시할 수 있다.

이는 자동화된 입장 감지 작업을 특히 어렵게 만듭니다. 효과적인 시스템은 개별 문장을 단순히 '지지적' 또는 '반대적'으로 분류하는 것을 넘어, 의미의 층위를 탐색하며 미묘한 단서들을 기사의 전반적인 흐름과 방향성에 맞추어 평가해야 하기 때문입니다. 특히 어조가 변화하고 의견이 직접적으로 표명되는 경우가 드문 장문 저널리즘에서는 이 작업이 더욱 복잡해집니다.

변화를 위한 에이전트

이러한 과제를 해결하기 위해 한국 연구진은 장문 뉴스 기사의 입장을 탐지하는 JOA-ICL(저널리즘 기반 에이전트 인컨텍스트 학습)이라는 새로운 시스템을 개발했습니다.

JOA-ICL의 핵심 아이디어는 별도의 언어 모델 에이전트가 생성한 세그먼트 수준 예측을 집계하여 기사 수준의 입장을 추론한다는 것이다. 출처: https://arxiv.org/pdf/2507.11049

JoA-ICL의 핵심 아이디어는 별도의 언어 모델 에이전트가 생성한 세그먼트 수준 예측을 집계하여 기사 수준의 입장을 추론한다는 것이다. 출처: https://arxiv.org/pdf/2507.11049

JOA-ICL은 기사를 전체적으로 평가하기보다 구조적 구성 요소(헤드라인, 리드, 인용문, 결론)로 분해하고 각 세그먼트에 라벨을 할당하는 소형 모델을 배정합니다. 이렇게 지역화된 예측 결과는 더 큰 모델로 전달되어 기사의 전반적인 입장을 판단하는 데 활용됩니다.

이 방법은 기사 수준과 세그먼트 수준 모두에 대한 입장을 주석 처리한 2,000개의 뉴스 기사로 구성된 새로 편찬된 한국어 데이터셋에서 테스트되었습니다. 각 기사는 전문 뉴스 글쓰기 구조 전반에 걸쳐 입장이 어떻게 분포하는지를 반영하는 저널리즘 전문가의 입력을 바탕으로 라벨링되었습니다.

논문에 따르면 JOA-ICL은 프롬프트 기반 및 미세 조정된 기준 모델을 모두 능가하며, 특히 유사 모델들이 종종 놓치는 '지지적 입장' 탐지에서 탁월한 성능을 보였다. 이 접근법은 유사한 조건의 독일어 데이터셋에도 효과적임을 입증하여, 해당 원리가 언어 간에도 적용 가능함을 시사한다.

저자들은 다음과 같이 밝혔습니다:

"실험 결과 JOA-ICL이 기존 입장 탐지 방법을 능가하며, 장문 뉴스 기사의 전반적 입장을 포착하는 데 세그먼트 수준 행위 주체의 이점이 부각된다."

이 새로운 논문은 '뉴스 입장 감지를 위한 저널리즘 기반 행위자적 문맥 학습(Journalism-Guided Agentic In-Context Learning for News Stance Detection )'이라는 제목으로, 서울 소재 성실대학교의 여러 학부와 KAIST 미래전략대학원에서 공동으로 발표되었습니다.

방법론

AI 기반 입장 감지의 어려움 중 일부는 기계 학습 시스템이 현재 최첨단 기술의 한계 내에서 한 번에 처리하고 연관시킬 수 있는 정보의 양과 관련된 물류적 문제입니다.

뉴스 기사는 종종 직접적인 의견 표명을 피하고, 인용할 출처 선택, 서사 구성 방식, 생략된 세부 사항 등 다양한 선택을 통해 암시되거나 추정되는 입장을 의존합니다.

기사가 명확한 입장을 취하는 경우에도 그 신호는 종종 텍스트 전체에 흩어져 있으며, 서로 다른 부분이 서로 다른 방향을 가리키고 있습니다. 언어 모델(LM)은 여전히 제한된 컨텍스트 윈도우라는 제약에 직면하고 있기 때문에, 텍스트와 의도의 관계가 더 명백한 트윗이나 소셜 미디어 게시물과 같은 짧은 콘텐츠의 경우와 같은 방식으로 입장을 평가하기 어렵습니다.

결과적으로, 모호함이 결함이 아닌 특징인 장편 저널리즘에 표준 접근법을 적용할 때는 종종 한계가 드러난다.

본 논문은 다음과 같이 명시한다:

"이러한 과제를 해결하기 위해, 우리는 먼저 더 작은 담화 단위(예: 단락 또는 섹션) 수준에서 입장을 추론하고, 이후 이러한 지역적 예측을 통합하여 기사의 전반적인 입장을 결정하는 계층적 모델링 접근법을 제안합니다.

이 프레임워크는 지역적 맥락을 유지하고, 뉴스 기사의 각 부분이 특정 이슈에 대한 전체적 입장에 어떻게 기여하는지 평가할 때 분산된 입장 단서를 포착하도록 설계되었습니다."

이를 위해 저자들은 2022년 6월부터 2024년 6월까지의 한국 뉴스 보도를 바탕으로 'K-NEWS-STANCE'라는 새로운 데이터셋을 구축했다. 기사들은 먼저 한국언론재단이 운영하는 정부 지원 메타데이터 서비스인 BigKinds를 통해 식별되었으며, 전체 텍스트는 네이버 뉴스 애그리게이터 API를 사용하여 검색되었습니다. 최종 데이터셋에는 31개 매체의 2,000개 기사가 포함되었으며, 47개의 국가적 이슈를 다루었습니다.

각 기사는 두 차례에 걸쳐 주석이 달렸다: 첫 번째는 특정 이슈에 대한 전반적인 입장, 두 번째는 개별 구간(특히 헤드라인, 리드, 결론, 직접 인용문)에 대한 주석이다.

주석 작업은 저널리즘 전문가인 한지영(본 논문의 제3저자)이 주도했으며, 그녀는 출처 선정, 어휘적 프레임, 인용 패턴 등 미디어 연구에서 확립된 단서를 활용하여 과정을 이끌었다. 총 19,650개의 단락 수준 입장 라벨이 확보되었다.

기사들이 의미 있는 관점 신호를 포함하고 있는지 확인하기 위해, 먼저 각 기사를 장르별로 분류했으며, 주관적 프레임이 더 많이 사용될 가능성이 높은 분석 또는 의견으로 분류된 기사들만 입장 주석에 사용되었습니다.

두 명의 훈련된 주석자가 모든 기사에 라벨을 부여했으며, 입장이 불분명한 경우 관련 기사를 참조하도록 지시받았다. 의견 불일치는 논의와 추가 검토를 통해 해결되었다.

K-NEWS-STANCE 데이터셋의 샘플 항목을 영어로 번역한 것입니다. 헤드라인, 리드문, 인용문만 표시되며 본문 전체는 생략됩니다. 강조 표시된 부분은 인용문의 입장 라벨을 나타내며, 지지적 입장에는 파란색, 반대적 입장에는 빨간색이 사용됩니다. 보다 명확한 내용을 보려면 인용된 출처 PDF를 참조하십시오.

K-NEWS-STANCE 데이터셋의 샘플 항목을 영어로 번역한 것입니다. 헤드라인, 리드문, 인용문만 표시되며 본문 전체는 생략되었습니다. 강조 표시된 부분은 인용문의 입장 라벨을 나타내며, 지지적 입장에는 파란색, 반대적 입장에는 빨간색이 사용되었습니다. 더 명확한 표현을 위해 인용된 원본 PDF를 참조하십시오.

JoA-ICL

제안된 시스템은 기사를 단일 텍스트 블록으로 취급하지 않고 헤드라인, 리드, 인용문, 결론 등 핵심 구조적 부분으로 분할합니다. 각 세그먼트는 언어 모델 에이전트에 할당되어 지지적, 반대적, 중립적 라벨을 부여받습니다.

이러한 부분적 예측 결과는 두 번째 에이전트로 전달되어 기사의 전체적 입장을 결정합니다. 두 에이전트는 프롬프트를 준비하고 결과를 수집하는 컨트롤러에 의해 조정됩니다.

따라서 JoA-ICL은 프롬프트 내 예시로부터 학습하는 컨텍스트 내 학습 방식을 전문적인 뉴스 글쓰기 구조에 맞추기 위해 단일 일반 입력 대신 세그먼트 인식 프롬프트를 사용합니다.

(본 논문의 예시와 그림 대부분은 길고 온라인 기사에서 가독성 있게 재현하기 어렵습니다. 따라서 독자들은 원본 PDF를 참조하시기 바랍니다.)

데이터 및 테스트

테스트에서 연구진은 매크로 F1 점수와 정확도를 활용해 성능을 평가했으며, 42~51개의 무작위 시드로 10회 실행한 결과를 평균화하고 표준 오차를 보고했습니다. 훈련 데이터는 KLUE-RoBERTa-large를 활용한 유사도 검색으로 선별된 소량 샘플을 통해 기준 모델과 세그먼트 수준 에이전트를 미세 조정하는 데 사용되었습니다.

테스트는 Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0, vLLM 0.8.5 환경에서 RTX A6000 GPU 3대(각 48GB VRAM)로 수행되었습니다.

GPT-4o-mini, Claude 3 Haiku, Gemini 2 Flash는 API를 통해 활용되었으며, 체인 오브 씽크 프롬프트의 경우 온도 1.0, 최대 토큰 수 1000으로 설정되었고, 기타 프롬프트는 최대 토큰 수 100으로 설정되었습니다.

Exaone-3.5-2.4B의 완전한 파인 튜닝을 위해 AdamW 최적화기를 사용했으며, 학습률은 5e-5, 가중치 감쇠는 0.01, 워밍업 단계는 100, 배치 크기는 6으로 설정하여 10 에포크 동안 훈련했습니다.

기준 모델로는 논문 수준 입장 감지를 위해 미세 조정된 RoBERTa, 할당된 작업에 대한 RoBERTa의 대체 조정 모델인 Chain-of-Thought (CoT) Embeddings, LKI-BART(입력 텍스트와 의도된 입장 라벨을 프롬프트로 사용하여 대규모 언어 모델의 문맥 지식을 통합한 인코더-디코더 모델); PT-HCL(대조 학습을 사용하여 일반적 특징과 대상 이슈 특유의 특징을 분리하는 방법):

K-NEWS-STANCE 테스트 세트에서 각 모델의 전체 자세 예측 성능. 결과는 매크로 F1 점수와 정확도로 표시되며, 각 그룹별 최고 점수는 굵은 글씨로 표시됨.

K-NEWS-STANCE 테스트 세트에서 전체 입장 예측에 대한 각 모델의 성능. 결과는 매크로 F1 점수와 정확도로 표시되며, 각 그룹별 최고 점수는 굵은 글씨로 표시됨.

JOA-ICL은 정확도와 매크로 F1 모두에서 최고의 종합 성능을 달성했으며, 이는 테스트된 세 가지 모델 백본(GPT-4o-mini, Claude 3 Haiku, Gemini 2 Flash) 전반에 걸쳐 우위를 보였다.

세그먼트 기반 방법은 다른 모든 접근법을 지속적으로 능가했으며, 저자들은 유사 모델들의 공통적 약점인 지지적 입장 탐지에서 특히 강점을 보인다고 언급했습니다.

기준 모델들은 전반적으로 더 낮은 성능을 보였습니다. RoBERTa와 Chain-of-Thought 변형 모델들은 미묘한 사례 처리에서 어려움을 겪었고, PT-HCL과 LKI-BART는 더 나은 성능을 보였으나 대부분의 범주에서 여전히 JOA-ICL에 뒤처졌습니다. 가장 정확한 단일 결과는 JOA-ICL(Claude)에서 나왔으며, 매크로 F1 64.8%, 정확도 66.1%를 기록했습니다.

아래 이미지는 모델들이 각 레이블을 얼마나 정확히 또는 잘못 식별했는지 보여줍니다:

기준법과 JoA-ICL을 비교한 혼동 행렬로, 두 방법 모두 검출에 가장 어려움을 겪는 것을 보여준다.

기준 모델과 JoA-ICL을 비교한 혼동 행렬은 두 방법 모두 '지지적' 입장을 감지하는 데 가장 어려움을 겪는다는 점을 보여줍니다.

JoA-ICL은 모든 범주에서 더 많은 라벨을 정확히 식별하며 전반적으로 기준 모델보다 우수한 성능을 보였습니다. 그러나 두 모델 모두 지지성 기사를 가장 많이 오인했으며, 기준 모델은 거의 절반에 가까운 기사를 중립으로 잘못 분류했습니다.

JoA-ICL은 오류가 적었지만 동일한 패턴을 보였으며, 이는 "긍정적" 입장을 모델이 탐지하기 어렵다는 점을 재확인시켜 줍니다.

JoA-ICL이 한국어 이외의 언어에서도 작동하는지 테스트하기 위해, 저자들은 독일어 기사 수준 입장 감지 데이터셋인 CheeSE에 이를 적용했습니다. CheeSE에는 세그먼트 수준 라벨이 없기 때문에, 연구진은 원거리 감독( distant supervision)을 사용하여 모든 세그먼트에 전체 기사와 동일한 입장 라벨을 할당했습니다.

독일어 CheeSE 데이터셋에서의 자세 감지 결과. JoA-ICL은 세 가지 LLM 모두에서 제로샷 프롬프팅 대비 일관된 성능 향상을 보였으며, 젬니-2.0-플래시가 가장 우수한 종합 성능을 발휘하는 가운데, 튜닝된 기준 모델들보다 우수한 성능을 기록했다.

독일어 CheeSE 데이터셋에서의 입장 탐지 결과. JoA-ICL은 세 가지 LLM 모두에서 제로샷 프롬팅 대비 일관된 개선을 보였으며, 젯마인-2.0-플래시가 가장 우수한 성능을 보인 가운데, 튜닝된 기준 모델들보다 우수한 성능을 발휘했습니다.

이러한 "노이즈가 많은" 조건에서도 JoA-ICL은 미세 조정된 모델과 제로샷 프롬프팅 모두를 능가했습니다. 테스트된 세 가지 백본 중 Gemini-2.0-flash가 가장 강력한 결과를 제공했습니다.

결론

기계 학습에서 입장 예측만큼 정치적으로 민감한 과제는 드물지만, 종종 기술적이고 기계적인 측면에서 접근됩니다. 한편, 생성형 AI의 덜 복잡한 문제들—예를 들어 영상 및 이미지 생성—은 더 많은 관심과 헤드라인을 끌곤 합니다.

이번 한국 연구의 가장 고무적인 측면은 트윗이나 짧은 소셜 미디어 게시물보다 논문, 에세이 등 실질적인 작업의 영향력이 더 지속적이라는 점을 고려해, 장문 콘텐츠 분석에 기여했다는 점이다.

이 연구와 더 넓게는 입장 예측 문헌 전반에서 눈에 띄는 한 가지 공백은 하이퍼링크에 대한 고려 부족이다. 하이퍼링크는 독자가 주제를 더 깊이 탐구할 수 있는 선택적 자료 역할을 하는 경우가 많다. 그러나 이러한 URL 선택은 매우 주관적일 수 있으며 심지어 정치적 성격을 띨 수도 있다.

그렇지만 출판물의 권위가 높을수록 독자를 자체 도메인 밖으로 이끄는 링크를 포함할 가능성은 낮아진다. 이는 다양한 SEO 관련 하이퍼링크의 활용 및 남용과 함께, 독자의 의견을 의식적·무의식적으로 형성할 수 있는 명시적 인용, 제목 등 다른 요소들보다 하이퍼링크를 정량화하기 어렵게 만든다.

 

최초 게재일: 2025년 7월 16일 수요일

관련 기사
Anthropic의 Claude 4.1, GPT-5 출시 앞두고 코딩 벤치마크에서 우수한 성능 발휘 Anthropic의 Claude 4.1, GPT-5 출시 앞두고 코딩 벤치마크에서 우수한 성능 발휘 앤트로픽은 월요일 자사 주력 AI 모델의 향상된 버전을 공개하며 소프트웨어 엔지니어링 작업 수행 능력에 새로운 기준을 제시했다. 이번 출시로 이 AI 스타트업은 수익성이 높은 코딩 분야에서의 우위를 지키고, 오픈AI로부터 예상되는 새로운 경쟁에 대비할 수 있게 됐다.신규 '클로드 오푸스 4.1(Claude Opus 4.1)' 모델은 실제 소프트웨어 문제를
엔비디아, 토글 가능한 추론 기능을 갖춘 오픈 소스 AI 모델 네모트론-나노-9B-v2 공개 엔비디아, 토글 가능한 추론 기능을 갖춘 오픈 소스 AI 모델 네모트론-나노-9B-v2 공개 소형 언어 모델이 주목받고 있다. MIT 스핀오프 기업 리퀴드 AI의 스마트워치 크기 비전 모델과 구글의 스마트폰용 모델에 이어, 엔비디아도 자체 경량화 모델인 네모트론-나노-9B-V2로 시장에 진출한다. 이 신형 모델은 주요 벤치마크에서 동급 최상위를 기록하며, 사용자가 AI의 '추론' 기능(최종 답변 제공 전 자체 점검 과정)을 활성화
OpenAI, 법원 명령에 따라 ChatGPT 데이터 보유, 알트만 CEO, 'AI 특권' 제안 OpenAI, 법원 명령에 따라 ChatGPT 데이터 보유, 알트만 CEO, 'AI 특권' 제안 이 글의 작성자를 포함한 많은 일반 ChatGPT 사용자들은 '임시 채팅' 기능을 사용해 보셨을 것입니다. OpenAI의 인기 챗봇에서 제공하는 이 옵션은 세션이 종료되는 즉시 세션 중에 교환된 모든 정보를 자동으로 삭제하도록 설계되었습니다.또한 사용자는 웹, 데스크톱, 모바일 애플리케이션의 사이드바에서 과거 ChatGPT 대화를 수동으로 삭제할 수 있습니
관련 특별 주제 추천
암호 최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링
최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링

XIX.AI에서 2026년 최고의 AI 코드 검토 도구를 만나보세요. 엄선된 이 목록에는 깔끔한 코드 준수 여부를 자동으로 확인하고 레거시 리포지토리 파일을 리팩토링하는 데 있어 판도를 바꿀 만한 최고 등급의 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI의 경쟁력을 확보하세요.

10 도구
xix.ai
텍스트 음성 변환 난독증 환자를 위한 최고의 AI 음성 합성 앱: 학생들의 학습 및 독서 효율성 향상
난독증 환자를 위한 최고의 AI 음성 합성 앱: 학생들의 학습 및 독서 효율성 향상

난독증 지원을 위해 엄선된 2026년 최신 최고 평점 AI TTS 앱을 만나보세요. 전문가들이 선정한 이 순위는 무료 및 유료 도구를 비교 분석하여, 읽기 효율과 학습 효과를 높여주는 강력한 기능들을 소개합니다. 학생들의 잠재력을 최대한 발휘할 수 있도록 도와줄, 꼭 사용해봐야 할 혁신적인 솔루션을 확인해 보세요. XIX.AI에서 여정을 시작해 보세요.

10 도구
xix.ai
만화 창작 소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기
소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기

XIX.AI에서 2026년 최고의 소년 만화 AI 생성기를 만나보세요. 엄선된 최고 평점 목록에는 박진감 넘치는 액션 장면과 역동적인 에너지 효과를 연출할 수 있는 강력한 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 여러분의 창의력을 마음껏 발휘하여 오늘 바로 장대한 만화를 만들어 보세요!

15 도구
xix.ai
사업 최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요
최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구
xix.ai
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
의견 (0)
0/500
OR