요약


"핵심만 남기고 나머지는 버리는 기술. 단, 무엇이 핵심인지 모르면 그냥 전부 버리는 꼴이 된다."

요약(要約, Summary / Abstract / Synopsis)이란 어떤 글·담화·사건·개념 등의 핵심적인 내용을 간추려 짧게 정리하는 행위, 또는 그 결과물을 말한다. 한자를 풀면 요(要)는 '중요하다', 약(約)은 '묶다·줄이다'를 의미하므로, 글자 그대로 '중요한 것만 묶는다'는 뜻이 된다.

요약은 인간의 지적 활동 전반에 걸쳐 나타나는 기초적이면서도 고도의 사고 능력을 요구하는 행위이다. 단순히 문장을 짧게 만드는 것과는 차원이 다르며, 대상의 구조, 논리, 의미를 충분히 이해한 상태에서만 제대로 된 요약이 가능하다. 이 때문에 요약 능력은 독해력·논리적 사고력·표현력을 종합적으로 측정하는 지표로 자주 활용된다.

현대 사회에서는 정보의 양이 폭발적으로 증가하면서 요약의 중요성이 더욱 커졌다. 인공지능, 특히 자연어 처리(NLP) 분야에서는 자동 요약(Automatic Summarization)이 핵심 연구 주제로 자리 잡았을 정도이며, 일상에서도 뉴스 앱·포털·AI 어시스턴트 등을 통해 요약이 광범위하게 소비된다.

개요[편집 / 원본 편집]

요약은 다음과 같은 세 가지 차원에서 정의될 수 있다.

첫째, 인지적 행위로서의 요약은 독자가 텍스트를 읽고 그 의미를 내면화한 뒤, 불필요한 정보를 걸러내고 핵심 명제만을 추출하여 재구성하는 고차원 사고 과정이다. 인지심리학에서는 이를 거시구조 구성(macrostructure formation)이라고 부르며, 판 다이크(Van Dijk)와 킨치(Kintsch)의 텍스트 이해 모델에서 이론적 기반을 찾을 수 있다.[1]

둘째, 텍스트 유형으로서의 요약은 초록·시놉시스·브리핑·이그제큐티브 서머리 등 다양한 형태의 축약 문서를 총칭하는 개념이다.

셋째, 기술(技術)로서의 요약은 글쓰기·발표·학습·업무 등 다양한 실용적 맥락에서 훈련하고 향상시킬 수 있는 역량이다.

세 차원 모두에서 공통적으로 강조되는 것은 선택과 배제의 원리이다. 좋은 요약자는 무엇을 남길지만큼이나 무엇을 버릴지를 정확히 안다.

어원 및 역사[편집 / 원본 편집]

어원[편집 / 원본 편집]

'요약'은 한자어로, 중국 고전에서도 핵심을 추려낸다는 의미로 유사하게 쓰였다. 현대 중국어에서는 摘要(zhāi yào, 적요), 概要(gài yào, 개요), 总结(zǒng jié, 총결) 등 목적에 따라 세분화된 어휘가 사용된다. 일본어에서도 要約(ようやく)이 동일한 의미로 쓰인다.

서양에서는 라틴어 summa(전체·총계)에서 파생된 summary가 사용된다. 이 라틴어 어근은 영어의 sum(합계), summit(정상), summon(소환) 등과 연결되며, 모두 '가장 높은 것·전체를 모은 것'이라는 의미를 공유한다. 학술적 맥락에서는 라틴어 abstractus에서 온 abstract가 더 많이 쓰이며, '핵심을 뽑아내다(draw away)'라는 의미를 지닌다. 이야기의 줄거리를 뜻하는 synopsis는 그리스어 σύνοψις(한눈에 보다)에서 왔다.

역사적 배경[편집 / 원본 편집]

요약의 역사는 사실상 문자의 역사와 궤를 같이한다.

고대[편집 / 원본 편집]

파피루스나 점토판처럼 기록 매체가 귀하고 제작 비용이 막대했던 고대 사회에서, 긴 내용을 그대로 옮기는 것은 극히 사치스러운 행위였다. 메소포타미아의 서기관들은 왕의 칙령, 법령, 교역 기록을 압축하여 기록하는 훈련을 받았으며, 이집트의 신관문자(Hieratic) 문서에도 긴 신화를 요약한 텍스트가 남아 있다.

고대 그리스 수사학에서는 에필로고스(ἐπίλογος)라는 개념이 존재했다. 연설의 마지막 부분에서 핵심 논지를 다시 정리하는 행위로, 오늘날 결론부에 해당한다. 아리스토텔레스는 『수사학(Rhetorica)』에서 에필로고스의 요소를 명시적으로 기술하였다.[2]

중세[편집 / 원본 편집]

유럽 중세 시대에는 수도원의 필사실(scriptorium)이 지식 보존의 핵심 기관이었다. 수사들은 성경·신학 논서·고전 철학을 필사하면서, 방대한 내용을 간추린 플로릴레기움(Florilegium)[3]을 편찬했다. 이는 인쇄술 이전 시대에 지식을 효율적으로 유통하는 핵심 수단이었다.

이슬람 세계에서는 이크티사르(اختصار, ikhtisār)라는 전통이 발달했다. 광대한 아랍·페르시아 학문을 압축하고 정리하는 것을 고도의 학문적 덕목으로 여겼으며, 이에 따라 수많은 요약본(mukhtaṣar)이 의학·천문학·법학 등 전 분야에 걸쳐 생산되었다. 이 전통은 12~13세기 유럽으로 번역되어 스콜라 철학 발전에도 기여했다.

중국에서는 경서(經書) 해설 문화와 함께 집주(集注) 전통이 발달했다. 주희(朱熹)의 『사서집주(四書集注)』가 대표적으로, 이는 방대한 유교 경전을 압축하고 핵심을 재해석한 거대한 지적 요약 작업이었다.

근대[편집 / 원본 편집]

구텐베르크의 인쇄술 발명(1450년경) 이후 텍스트의 생산량이 폭발적으로 늘어나면서, 정보를 걸러내고 정리하는 수요도 함께 증가했다. 17~18세기에는 학술 서신 교환 네트워크(Republic of Letters)에서 새로운 논문과 서적을 요약하여 소개하는 서한이 활발하게 유통되었으며, 이것이 오늘날 학술 저널과 초록 제도의 전신이 되었다.

19세기 신문과 잡지의 대중화는 뉴스 요약의 시대를 열었다. 역피라미드 구조(가장 중요한 정보를 먼저)가 저널리즘의 표준으로 자리 잡았으며, 이는 전보(Telegraph)의 제한된 전송 용량에 맞추어 정보를 압축해야 했던 실용적 필요에서 탄생했다는 설이 유력하다.

현대[편집 / 원본 편집]

20세기 후반 인터넷과 디지털 정보 혁명은 정보 과잉(Information Overload)이라는 새로운 문제를 낳았다. 매일 생산되는 텍스트의 양이 인간이 평생 읽을 수 있는 분량을 훨씬 초과하는 시대가 되었고, 요약은 선택적 관심의 핵심 기술로 부상했다.

2010년대 이후 딥러닝의 발전은 자동 요약(Automatic Summarization)의 수준을 인간에 근접하는 수준으로 끌어올렸으며, ChatGPT·Claude·Gemini 등 대형 언어 모델(LLM)의 등장으로 요약은 AI의 가장 일상적인 활용 사례 중 하나가 되었다.

요약의 종류[편집 / 원본 편집]

목적에 따른 분류[편집 / 원본 편집]

정보 전달형 요약 (Informative Summary)[편집 / 원본 편집]

원문의 주요 정보, 수치, 방법, 결론을 모두 포함하는 방식이다. 독자가 원문을 읽지 않아도 핵심 정보를 충분히 얻을 수 있도록 설계된다. 학술 논문의 초록(Abstract)이 가장 대표적인 예이며, 기업 보고서의 이그제큐티브 서머리도 이 범주에 속한다.

정보 전달형 요약의 특징
항목 내용
목표 길이 원문의 10~25% 수준
필수 포함 요소 목적, 방법, 결과, 결론, 주요 수치
주요 사용 분야 학술, 보고서, 정책 문서
주요 독자 전문가 및 일반 독자 모두
핵심 기준 원문 미독자도 내용 이해 가능해야 함

지시형 요약 (Indicative Summary)[편집 / 원본 편집]

원문에 무엇이 담겨 있는지를 안내하는 방식으로, 구체적인 수치나 결론보다 주제와 범위를 소개하는 데 집중한다. 독자를 원문으로 안내하는 길잡이 역할을 하며, 도서관 카탈로그의 책 소개, 영화 시놉시스, 온라인 쇼핑몰의 상품 설명 등이 이에 해당한다. 지시형 요약만으로는 원문의 결론이나 핵심 데이터를 알 수 없으며, 반드시 원문을 읽어야 한다는 것이 정보 전달형과의 가장 큰 차이다.

비판적 요약 (Critical Summary)[편집 / 원본 편집]

단순히 내용을 정리하는 데 그치지 않고, 요약자의 평가와 논평을 함께 담는 방식이다. 서평(書評), 논문 리뷰, 영화 비평 등이 대표적이다. 요약자의 전문성·관점·논거가 중요한 역할을 하며, 단순 요약과 달리 원문의 논리적 오류, 방법론적 한계, 사회적 맥락 등을 함께 분석한다. 학술 대학원에서 요구하는 문헌 리뷰(Literature Review)가 여기에 해당하며, 단순 내용 기술이 아닌 연구자로서의 비판적 시각이 평가의 핵심이다.

평가 요약 (Evaluative Summary)[편집 / 원본 편집]

비판적 요약과 유사하나, 특정 기준이나 루브릭(Rubric)에 따라 원문을 정형화된 방식으로 평가하는 형태다. 제품 리뷰, 영화 평점, 논문 심사 보고서(Peer Review Report) 등이 이에 해당한다. 평가 항목과 기준이 미리 정해져 있다는 점에서 비판적 요약보다 구조화되어 있다.

방법에 따른 분류[편집 / 원본 편집]

추출 요약 (Extractive Summarization)[편집 / 원본 편집]

원문에서 중요한 문장이나 구절을 그대로 뽑아내어(Extract) 나열하는 방식이다. 내용을 재해석하거나 새로운 표현으로 바꾸지 않는다는 점에서 의미 왜곡의 위험이 낮고 구현이 비교적 간단하다. 그러나 추출된 문장들이 서로 논리적으로 잘 연결되지 않을 수 있으며, 추출되지 않은 문장들과의 지시 관계(대명사, 지시어 등)가 끊기는 문제가 발생한다.

인공지능 분야에서 추출 요약에 활용되는 대표적 알고리즘:

  • TF-IDF 기반 : 문서 내 단어 빈도와 역문서 빈도를 결합하여 중요 문장을 선별
  • TextRank : 구글의 PageRank 알고리즘을 텍스트 그래프에 적용. 문장 간 유사도를 기반으로 순위를 매김
  • SummaRuNNer : RNN을 활용한 추출 요약 분류 모델
  • BERTSum : BERT를 문장 인코더로 활용한 추출 요약 모델

생성 요약 (Abstractive Summarization)[편집 / 원본 편집]

원문을 이해한 뒤 새로운 문장으로 재구성하는 방식이다. 인간이 자연스럽게 수행하는 요약이 바로 이 방식에 해당한다. 추출 요약보다 훨씬 자연스럽고 응집력 있는 결과물을 만들어낼 수 있지만, 원문에 없는 내용이 생성되는 환각(Hallucination) 문제가 발생할 수 있어 사실 확인이 중요한 분야에서는 주의가 필요하다.

현재 대부분의 고성능 AI 요약 시스템은 생성 요약 방식을 채택하며, BART, T5, GPT-5, Claude 등의 대형 언어 모델이 이를 구현한다.

혼합형 요약 (Hybrid Summarization)[편집 / 원본 편집]

추출 요약과 생성 요약을 단계적으로 결합한 방식이다. 1단계에서 중요 문장을 추출하여 입력 텍스트를 압축하고, 2단계에서 추출된 내용을 바탕으로 자연스럽게 재작성한다. 환각 문제를 줄이면서도 자연스러운 결과물을 얻을 수 있어, 현재 가장 성능이 뛰어난 상용 AI 요약 서비스들이 이 방식을 채택한다.

다중 문서 요약 (Multi-Document Summarization)[편집 / 원본 편집]

단일 문서가 아닌 여러 문서를 동시에 요약하는 방식이다. 같은 사건을 다룬 여러 뉴스 기사를 통합 요약하거나, 동일 주제의 복수 논문을 정리하는 데 활용된다. 문서 간 정보 중복 처리와 상충되는 내용 조율이 핵심 과제이며, 단일 문서 요약보다 기술적 난이도가 훨씬 높다.

대화 요약 (Dialogue/Conversation Summarization)[편집 / 원본 편집]

채팅 로그, 회의록, 고객 상담 기록 등 대화 형식의 텍스트를 요약하는 방식이다. 일반적인 문서 요약과 달리 복수의 화자가 존재하며, 발화 순서와 맥락이 의미 형성에 중요한 역할을 한다. 최근 Microsoft Teams, Zoom, 네이버 클로바 등에서 회의 자동 요약 기능으로 상용화되었다.

형태에 따른 분류[편집 / 원본 편집]

형태별 요약 비교표
형태 영어 명칭 표준 길이 특징 주요 사용처
초록 Abstract 150~300단어 논문 서두에 위치. 목적·방법·결과·결론 포함 학술 논문
개요 Synopsis 1~3쪽 전체 줄거리/내용 간략 정리 소설, 영화, 드라마 기획서
적요 Précis 원문의 약 1/3 원문 구조와 논리를 유지하며 압축 영어 작문 교육
요지 Gist 1~3문장 핵심 아이디어만 추려 극도로 간결하게 구어, 일상 대화, 메모
브리핑 Briefing 1~5분 의사결정자에게 핵심만 구두 또는 문서로 보고 기업, 군사, 정치
다이제스트 Digest 다양 여러 원문을 모아 편집한 요약집 잡지, 뉴스레터
이그제큐티브 서머리 Executive Summary 1~2쪽 보고서 앞부분에 위치. 경영진 맞춤 핵심 요약 경영, 컨설팅
어노테이션 Annotation 2~8문장 문헌의 내용·특성·가치를 간략히 기술 참고문헌 목록, 도서관
러닝 헤드 Running Head 1~2줄 학술지 논문 상단에 표시되는 극도의 축약 제목 학술 출판
썸네일 요약 Thumbnail Summary 1~2문장 검색 결과, SNS 미리보기에서 표시되는 초간략 설명 검색엔진, 포털

요약의 원칙[편집 / 원본 편집]

수십 년간 교육학·언어학·수사학 분야에서 연구된 요약의 핵심 원칙들을 체계적으로 정리한다. 이 원칙들은 상호 보완적으로 작용하며, 어느 하나라도 심각하게 위배되면 요약의 질이 크게 저하된다.

핵심 정보 보존의 원칙[편집 / 원본 편집]

요약에서 가장 중요한 것은 원문의 핵심 의미와 주장이 손상 없이 전달되어야 한다는 점이다. 분량을 줄이는 것 자체가 목적이 아니라, 핵심을 추출하는 것이 목적임을 항상 명심해야 한다. 아무리 짧아도 핵심이 빠진 요약은 요약이 아니며, 길어도 핵심이 살아 있으면 좋은 요약일 수 있다.

핵심 정보 보존 여부를 판단하는 실용적 체크리스트:

  1. 원문의 중심 주장(Main Claim 또는 Thesis)이 명시적으로 포함되어 있는가?
  2. 주요 논거(Key Arguments)가 충분히 반영되어 있는가?
  3. 중요한 수치, 고유명사, 전문 용어가 누락 없이 들어갔는가?
  4. 원문의 결론과 시사점이 명확히 드러나는가?
  5. 원문을 읽은 사람이 이 요약을 보았을 때 "맞아, 그게 핵심이야"라고 동의할 수 있는가?

간결성의 원칙[편집 / 원본 편집]

요약은 짧아야 한다. 당연한 말처럼 들리지만, 실제로 많은 사람이 불필요한 수식어, 중복 표현, 예시 나열, 근거 없는 부연으로 요약을 부풀린다. 간결성은 단순히 글자 수를 줄이는 것이 아니라, 정보 밀도를 높이는 것이다.

피해야 할 표현의 예:

나쁜 예 좋은 예 설명
"이 논문은 매우 다양하고 광범위한 여러 측면에서 살펴보면서 분석하고 있는데..." "이 논문은 다각도로 분석하며..." 수식어 중복 제거
"앞에서 말한 것처럼 이미 언급했듯이..." (삭제) 반복 제거
"예를 들어 A, B, C, D, E, F의 다양한 사례가 있는데 이러한 사례들을 보면..." "다양한 사례(A, B 등)에서..." 예시 압축
"결론적으로 최종 결론을 내리자면 결론은..." "결론적으로..." 동어 반복 제거
"~라고 할 수 있다고 생각된다" "~이다" 불확실한 완충 표현 제거

객관성의 원칙[편집 / 원본 편집]

요약자의 개인적 감정, 편견, 주관적 해석이 과도하게 개입되면 요약이 아니라 왜곡이 된다. 특히 비판적 요약이 아닌 일반 요약에서는 원문 저자의 의도를 충실히 따라야 한다. "저자는 ~라고 주장한다"처럼 보고(Reporting) 형식을 유지하는 것이 도움이 된다.

단, 완전한 객관성이란 불가능에 가깝다는 점도 인정해야 한다. 무엇을 '핵심'으로 보느냐 자체가 이미 요약자의 판단이기 때문이다. 이를 선택 편향(Selection Bias)이라 하며, 특히 뉴스 요약이나 정책 보고서 요약에서 의도적 왜곡의 수단으로 악용될 수 있어 주의가 필요하다.

완결성의 원칙[편집 / 원본 편집]

요약은 그 자체로 독립된 텍스트로서 읽힐 수 있어야 한다. 원문을 보지 않아도 의미가 통해야 하며, 문장이 논리적으로 연결되어 있어야 한다. 원문에서는 앞서 설명된 개념을 대명사나 지시어로 받았더라도, 요약에서는 해당 개념을 명시적으로 표현해야 하는 경우가 많다.

예를 들어, 원문에서 "이 방법은 기존보다 40% 효율적이었다"라는 문장을 그대로 요약에 넣으면, '이 방법'이 무엇인지 알 수 없게 된다. 요약에서는 "제안된 알고리즘은 기존 방법 대비 40% 효율 향상을 보였다"와 같이 맥락이 자급자족(self-contained)이 되도록 써야 한다.

일관성의 원칙[편집 / 원본 편집]

요약 전반에 걸쳐 용어, 시제, 어조, 관점이 통일되어야 한다. 원문에서 '피험자'라고 쓴 것을 요약에서 갑자기 '대상자', '참가자', '학생'으로 혼용하면 혼란을 일으킨다. 시제도 마찬가지로, 학술 논문 요약에서는 주로 현재형(연구는 ~를 보인다)이나 과거형(연구는 ~를 보였다)을 일관되게 사용해야 한다.

충실성의 원칙[편집 / 원본 편집]

요약은 원문 저자의 의도를 왜곡하거나 과장하지 않아야 한다. 원문에서 조심스럽게 제시한 잠정적 결론을 요약에서 단정적으로 표현하거나, 반대로 강한 주장을 지나치게 약화시켜 표현하면 충실성을 잃은 요약이 된다. 특히 "~일 수 있다", "~경향이 있다", "~로 추정된다"와 같은 양태 표현(Modal Expression)을 요약에서도 동일하게 유지하는 것이 중요하다.

적합성의 원칙[편집 / 원본 편집]

요약의 길이와 형식은 목적과 독자에 맞게 조정되어야 한다. 전문가를 위한 학술 초록과 일반 독자를 위한 뉴스 요약은 같은 원문을 대상으로 해도 전혀 다른 방식으로 써야 한다. 전자는 전문 용어와 수치를 유지하고, 후자는 쉬운 언어와 직관적 비유를 활용해야 한다.

요약의 절차[편집 / 원본 편집]

실제로 글을 요약할 때 따라야 할 단계적 절차를 상세히 기술한다. 이 절차는 학술 논문, 뉴스 기사, 비즈니스 보고서 등 대부분의 텍스트 유형에 공통적으로 적용할 수 있다.

1단계: 전체 읽기 (Global Reading)[편집 / 원본 편집]

요약 전에 반드시 원문 전체를 한 번은 읽어야 한다. 처음부터 밑줄을 치거나 메모하려 하면 전체 맥락을 놓치기 쉽다. 이 단계에서는 다음을 파악하는 데 집중한다:

  • 이 글의 목적은 무엇인가? (설득, 설명, 보고, 서사 등)
  • 예상 독자는 누구인가?
  • 전반적인 구조와 흐름은 어떠한가?
  • 저자의 핵심 주장 또는 문제 의식은 무엇인가?

전체 읽기 단계에서 미리 주석을 달거나 형광펜을 칠하는 것은 오히려 방해가 된다. 나무를 보느라 숲을 못 보게 되기 때문이다. 단, 전체 읽기 후 곧바로 주요 인상을 메모하는 것은 권장된다.

2단계: 구조 분석 (Structure Analysis)[편집 / 원본 편집]

두 번째 읽기에서는 글의 구조를 분석한다. 대부분의 설명문·논술문은 다음과 같은 구조를 갖는다:

  • 서론 : 문제 제기 / 연구 배경 / 주제 소개 / 핵심 주장 예고
  • 본론 : 논거 제시 / 사례 분석 / 데이터 검토 / 반론 및 재반박
  • 결론 : 주장 요약 / 시사점 / 제언 / 향후 과제

이 구조를 파악하고 각 부분에서 핵심 내용을 색깔로 구분하거나, 여백에 "주장", "근거", "사례", "결론" 등을 표시해두면 이후 단계가 크게 수월해진다. 학술 논문의 경우 IMRaD 구조(Introduction, Methods, Results, Discussion)를 따르는 경우가 많으므로 이를 기준점으로 활용할 수 있다.

3단계: 핵심 문장 식별 (Key Sentence Identification)[편집 / 원본 편집]

각 문단의 주제문(Topic Sentence)을 찾는다. 주제문은 보통 문단의 첫 번째 또는 마지막 문장에 위치한다. 잘 쓰인 글일수록 이 법칙을 충실히 따르는 경향이 있다.

핵심 문장을 식별하는 기준:

  1. 이 문장 없이는 문단의 내용 이해가 불가능한가?
  2. 다른 문장들이 이 문장을 뒷받침하는 구조인가?
  3. 반복적으로 등장하는 키워드(논문의 경우 제목·초록·결론에 동일하게 나타나는 단어)가 포함되어 있는가?
  4. 글 전체의 주장과 직접 연결되는가?

핵심 문장이 아닌 것들: 예시 문장("예를 들어~"), 배경 설명 문장, 독자의 주의를 환기하는 수사적 질문, 이미 알려진 사실을 확인하는 문장 등.

4단계: 삭제 및 압축 (Deletion & Compression)[편집 / 원본 편집]

핵심이 아닌 내용을 과감히 삭제하는 단계이다. 판 다이크(Van Dijk)의 거시 규칙(Macro-rules) 이론에 따르면, 텍스트를 이해하는 과정에서 인간의 뇌는 자동으로 세 가지 규칙을 적용한다.[4]

  1. 삭제(Deletion) : 이후 해석에 불필요한 명제를 제거
  2. 일반화(Generalization) : 여러 개별 명제를 포괄하는 상위 명제로 대체 (예: "사과, 배, 귤" → "과일")
  3. 구성(Construction) : 개별 사실들에서 추론하여 하위 명제들을 포괄하는 상위 명제를 새로 만듦

실제 삭제 대상 목록:

  • 핵심 논지에 비해 지엽적인 구체적 사례
  • 수사적 효과를 위한 반복 표현
  • 독자가 이미 알고 있을 상식적 배경 정보
  • 부연 설명 수준의 보충 정보
  • 감정적·수사적 강조 표현

5단계: 재구성 (Reconstruction)[편집 / 원본 편집]

삭제 후 남은 내용을 자신의 언어로 자연스럽게 재조합한다. 단순히 원문을 붙여 넣는 것이 아니라, 논리적 흐름이 매끄럽도록 적절한 접속어·지시어·전환어를 활용해야 한다.

재구성 시 유용한 문형들:

  • "A는 B를 목적으로 C 방법을 사용하여 D를 밝혔다."
  • "본 연구에 따르면 X는 Y에 유의미한 영향을 미치며, 이는 Z를 시사한다."
  • "저자는 P의 한계를 지적하고, 대안으로 Q를 제안한다."

이 단계에서 중요한 것은 표절을 피하는 것이다. 원문의 문장을 약간만 변형하여 사용하는 것은 표절에 해당할 수 있으므로, 원문의 언어가 아니라 자신의 언어로 완전히 재표현해야 한다.

6단계: 검토 (Review)[편집 / 원본 편집]

완성된 요약을 원문과 대조하면서 다음을 확인한다:

  1. 원문의 핵심 주장이 정확하게 반영되었는가?
  2. 요약자의 주관적 해석이 과도하게 개입되지 않았는가?
  3. 목표 분량을 초과하거나 지나치게 짧지 않은가?
  4. 요약만 읽어도 내용이 완결되게 이해되는가?
  5. 전문 용어의 사용이 일관되는가?
  6. 문법·맞춤법·띄어쓰기 오류는 없는가?
  7. 수치, 인명, 날짜 등 사실 정보가 정확한가?

마지막으로, 가능하다면 원문을 읽지 않은 제3자에게 요약을 읽게 한 뒤 원문의 핵심 내용을 설명하게 해보는 것이 가장 효과적인 검토 방법이다.

요약과 유사 개념 비교[편집 / 원본 편집]

요약 vs 발췌[편집 / 원본 편집]

발췌(拔萃, Excerpt)는 원문의 일부를 표현을 바꾸지 않고 그대로 인용하는 것이다. 요약은 내용을 소화하고 재표현하지만, 발췌는 원문의 표현을 그대로 가져온다는 점이 가장 큰 차이다. 발췌에는 반드시 인용 부호(큰따옴표 또는 블록 인용)와 출처를 명시해야 한다. 맥락 없이 발췌만 모아놓은 것은 저자의 의도를 왜곡할 위험이 높다.

요약 vs 개요[편집 / 원본 편집]

개요(槪要, Outline)는 글의 구조와 목차를 나타내는 것으로, 내용의 요점보다 구조적 틀을 보여주는 데 집중한다. 요약이 '무슨 말을 하는가'라면, 개요는 '어떤 순서와 구조로 말하는가'에 가깝다. 개요는 글쓰기 전 계획 단계에서도 활용되며, 이 경우 아직 작성되지 않은 내용의 청사진 역할을 한다.

요약 vs 축약[편집 / 원본 편집]

축약(縮約, Condensation)은 원문의 표현 방식과 구조를 최대한 유지하면서 분량만 줄이는 방식이다. 어린이용 고전 문학 편집, 방송 시간 제한에 맞춘 음악 편곡, 학습용 교재의 원문 압축 등에서 나타난다. 요약보다 원문 충실도가 높고 독창적 재표현은 적다. 때문에 축약은 요약보다 저작권 침해의 위험이 더 낮다는 견해도 있다.

요약 vs 해제[편집 / 원본 편집]

해제(解題, Annotation)는 문헌의 내용·성격·가치·출판 배경 등을 설명하는 것으로, 비판적 요약과 지시형 요약의 중간 형태에 가깝다. 주로 학술 자료나 고문헌을 소개할 때 사용하며, 해당 문헌이 왜 중요한지, 어떤 맥락에서 읽어야 하는지까지 안내한다. 주석 달린 참고문헌 목록(Annotated Bibliography)이 대표적 형태다.

요약 vs 리뷰[편집 / 원본 편집]

리뷰(Review)는 내용 요약 외에 평가, 추천 여부, 비교까지 포함한다. 영화 리뷰, 도서 리뷰, 제품 리뷰 등이 대표적이다. 요약이 중립적 기술(記述)이라면, 리뷰는 평가(評價)를 포함한다. 특히 학술 분야의 동료 심사(Peer Review)는 단순 내용 요약을 넘어, 연구의 타당성·신뢰성·독창성에 대한 전문가의 종합 평가를 담는다.

요약 vs 패러프레이즈[편집 / 원본 편집]

패러프레이즈(Paraphrase, 바꿔 말하기)는 원문과 유사한 분량을 유지하면서 표현만 다르게 바꾸는 것이다. 요약처럼 내용을 압축하지 않으며, 원문의 모든 정보를 다른 말로 표현하는 데 집중한다. 번역이 언어 간 패러프레이즈라면, 패러프레이즈는 같은 언어 내에서의 재표현이다. 학술 글쓰기에서 직접 인용 대신 패러프레이즈를 활용하면 저작권 문제를 피할 수 있으나, 출처 명시는 여전히 필요하다.

요약 관련 개념 종합 비교표
개념 원문 표현 유지 내용 압축 재해석·재표현 평가 포함 출처 명시 필수
요약 ×
발췌 × × ×
개요 × ×
축약 ×
해제
리뷰 ×
패러프레이즈 × × ×

분야별 요약의 특성[편집 / 원본 편집]

학술 분야[편집 / 원본 편집]

학술 논문에서 요약은 초록(Abstract)이라는 형태로 표준화되어 있다. 국제 학술지에서는 대개 150~300단어 이내로 제한하며, 투고 규정에 따라 구조화 초록(Structured Abstract)을 요구하기도 한다. 구조화 초록은 Background, Objective, Methods, Results, Conclusions 등의 소제목을 명시적으로 포함한다.

학술 초록은 데이터베이스(PubMed, Scopus, Web of Science, KISS, RISS 등)에서 논문을 검색할 때 가장 먼저 노출되는 텍스트이므로, 검색 가능성을 높이기 위한 핵심어(Keywords) 선정도 중요하다.

초록 작성의 실용적 원칙:

  • 연구에서 실제로 한 것과 발견한 것만 기술하고, 논문에 없는 내용은 절대 초록에 포함하지 않는다.
  • 일반적 배경 지식보다 이 연구만의 특수성을 부각해야 한다.
  • "본 연구는 ~를 연구한다" 대신 "본 연구는 ~를 발견했다"와 같이 결과 중심으로 쓰는 것이 국제 표준이다.
  • 약어는 처음 등장할 때 풀어쓰고, 초록 내에서 단독으로 사용된 약어는 본문에서도 다시 정의해야 한다.

학위논문에서는 초록 외에도 국문 요약(영어 논문의 경우)과 영문 요약(국문 논문의 경우)을 병기하는 것이 대부분 대학원의 표준이다.

법률 분야[편집 / 원본 편집]

법률 문서에서는 판결 요지(判決要旨), 법령 적용 요약, 소송 경위 요약 등이 사용된다. 대한민국 법원의 판결문은 수십 페이지에 달하는 경우가 많으며, 실무 활용을 위한 판례집(판례공보, 판례월보 등)에서는 이를 요약한 형태로 제공한다.

대한민국 법원 판결문의 표준 구성:

구성 요소 설명
주문(主文) 판결의 결론. 단 몇 줄로 압축됨. 사실상 가장 강력한 요약
이유(理由) 주문에 이른 법적 근거와 사실 판단. 본문에 해당
판시사항 이 판결에서 법적으로 판단한 핵심 쟁점의 요약
판결요지 판시사항에 대한 법원의 판단을 2~3문장으로 요약
참조조문 적용된 법령 목록

법률 요약에서 특히 주의해야 할 사항:

  • 법률 용어는 임의로 바꾸지 않는다. '손해배상'을 '배상금'으로, '처분'을 '결정'으로 바꾸는 것만으로도 법적 의미가 달라질 수 있다.
  • 사실관계(Facts)와 법적 판단(Legal Holding)을 명확히 구분한다.
  • 판결의 주문(결론)과 방론(Obiter Dictum, 결론 도출에 직접 필요하지 않은 부가적 언급)을 혼동하지 않는다.

의학 분야[편집 / 원본 편집]

의학에서는 임상 요약(Clinical Summary), 환자 경과 요약, 케이스 리포트(Case Report) 등의 형태로 요약이 사용된다. 특히 응급 상황에서의 환자 인수인계(Hand-off)는 생명과 직결되는 매우 중요한 구두 요약 행위이다.

SBAR 기법은 의료 현장에서 표준화된 구두 요약 프레임워크로 널리 사용된다:

구성 영어 원어 내용
S Situation 현재 상황 (환자 이름, 병실, 현재 문제)
B Background 배경 (진단명, 입원 경위, 주요 병력)
A Assessment 평가 (현 상태에 대한 임상적 판단)
R Recommendation 요청/제안 (필요한 조치나 결정 사항)

최근 전자의무기록(EMR) 시스템과 AI의 결합으로 자동 임상 요약 기능이 도입되고 있으며, 특히 장기 입원 환자의 방대한 의무기록을 요약하여 담당의에게 제공하는 기능이 상용화 단계에 있다. 그러나 의료 분야에서의 AI 요약 오류는 심각한 의료 사고로 이어질 수 있으므로, 검증과 책임 소재에 대한 논의가 활발히 진행 중이다.

언론·미디어 분야[편집 / 원본 편집]

뉴스에서의 요약은 리드(Lead) 형식으로 나타난다. 역피라미드 구조(Inverted Pyramid Structure)를 따르는 뉴스 글쓰기는 가장 중요한 정보(6하 원칙: 누가·언제·어디서·무엇을·어떻게·왜)를 첫 단락에 모두 담는다. 이 첫 단락 자체가 기사 전체의 요약 역할을 한다.

역피라미드 구조가 탄생한 배경에 대해서는 전보 통신 시대에 통신 두절에 대비하여 중요한 정보를 먼저 전송하던 관행에서 비롯됐다는 설이 유력하게 거론된다. 현대에는 독자의 짧아진 주의 집중 시간(Attention Span)과 모바일 뉴스 소비 행태에 맞추어 리드의 중요성이 더욱 커졌다.

텔레비전 뉴스에서는 앵커 브리핑이 뉴스 요약의 전형이며, 포털 사이트의 뉴스 섹션에서는 AI가 자동 생성한 요약 문장이 기사 상단에 표시되는 방식이 보편화되었다.

최근 논란이 되는 것은 AI 뉴스 요약의 편향성 문제이다. 동일한 사건을 다룬 기사라도 어떤 측면을 요약에 포함하느냐에 따라 독자의 인식이 크게 달라질 수 있으며, 클릭률을 높이기 위해 자극적인 내용을 우선 배치하는 알고리즘이 요약의 편향을 심화시킬 수 있다는 비판이 제기된다.

교육 분야[편집 / 원본 편집]

교육 현장에서 요약은 학습 전략(Learning Strategy)의 핵심 요소로 다루어진다. 던로스키(Dunlosky) 등의 연구에 따르면, 학습한 내용을 직접 요약해 보는 것(Summarization)은 단순 반복 독서보다 장기 기억 형성에 훨씬 효과적이다.[5] 다만 같은 연구에서 요약의 효과는 자기 테스트(Self-Testing)나 분산 학습(Distributed Practice)보다는 낮은 것으로 평가되었다.

대한민국 교육과정에서 요약 관련 성취 기준의 단계적 발전:

학교급 주요 학습 내용
초등 3~4학년 문단의 중심 문장 찾기, 글의 내용 한 문장으로 말하기
초등 5~6학년 문단 요약하기, 글 전체의 중심 내용 정리하기
중학교 1~3학년 글의 구조를 파악하여 요약하기, 주장과 근거 구분하며 요약하기
고등학교 정보의 신뢰성 평가하며 요약하기, 비판적 읽기와 연계한 요약, 매체 특성을 고려한 요약
대학 학술 텍스트 초록 작성, 문헌 리뷰, 연구 노트 요약

수능 국어 영역에서는 요약 능력이 독서(비문학) 파트 전반에 걸쳐 간접 측정된다. 주제 찾기, 핵심 논거 파악, 내용 일치 확인 등의 문항 유형이 모두 요약 능력과 직결된다.

비즈니스 분야[편집 / 원본 편집]

비즈니스에서는 이그제큐티브 서머리(Executive Summary)가 보고서·기획서·제안서의 표준 구성 요소로 자리 잡았다. 경영진이 전체 보고서를 읽지 않고도 핵심 내용과 의사결정 사항을 파악할 수 있도록 설계되며, 보고서 본문보다 먼저 작성하는 것이 아니라 본문을 완성한 후 마지막에 작성하는 것이 원칙이다.

McKinsey·BCG·Bain 등 주요 컨설팅 펌에서 이그제큐티브 서머리는 다음 요소를 반드시 포함한다:

  1. 핵심 문제(Key Problem Statement)
  2. 분석 방법론 요약(Approach)
  3. 핵심 발견 사항 3~5개(Key Findings)
  4. 권고 사항(Recommendations)
  5. 기대 효과 및 실행 계획 개요(Expected Outcomes & Next Steps)

이른바 BLUF(Bottom Line Up Front) 원칙이 비즈니스 커뮤니케이션의 표준으로 자리 잡으면서, 핵심 결론을 문서의 맨 앞에 배치하는 방식이 군사·기업·공공 분야 전반에 확산되었다. 이는 역피라미드 구조와 동일한 원리다.

정보처리 및 컴퓨터 과학 분야[편집 / 원본 편집]

컴퓨터 과학에서 요약의 개념은 여러 방식으로 확장된다. 데이터베이스의 집계 함수(Aggregate Function, SUM·AVG·COUNT 등)는 대용량 데이터를 수치로 요약하며, 통계학의 기술 통계(Descriptive Statistics)는 데이터 분포를 핵심 지표(평균, 중앙값, 표준편차 등)로 요약한다.

소프트웨어 공학에서는 코드 요약(Code Summarization)이 AI 연구의 한 분야로 발전했다. 소스 코드를 분석하여 자연어 설명을 자동 생성하거나, 반대로 자연어 설명에서 코드를 생성하는 기술이 GitHub Copilot·Claude·Cursor 등에서 상용화되었다.

AI와 자동 요약[편집 / 원본 편집]

개요[편집 / 원본 편집]

자동 요약(Automatic Text Summarization)은 자연어 처리(NLP) 분야의 핵심 과제 중 하나로, 컴퓨터가 자동으로 텍스트를 요약하는 기술을 말한다. 1950년대부터 연구가 시작되었으며, 2010년대 이후 딥러닝의 발전으로 급격한 성능 향상이 이루어졌다.

자동 요약 시스템을 평가하는 핵심 질문은 다음 세 가지이다:

  • 내용 충실성(Content Faithfulness) : 원문의 핵심 내용이 요약에 정확하게 반영되었는가?
  • 사실 정확성(Factual Accuracy) : 요약에 포함된 정보가 사실적으로 정확한가?
  • 가독성(Readability/Fluency) : 요약이 자연스럽고 읽기 쉬운가?

발전 과정[편집 / 원본 편집]

통계 기반 접근 (1950s~2000s)[편집 / 원본 편집]

자동 요약 연구의 시초는 1958년 루hn(Luhn)의 연구로 거슬러 올라간다.[6] 그는 단어 빈도수를 기반으로 문서의 중요 문장을 선별하는 방법을 제안했으며, 이것이 TF(Term Frequency) 기반 추출 요약의 원형이다.

이후 TF-IDF(Term Frequency-Inverse Document Frequency), 문장 위치 가중치, 단어 공출현 그래프 등 통계적 방법이 발전했다. 2004년 미할체아(Mihalcea)와 타라우(Tarau)가 제안한 TextRank[7]는 구글의 PageRank 알고리즘을 텍스트 그래프에 적용하여 외부 데이터 없이도 비지도 방식으로 문장 중요도를 계산하는 방법으로, 현재도 널리 사용되는 고전적 알고리즘이다.

신경망 기반 접근 (2015~2019)[편집 / 원본 편집]

순환신경망(RNN)장단기 기억(LSTM)을 활용한 인코더-디코더 구조가 생성형 요약을 가능하게 했다. 러쉬(Rush) 등이 2015년 제안한 어텐션 기반 요약 모델[8]은 신경망 기반 자동 요약의 출발점이 되었다.

이 시기에 CNN/DailyMail, XSum 등 대규모 요약 데이터셋이 구축되어 모델 학습과 평가의 표준 기반이 마련되었다.

트랜스포머 기반 접근 (2019~현재)[편집 / 원본 편집]

2017년 구글이 제안한 트랜스포머(Transformer) 아키텍처와 2018년 BERT의 등장은 자동 요약을 포함한 NLP 전 분야에 혁명적 변화를 가져왔다.

요약 전용 사전 훈련 모델의 계보:

모델 발표 기관 연도 특징
BERT Google 2018 양방향 인코더. 주로 추출 요약에 활용
GPT-2 OpenAI 2019 단방향 생성 모델. 제로샷 요약 시연
BART Facebook AI 2019 노이즈 제거 자동인코더 방식. 생성 요약에 최적화
T5 Google 2019 모든 NLP 태스크를 텍스트-투-텍스트로 통일
PEGASUS Google 2019 요약 특화 사전 훈련 (Gap Sentence Generation)
GPT-3/4 OpenAI 2020/2023 대형 언어 모델. 퓨샷·제로샷 요약 가능
LLaMA 2/3 Meta 2023/2024 오픈소스 대형 언어 모델
Claude 3/3.5/4 Anthropic 2024/2025 장문 처리 및 고충실 요약에 강점

국내에서는 NAVER의 HyperCLOVA, KAKAO의 KoGPT, SKT의 KoBART 등 한국어 특화 모델이 개발되어 한국어 자동 요약에 활용되고 있다.

평가 지표[편집 / 원본 편집]

자동 요약의 품질은 주로 다음과 같은 지표로 평가한다.

ROUGE[편집 / 원본 편집]

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 자동 요약 분야의 사실상 표준 평가 지표로, 2004년 린(Lin)이 제안했다.[9]

ROUGE 지표 종류
지표 설명
ROUGE-1 단일 단어(unigram) 겹침 비율
ROUGE-2 두 단어 연속(bigram) 겹침 비율
ROUGE-L 최장 공통 부분 수열(Longest Common Subsequence, LCS) 기반
ROUGE-SU Skip-bigram 및 unigram 조합 기반
ROUGE-W 연속 LCS에 가중치를 부여한 버전

ROUGE는 참조 요약(Reference Summary)과의 단어 겹침을 측정하므로, 의미적으로 동일하지만 다른 단어를 사용한 좋은 요약이 낮은 점수를 받을 수 있다는 한계가 있다.

BERTScore[편집 / 원본 편집]

단어 겹침 대신 BERT 임베딩을 활용하여 의미적 유사도를 측정하는 지표로, ROUGE의 한계를 일부 보완한다.[10]

QAEval / FactCC / SummaC[편집 / 원본 편집]

요약의 사실 정확성(Factual Consistency)을 전용으로 평가하는 지표들이다. 생성형 요약의 환각 문제가 부각되면서 이러한 사실 기반 평가의 중요성이 커졌다.

현재 주요 활용 사례[편집 / 원본 편집]

  • NAVER CLOVA Summary : 뉴스 기사 3줄 요약 서비스. 네이버 뉴스 기사에 AI 자동 요약이 적용됨
  • 카카오 뷰(View) : 큐레이션 채널의 콘텐츠 자동 요약 및 추천
  • Notion AI : 문서 작업 시 자동 요약, 회의록 작성 지원
  • Microsoft Copilot : Word 문서 요약, Teams 회의록 자동 요약, Outlook 이메일 스레드 요약
  • Google Workspace Duet AI : Gmail 스레드 요약, Docs 문서 요약
  • YouTube Summary with ChatGPT : 유튜브 영상의 자막을 요약하는 브라우저 확장 프로그램
  • Anthropic Claude : 논문, 계약서, 보고서 등 장문 문서 요약. 최대 수십만 토큰의 컨텍스트 처리 가능
  • 법률 AI 플랫폼(로톡, 엘박스 등) : 판례 요약, 계약서 핵심 조항 추출

한계와 과제[편집 / 원본 편집]

현재 AI 자동 요약의 주요 기술적 한계:

환각(Hallucination) 문제가 가장 심각하다. 원문에 없는 수치, 인명, 날짜, 사실을 생성하는 오류로, 특히 의료·법률·금융 등 사실 정확성이 중요한 분야에서 치명적이다. 이를 해결하기 위해 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기법이 활발히 연구·적용되고 있다.

장문 처리 한계는 컨텍스트 창(Context Window) 제한으로 인해 매우 긴 문서를 한 번에 처리하기 어렵다는 것이다. 수백 페이지짜리 보고서나 법원 판결문을 처리하려면 청킹(Chunking) 기법 등의 우회 방법이 필요하다. 다만 Claude 3.5 이후 버전에서는 수십만 토큰 수준의 컨텍스트가 지원되어 이 문제가 크게 완화되었다.

언어 불균형 문제로, 학습 데이터가 영어에 편중되어 있어 한국어·아랍어·스와힐리어 등 비영어권 언어에서의 성능이 영어 대비 낮다.

도메인 이탈(Domain Shift) 문제는 일반 텍스트로 학습된 모델이 의학·법률·특허 등 전문 분야 텍스트에서 성능이 저하되는 현상이다.

추론 기반 요약 능력도 아직 부족하다. 텍스트에 명시되지 않은 함의나 행간을 파악하여 요약에 반영하는 것은 여전히 인간 수준에 미치지 못한다.

평가 지표의 한계로는 ROUGE 등 자동 평가 지표가 인간의 실제 요약 품질 판단과 괴리가 크다는 점이 꾸준히 지적된다. 이에 인간 평가(Human Evaluation)가 병행되어야 한다는 주장이 많지만, 시간과 비용이 크게 소요된다는 현실적 제약이 있다.

좋은 요약과 나쁜 요약[편집 / 원본 편집]

나쁜 요약의 유형[편집 / 원본 편집]

과잉 요약 (Over-summarization)[편집 / 원본 편집]

핵심 정보까지 삭제되어 원문의 의미가 심각하게 손상된 경우다.

원문: "2024년 대한민국 합계출산율은 0.75명으로, OECD 회원국 중 최저치를 기록했으며, 이는 2023년의 0.72명보다 소폭 상승했으나 인구 유지에 필요한 대체출산율 2.1명의 3분의 1에도 미치지 못하는 수준이다."

나쁜 요약: "한국의 출산율이 낮다."

핵심 수치, 국제 비교, 맥락이 모두 사라져 원문을 읽은 것과 읽지 않은 것의 차이가 없어졌다.

과소 요약 (Under-summarization)[편집 / 원본 편집]

원문과 거의 차이가 없을 정도로 내용이 그대로 남아 있는 경우다. 목표 분량의 80~90%를 그대로 옮겨 적는 경우가 대표적이며, 요약이라는 목적 자체를 달성하지 못한다. 학생들이 독서 감상문을 쓸 때 줄거리를 거의 그대로 옮기는 경우, 보고서 작성 시 원문을 거의 복사하는 경우가 흔한 사례다.

왜곡 요약 (Distorted Summary)[편집 / 원본 편집]

요약자의 주관이 과도하게 개입되어 원문의 의도나 사실관계가 바뀐 경우다.

원문: "연구 결과, A 성분이 암세포 성장을 억제하는 효과가 일부 시험관 실험에서 관찰되었다. 다만 인체 실험은 아직 이루어지지 않았으며, 효과의 크기도 제한적이었다."

왜곡 요약: "A 성분이 암을 치료하는 효과가 입증되었다."

이는 단순한 요약 실수를 넘어, 의도적일 경우 허위 정보 유포나 명예훼손으로 이어질 수 있는 심각한 문제다. 언론에서 기사를 맥락 없이 일부만 인용하는 행위, SNS에서 영상의 일부 클립만 공유하는 행위도 왜곡 요약의 사례로 볼 수 있다.

표면적 요약 (Superficial Summary)[편집 / 원본 편집]

글 전체를 이해하지 못한 채 서론 또는 눈에 띄는 부분만 요약한 경우다. 핵심 주장 대신 배경 정보나 문제 제기 부분만 요약하고, 실제 연구 결과나 결론은 누락되는 경우가 많다. 긴 글을 대충 훑고 요약하려 할 때 자주 발생한다.

비일관적 요약 (Inconsistent Summary)[편집 / 원본 편집]

앞부분과 뒷부분에서 다른 관점·용어·시제를 사용하거나, 원문에서 조심스럽게 제시한 내용을 어떤 부분에서는 단정적으로, 다른 부분에서는 불확실하게 표현하는 등 일관성이 없는 경우다.

좋은 요약의 기준[편집 / 원본 편집]

좋은 요약은 원문을 읽은 사람이 보았을 때 "맞아, 그게 핵심이야"라고 동의할 수 있으며, 동시에 원문을 읽지 않은 사람도 핵심 내용을 파악할 수 있는 요약이다.

요약의 품질을 스스로 점검하는 체크리스트:

점검 항목 예/아니오
원문의 중심 주장이 요약에 명확하게 드러나는가?
중요한 수치, 용어, 고유명사가 정확하게 포함되었는가?
원문에 없는 내용이 추가되지 않았는가?
요약자의 주관적 평가가 과도하게 개입되지 않았는가?
요약만 읽어도 내용이 완결되게 이해되는가?
용어, 시제, 어조가 일관되게 사용되었는가?
분량이 목표치 내에 있는가?
원문의 양태 표현(~일 수 있다, ~경향이 있다)이 유지되었는가?

요약 능력 향상 방법[편집 / 원본 편집]

읽기 전략[편집 / 원본 편집]

SQ3R 기법은 요약을 위한 체계적 읽기 전략의 대표 사례다:

  1. Survey(훑기) : 제목, 소제목, 그림, 요약 박스를 먼저 빠르게 훑어본다
  2. Question(질문) : 소제목을 의문문으로 바꿔 읽기 목적을 설정한다 ("요약의 종류는?" 등)
  3. Read(읽기) : 의문에 답을 찾으며 능동적으로 읽는다
  4. Recite(말하기) : 책을 덮고 읽은 내용을 자신의 말로 설명해본다
  5. Review(검토) : 전체 내용을 돌아보며 빈 부분을 보완한다

이 중 4단계(Recite)가 핵심으로, 이 과정 자체가 구두 요약 훈련이다.

코넬 노트 필기법은 노트를 세 영역으로 나누어 우측에 강의/독서 내용을 적고, 좌측에 핵심어와 질문을 정리하며, 하단에 페이지 전체 내용을 2~3문장으로 요약하는 방법이다. 하단 요약 박스가 요약 능력 훈련의 핵심이다.

쓰기 전략[편집 / 원본 편집]

5W1H 추출법은 모든 텍스트에서 누가(Who), 언제(When), 어디서(Where), 무엇을(What), 왜(Why), 어떻게(How)에 해당하는 요소를 먼저 찾아 정리하는 방법이다. 특히 뉴스 기사, 사건 보고서, 역사 서술 등 서사적 텍스트에 효과적이다.

마인드맵 활용은 중심 개념을 가운데에 놓고 주요 하위 개념들을 방사형으로 연결하여 시각화하는 방법이다. 전체 구조를 파악한 뒤 중심 개념에서 핵심 가지만 남기는 과정이 곧 요약이 된다.

한 문장 요약 연습은 처음에 10문장으로 요약하고, 이를 다시 5문장으로, 다시 3문장으로, 마지막으로 단 1문장으로 압축하는 점진적 압축 훈련이다. 각 단계마다 무엇을 삭제했는지 이유를 설명하게 하면 효과가 배가된다.

비교·대조를 통한 훈련[편집 / 원본 편집]

같은 원문에 대한 여러 사람의 요약을 비교하면, 각자가 '핵심'을 어떻게 다르게 판단했는지를 확인할 수 있다. 이를 통해 선택 편향을 인식하고, 더 객관적이고 포괄적인 요약 능력을 기를 수 있다. 신문 기사의 제목과 리드 문장을 비교하는 연습, AI 요약과 인간 요약을 비교하는 연습도 효과적이다.

저작권과 요약[편집 / 원본 편집]

요약은 법적으로 미묘한 영역에 걸쳐 있다. 저작권 문제는 요약의 방식·목적·분량에 따라 다르게 적용된다.

대한민국 저작권법 제28조는 공표된 저작물을 보도·비평·교육·연구 등 정당한 범위 안에서 공정한 관행에 합치되게 인용할 수 있도록 허용한다. 그러나 요약이 원저작물의 시장 대체 효과를 가져올 정도로 핵심 가치를 고스란히 담는다면 저작권 침해로 볼 수 있다는 해석이 있다.

미국에서는 공정 이용(Fair Use, 17 U.S.C. § 107) 원칙에 따라 다음 네 가지 요소를 종합적으로 판단한다:

  1. 사용의 목적과 성격(상업적 여부, 변형적 사용 여부)
  2. 원저작물의 성격(사실적 저작물 vs. 창작적 저작물)
  3. 사용된 분량과 실질성
  4. 원저작물의 잠재적 시장에 미치는 영향

AI 서비스가 제공하는 자동 요약의 저작권 귀속 문제는 현재 세계 각국에서 활발히 논쟁 중이다. 뉴스 미디어들이 AI 기업을 상대로 저작권 침해 소송을 제기하는 사례가 늘어나고 있으며, 요약이 원문 소비를 대체하여 광고 수익을 감소시킨다는 주장이 핵심 쟁점 중 하나다.

실무적 가이드라인:

  • 요약을 제공할 때 원문 출처를 명시하는 것이 기본 원칙이다.
  • 원문의 창작적 표현을 그대로 가져오면 반드시 인용 부호와 출처를 명시해야 한다.
  • 상업적 목적의 요약 서비스는 원문 저작권자와의 라이선스 계약을 검토해야 한다.

요약의 사회적·철학적 함의[편집 / 원본 편집]

정보 권력으로서의 요약[편집 / 원본 편집]

무엇을 핵심으로 선택하고 무엇을 삭제하느냐는 결코 중립적 행위가 아니다. 언론이 정보를 요약·편집하는 행위는 강력한 의제 설정(Agenda Setting) 기능을 수행한다. 어떤 사실이 요약에 포함되고 어떤 사실이 배제되느냐에 따라 독자의 인식이 전혀 다르게 형성된다.

이는 미디어 리터러시(Media Literacy)의 핵심 주제이기도 하다. 현대 시민은 단순히 요약을 수동적으로 소비하는 것에서 나아가, 그 요약의 선택과 배제의 기준을 비판적으로 질문할 수 있어야 한다. "왜 이것이 선택되었는가?"라는 질문은 요약자의 관점과 이해관계를 드러낸다.

압축과 본질[편집 / 원본 편집]

미니멀리즘 철학에서 불필요한 것을 제거했을 때 본질이 드러난다고 보듯이, 좋은 요약은 오히려 원문보다 대상의 본질에 더 가까울 수 있다는 역설이 존재한다. 에센셜리스트(Essentialist) 관점에서 요약이란 "겉을 걷어내고 핵심에 도달하는 과정"이다.

반면, 이 관점에 대한 반론도 존재한다. 모든 세부 사항은 의미의 일부이며, 요약은 필연적으로 무언가를 잃는다. 헤밍웨이의 "빙산 이론(Iceberg Theory)"처럼, 드러나지 않는 부분이 드러난 부분만큼 중요할 수 있다.

정보 엔트로피와 요약[편집 / 원본 편집]

정보이론(Information Theory)의 관점에서 요약은 정보 엔트로피(Entropy)를 줄이는 과정이다. 섀넌(Shannon)의 정보이론에서 엔트로피는 불확실성 또는 정보량의 척도인데, 요약은 원문의 높은 엔트로피를 낮은 엔트로피로 압축하는 행위로 볼 수 있다. 이 과정에서 어떠한 정보도 잃지 않는 것은 수학적으로 불가능하므로, 요약은 언제나 어느 정도의 손실을 수반한다. 좋은 요약은 이 손실을 최소화하거나, 적어도 가장 덜 중요한 부분에서의 손실로 집중시키는 예술이다.

기억과 요약[편집 / 원본 편집]

인지심리학에서 인간의 기억 자체가 원문 그대로가 아닌 재구성된 요약으로 저장된다는 관점이 있다. 바틀렛(Bartlett)의 연구는 인간이 이야기를 기억할 때 자신의 문화적 배경과 기존 지식(Schema)에 맞게 내용을 변형하여 저장한다는 것을 보여준다.[11] 이 관점에서 요약은 인간의 기억 작동 방식을 외재화한 것이라고도 볼 수 있다.

관련 문서[편집 / 원본 편집]

주석[편집 / 원본 편집]

  1. Van Dijk, T. A., & Kintsch, W. (1983). Strategies of Discourse Comprehension. Academic Press.
  2. Aristotle. Rhetoric, Book III, Chapter 19.
  3. 라틴어로 '꽃을 모은다'는 뜻. 명언집·발췌집·경구집에 해당한다.
  4. Van Dijk, T. A. (1980). Macrostructures. Lawrence Erlbaum.
  5. Dunlosky, J., Rawson, K. A., Marsh, E. J., Nathan, M. J., & Willingham, D. T. (2013). Improving Students' Learning With Effective Learning Techniques. Psychological Science in the Public Interest, 14(1), 4–58.
  6. Luhn, H. P. (1958). The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 2(2), 159–165.
  7. Mihalcea, R., & Tarau, P. (2004). TextRank: Bringing Order into Texts. Proceedings of EMNLP 2004.
  8. Rush, A. M., Chopra, S., & Weston, J. (2015). A Neural Attention Model for Abstractive Sentence Summarization. Proceedings of EMNLP 2015.
  9. Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. Text Summarization Branches Out, pp. 74–81.
  10. Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). BERTScore: Evaluating Text Generation with BERT. ICLR 2020.
  11. Bartlett, F. C. (1932). Remembering: A Study in Experimental and Social Psychology. Cambridge University Press.

최근 바뀜

더 보기