실험: 국내 5대 은행, ChatGPT는 어디를 인용했나

"마이데이터 3자 제공 정책"을 주제로 국내 5대 은행의 공식 웹사이트를 조사하고, 동일한 질문을 ChatGPT·Perplexity·Claude에 입력했습니다. 결과는 명확했습니다. 다섯 은행 중 두 곳만 인용되었습니다.


인용된 두 곳의 공통점

1. 구조화된 정의 블록

"마이데이터란…"으로 시작하는 문장이 페이지 첫 2~3문장 안에 완결되어 있었습니다. 업계 용어는 괄호 안에 풀어 쓰여 있었고, 문장은 짧았습니다. LLM은 이처럼 자기완결적인 정의 문장을 인용 후보로 우선 선택합니다.

2. Schema.org FAQPage 마크업

HTML 소스의 application/ld+json 블록에 FAQPage 스키마가 포함되어 있었습니다. 질문-답변 쌍은 10개, 각 답변은 150자 이내로 끊어져 있었습니다. 구조화 데이터는 모델이 콘텐츠의 의도를 오해 없이 파악하게 해주는 가장 직접적인 신호입니다.

3. 명확한 출처 표기

"금융위원회 고시 2022-XX호에 따르면"처럼 원출처를 문장 안에서 직접 명시했습니다. 출처가 있는 문장은 그렇지 않은 문장보다 모델의 인용 선택 빈도가 현저히 높습니다.


인용되지 않은 세 곳의 공통점

세 은행 모두 충분한 정보를 보유하고 있었습니다. 그러나 다음 세 가지 이유로 모델에 도달하지 못했습니다.

  • PDF 제공: 크롤러가 본문 텍스트를 추출하기 어렵습니다.

  • JavaScript 렌더링 의존: 서버 사이드 렌더링(SSR) 없이 클라이언트에서만 콘텐츠가 생성되면, HTML 소스에 본문이 존재하지 않습니다.

  • 정의의 매몰: 핵심 정의가 긴 안내문 중간에 위치해 있어, 모델이 인용 가능한 단위로 분리하기 어렵습니다.

ChatGPT가 페이지를 인용하려면 세 가지 조건이 순서대로 충족되어야 합니다. 먼저 볼 수 있어야 하고, 다음으로 이해할 수 있어야 하며, 마지막으로 "인용할 만한 조각"으로 판단할 수 있어야 합니다.


체크리스트: 금융 브랜드 인용 가능성 점검 6항목

#

점검 항목

비고

1

주요 용어의 정의가 페이지 상단 2~3문장 안에 완결되는가

자기완결성

2

FAQPage / Article Schema.org 마크업이 존재하는가

구조화 신호

3

SSR 또는 정적 렌더링으로 HTML에 본문이 포함되는가

크롤 가능성

4

숫자·통계 뒤에 출처와 날짜가 명시되는가

근거 신뢰도

5

robots.txt가 GPTBot·ClaudeBot·PerplexityBot을 차단하지 않는가

접근 허용

6

llms.txt 파일이 존재하는가

*(다음 글에서 상세 설명)*

이 6가지 항목만 점검해도 대부분의 금융 브랜드는 "인용 가능한 브랜드"로 전환할 수 있습니다. 기술적 난도는 낮습니다. 진짜 장벽은 조직 내에서 "SEO 말고 GEO를 봐야 한다"는 관점 전환입니다.