개요[편집 / 원본 편집]
llms.txt는 웹사이트 루트 디렉토리에 배치하는 마크다운 형식의 텍스트 파일로, 웹사이트 소유자가 대규모 언어 모델(LLM)에게 자신의 사이트에서 어떤 콘텐츠가 중요한지, 어디에 있는지를 안내하기 위해 만들어진 비공식 표준이다. 파일 이름은 반드시 llms.txt이어야 하며, 도메인 루트(예: https://example.com/llms.txt)에 위치해야 한다.
한 줄로 요약하면 "AI를 위한 robots.txt" 정도로 이해하면 된다. 검색엔진을 위한 robots.txt가 크롤러에게 어떤 페이지를 긁어가도 되는지 알려주는 파일이라면, llms.txt는 ChatGPT, Claude, Perplexity 같은 AI 어시스턴트에게 "우리 사이트에서 이 페이지들이 제일 중요해요"라고 알려주는 파일이다.
2024년 9월 3일, Answer.AI의 공동 창업자이자 fast.ai로 유명한 제레미 하워드(Jeremy Howard)가 처음 제안했으며, 공식 명세는 llmstxt.org에서 관리된다. 현재(2026년 기준)는 W3C, IETF 등의 공식 표준화 기구를 통해 채택된 정식 표준은 아니며, 커뮤니티 주도의 사실상 표준(de facto standard) 수준이다.
llm.txt(복수형 아님), ai.txt, aillms.txt 등은 llms.txt와 다른 파일이므로 주의할 것.]]에서 볼 수 있습니다.등장 배경[편집 / 원본 편집]
AI와 웹의 충돌[편집 / 원본 편집]
현대의 웹사이트는 사람이 보기 좋게 만들어져 있다. HTML, CSS, JavaScript가 뒤엉켜 있고, 광고 배너, 내비게이션 메뉴, 쿠키 동의창, 소셜 공유 버튼, 사이트맵 링크 등 실제 콘텐츠와 무관한 요소들이 페이지의 상당 부분을 차지한다. 사람은 이걸 눈으로 걸러낼 수 있지만, LLM은 그렇지 못하다.
대규모 언어 모델이 특정 웹페이지의 내용을 참고하여 답변을 생성할 때(일명 검색 증강 생성, RAG), 모델은 해당 페이지의 HTML 전체를 읽어야 한다. 이 과정에서 몇 가지 심각한 문제가 발생한다.
- 노이즈 문제 : 실제 필요한 정보가 HTML 태그, 광고, 메뉴, 푸터 등의 쓸모없는 텍스트에 묻혀버린다.
- 컨텍스트 창 낭비 : LLM의 컨텍스트 윈도우(context window)는 유한하다. 쓸모없는 내용으로 공간을 낭비하면 정작 중요한 정보를 담을 공간이 줄어든다.
- 탐색 불가 문제 : 수천 페이지짜리 문서 사이트에서 AI가 어떤 페이지가 중요한지 알 방법이 없다. 사이트맵(sitemap.xml)은 모든 URL을 나열할 뿐, 어떤 페이지가 가장 중요한지 알려주지 않는다.
- JavaScript 렌더링 문제 : SPA(싱글 페이지 애플리케이션) 등 JS로 렌더링되는 콘텐츠는 AI 크롤러가 아예 읽지 못하는 경우가 많다.
기존 표준의 한계[편집 / 원본 편집]
| 파일 | 대상 | 역할 | 한계 |
|---|---|---|---|
robots.txt
|
검색엔진 크롤러 | 크롤링 허용/차단 URL 지정 | 어떤 페이지가 중요한지, 콘텐츠가 무엇인지 설명 불가 |
sitemap.xml
|
검색엔진 | 전체 URL 목록 제공 | 우선순위 정보가 제한적, 콘텐츠 맥락 없음 |
| schema.org | 검색엔진(구조화 데이터) | 페이지 내 구조화 데이터 마크업 | 개별 페이지 단위, 사이트 전체 맥락 제공 불가 |
llms.txt
|
AI 어시스턴트 / LLM | 중요 페이지 큐레이션 + 사이트 설명 | 공식 표준 아님, AI 크롤러 지원 아직 초기 단계 |
제레미 하워드는 이 문제를 인식하고, AI 시대에 맞는 새로운 웹 표준이 필요하다는 결론을 내렸다. 마치 1994년에 마르틴 코스터(Martijn Koster)가 검색엔진 크롤러를 위한 robots.txt를 만들었듯이, AI를 위한 유사한 파일이 필요하다는 것이었다.
제안의 역사[편집 / 원본 편집]
| 날짜 | 사건 |
|---|---|
| 2024년 9월 3일 | 제레미 하워드, llms.txt 표준 최초 제안. llmstxt.org 공개 |
| 2024년 11월 | Mintlify, 호스팅하는 모든 문서 사이트에 llms.txt 자동 생성 기능 롤아웃. 사실상 하룻밤 사이에 Anthropic, Cursor, Coinbase, Pinecone 등 수천 개 사이트가 llms.txt를 갖게 됨 |
| 2024년 말 | Anthropic, Claude 문서에 llms.txt 도입. llms.txt 지원 공식 확인 |
| 2025년 초 | Stripe, Cloudflare, Vercel, Supabase, Zapier, Hugging Face 등 주요 개발자 플랫폼 잇달아 도입 |
| 2025년 7월 | Google의 게리 일스(Gary Illyes), llms.txt를 공식 지원하지 않는다고 확인. 존 뮬러(John Mueller)는 폐기된 키워드 메타 태그에 비유해 논란 |
| 2025년 11월 | SE Ranking, 30만 도메인 분석 결과 발표. llms.txt 보유 여부와 AI 인용 상관관계 측정 불가 판정 |
| 2026년 Q1 | 전체 도메인 기준 약 10% 수준 채택률 기록. 주류 SaaS, 퍼블리싱으로 확대 |
| 2026년 5월 7일 | 크롬 라이트하우스(Lighthouse) 13.3, llms.txt 존재 여부를 감사(audit) 항목에 추가 |
| 2026년 6월 (현재) | 약 844,000개 이상 웹사이트 도입. IDE 에이전트(Cursor, Claude Code 등)에서 실질적 활용 증가세 |
파일 형식 및 문법[편집 / 원본 편집]
기본 구조[편집 / 원본 편집]
llms.txt는 마크다운(Markdown) 형식으로 작성되며, 구조는 다음과 같은 순서를 따른다. 마크다운을 선택한 이유는 LLM이 기본적으로 마크다운을 잘 이해하기 때문이며, 별도의 파서나 스키마 없이도 처리 가능하다.
# 사이트 또는 프로젝트 이름
> 한두 문장의 블록 인용구 형식 요약문. 제3자 시점으로, 에이전트가 읽기 좋게 작성.
선택적 부연 설명 단락. 브랜드명이 모호하거나 카테고리 맥락이 필요한 경우 작성.
## 섹션 이름
- [페이지 제목](https://example.com/page): 해당 페이지에 무엇이 있는지, 에이전트가 왜 이 페이지를 가져가야 하는지 한 문장 설명.
- [다른 페이지](https://example.com/another): 설명.
## 또 다른 섹션
- [페이지 제목](https://example.com/page): 설명.
## Optional
- [우선순위 낮은 페이지](https://example.com/extra): 컨텍스트가 부족할 경우 에이전트가 건너뛰어도 되는 페이지.각 요소 상세 설명[편집 / 원본 편집]
H1 헤더 (필수)[편집 / 원본 편집]
# 사이트명
파일에서 유일하게 필수적인 요소다. 브랜드명 또는 프로젝트명을 그대로 사용한다. H1은 파일 전체에서 딱 하나만 있어야 한다.
블록 인용구 요약 (강력 권장)[편집 / 원본 편집]
> 요약문
한두 문장으로 사이트/프로젝트가 무엇인지, 누구를 위한 것인지 설명한다. 제3자 시점으로 쓰는 것이 좋다("우리 회사는~"보다 "X는 Y를 위한 Z이다" 형태). 에이전트가 URL을 실제로 방문하지 않고도 이 설명만으로 브랜드를 이해할 수 있어야 한다.
부연 설명 단락 (선택)[편집 / 원본 편집]
H1과 블록 인용구 이후에 일반 단락으로 추가 맥락을 제공할 수 있다. 브랜드명이 Stripe, Anthropic처럼 카테고리를 유추하기 어려운 경우에 특히 유용하다. Tesla나 Coca-Cola처럼 누구나 아는 브랜드는 생략해도 된다.
H2 섹션 (선택)[편집 / 원본 편집]
== 섹션명 ==
콘텐츠를 논리적 그룹으로 묶는 역할을 한다. 예를 들어 "Getting Started", "API Reference", "Pricing", "Tutorials" 등. 중요한 점은 내부 문서 구조가 아니라 에이전트가 어떤 질문을 할 때 이 섹션이 필요한가의 관점에서 섹션을 나눠야 한다는 것이다(Anthropic의 경우 문서가 파일 구조로 정리되어 있지 않고 개발자가 어떤 도움이 필요한지를 기준으로 H2를 구성한다).
링크 목록 (선택)[편집 / 원본 편집]
- [페이지 제목](URL): 한 줄 설명
각 링크에는 반드시 한 줄 설명을 붙이는 것이 좋다. 설명은 구체적일수록 좋다. 에이전트는 실제로 URL을 방문하지 않고도 설명만으로 판단해야 하는 경우가 많기 때문이다.
- 나쁜 예:
- [요금제](https://example.com/pricing): 가격 정보 - 좋은 예:
- [요금제](https://example.com/pricing): Starter ($500/월), Growth ($2,000/월), Enterprise (맞춤) 상세 비교
Optional 섹션[편집 / 원본 편집]
## Optional
이 섹션은 특별한 의미를 갖는 예약어이다. 컨텍스트가 부족할 때 에이전트가 건너뛰어도 무방한 보조 자료들을 여기에 넣는다.
실제 예시[편집 / 원본 편집]
Stripe의 llms.txt[편집 / 원본 편집]
# Stripe
> Stripe is a technology company that provides financial infrastructure for
> businesses. Businesses of every size—from new startups to established public
> companies—use Stripe to accept payments online and in person, embed financial
> services, and create custom revenue models.
For complete documentation in a single file, see [Full Documentation](https://stripe.com/llms-full.txt).
## Payments
- [Stripe Payments](https://stripe.com/payments): Accept payments online and
in person globally with a payments solution built for any business.
## Billing
- [Stripe Billing](https://stripe.com/billing): Automate billing and revenue
management.
## Optional
- [Stripe Climate](https://stripe.com/climate): Help businesses contribute to
carbon removal.FastHTML (제레미 하워드의 정석 예시)[편집 / 원본 편집]
# FastHTML
> FastHTML is a python library which brings together Starlette,
> Uvicorn, HTMX, and fastcore's `FT` "FastTags" into a library
> for creating server-rendered hypermedia applications.
## Docs
- [FastHTML quick start](https://docs.fastht.ml/path/quickstart.html.md): A brief overview of many FastHTML features
- [HTMX reference](https://docs.fastht.ml/ref/defining_xt_component.html.md): How to use HTMX with FastHTMLllms.txt와 llms-full.txt[편집 / 원본 편집]
두 파일의 차이[편집 / 원본 편집]
공식 명세는 사실상 두 가지 파일을 정의한다.
| 항목 | llms.txt | llms-full.txt |
|---|---|---|
| 역할 | 내비게이션 가이드 (큐레이션된 링크 목록) | 모든 콘텐츠를 단일 파일로 통합 |
| 크기 | 수백~수천 토큰 (가볍다) | 수만~수백만 토큰 (무겁다) |
| 용도 | AI가 어떤 페이지를 가져갈지 판단하는 인덱스 | AI가 모든 내용을 한 번에 읽을 수 있는 전체 문서 |
| 링크 추종 | 에이전트가 링크를 따라가서 개별 페이지를 읽음 | 링크를 따라갈 필요 없이 이 파일만 읽으면 됨 |
| 실제 용량 예시 | Anthropic: 약 8,364 토큰 | Anthropic: 약 481,349 토큰 |
| Cloudflare 예시 | 일반 크기 | 370만 토큰 (!) |
| 권장 대상 | 모든 사이트 | SaaS, 개발자 도구, API 문서 사이트 |
llms-full.txt 주의사항[편집 / 원본 편집]
llms-full.txt는 강력하지만 양날의 검이다.
- 장점 : 에이전트가 링크를 일일이 방문하지 않아도 전체 내용을 파악 가능. 토큰 효율적인 일괄 수집(bulk ingestion)이 가능.
- 단점 : 경쟁사나 AI 크롤러에게 사이트의 전체 콘텐츠를 한 번에 제공하는 셈. 독점적인 정보나 프리미엄 콘텐츠가 포함될 경우 리스크가 있다.
때문에 전문가들 사이에서는 llms.txt(내비게이션 파일)만 공개하고, llms-full.txt는 신중하게 판단하라는 의견이 많다.
.md 확장자 규칙[편집 / 원본 편집]
Mintlify와 Anthropic이 협력하여 추가된 관련 규칙으로, 기존 URL에 .md를 붙이면 해당 페이지의 마크다운 버전을 반환하는 규칙이 있다. 예를 들어 https://docs.example.com/quickstart.md에 접근하면 HTML이 아닌 마크다운 형식으로 콘텐츠가 반환된다. 이 기능은 llms.txt 링크와 함께 사용하면 AI 에이전트가 더욱 깨끗한 형태로 콘텐츠를 수집할 수 있다.
robots.txt, sitemap.xml과의 관계[편집 / 원본 편집]
상호보완 관계[편집 / 원본 편집]
llms.txt가 등장했다고 해서 기존 파일들을 대체하는 것은 아니다. 세 파일은 서로 다른 역할을 가지며 함께 쓰인다. 도서관에 비유하면:
- robots.txt = "이 서가는 일반인 출입 금지" (접근 제어)
- sitemap.xml = 도서관 전체 도서 목록 (발견성)
- llms.txt = 사서가 추천하는 필독 도서 목록 (큐레이션)
robots.txt와 AI 크롤러[편집 / 원본 편집]
robots.txt는 AI 크롤러를 직접 제어할 수 있는 현실적인 도구다. llms.txt가 "무엇을 읽어주면 좋겠어"라는 긍정적 안내라면, robots.txt는 "여기는 들어오지 마"라는 직접적인 규칙이다. 2026년 기준 주요 AI 크롤러 유저 에이전트(User-Agent)와 역할은 다음과 같다.
| User-Agent | 회사 | 용도 |
|---|---|---|
GPTBot
|
OpenAI | 학습 데이터 수집 |
OAI-SearchBot
|
OpenAI | ChatGPT 검색/인용 인덱싱 |
ChatGPT-User
|
OpenAI | 사용자 요청 시 실시간 페이지 방문 |
ClaudeBot
|
Anthropic | 학습 데이터 수집 |
Claude-SearchBot
|
Anthropic | Claude 검색 결과 인덱싱 |
Claude-User
|
Anthropic | 사용자 요청 시 실시간 페이지 방문 |
PerplexityBot
|
Perplexity | 검색 및 인용 인덱싱 |
Google-Extended
|
Gemini 학습 데이터 수집 | |
Applebot-Extended
|
Apple | Apple Intelligence 관련 |
# OpenAI - 검색 허용, 학습 차단
User-agent: OAI-SearchBot
Allow: /
User-agent: GPTBot
Disallow: /
# Anthropic - 검색 허용, 학습 차단
User-agent: Claude-SearchBot
Allow: /
User-agent: ClaudeBot
Disallow: /주요 도입 사례[편집 / 원본 편집]
얼리 어답터 현황[편집 / 원본 편집]
2026년 현재 llms.txt를 도입한 주요 기업들은 다음과 같다. 대부분이 개발자 도구나 API 문서를 제공하는 테크 기업들이다. 이는 이들의 타겟 사용자인 개발자들이 AI 코딩 어시스턴트를 많이 쓰기 때문에 정확한 문서 인용이 곧 제품 지원의 질과 직결되기 때문이다.
| 기업 | 분야 | llms.txt 규모 | 비고 |
|---|---|---|---|
| Anthropic | AI 회사 | ~8,364 토큰 / llms-full.txt ~481,349 토큰 | Mintlify와 협력하여 파일 구조 표준 정립에 기여 |
| Stripe | 결제 인프라 | 중간 규모 | Optional 섹션에 Stripe Climate 배치, 우선순위 구조 모범 사례 |
| Cloudflare | CDN/네트워크 보안 | 제품별 분리 구성 / llms-full.txt ~370만 토큰 | 제품군별로 분리하여 에이전트가 관련 제품만 선택 가능 |
| Vercel | 클라우드 플랫폼 | llms-full.txt ~40만 단어 | 다중 제품(Next.js, AI SDK 등) 구조화의 모범 사례 |
| Cursor | AI 코드 에디터 | 중간 규모 | IDE 에이전트로서 llms.txt를 직접 읽는 소비자이자 생산자 |
| Mintlify | 문서 플랫폼 | - | 호스팅 사이트 전체에 자동 생성 지원, 표준 보급의 1등 공신 |
| Supabase | 오픈소스 백엔드 | - | - |
| Zapier | 자동화 플랫폼 | - | - |
| Hugging Face | AI 모델 허브 | - | - |
| NVIDIA | 반도체/AI | 기술문서 ~1,259 토큰 / 메인 사이트 ~252,607 토큰 | 기술 문서와 마케팅 사이트 분리 |
| OpenAI | AI 회사 | - | 아이러니하게도 GPTBot 등을 운영하면서 자신의 docs에도 llms.txt 도입 |
| Mastercard | 금융 | - | 금융 업계 내 드문 조기 도입 사례 |
| Microsoft Teams SDK | 개발자 도구 | - | AI 코딩 에이전트 라우팅 레이어로 활용 |
업종별 도입률 (2026년 Q1 기준)[편집 / 원본 편집]
| 업종 | 도입률 |
|---|---|
| 개발자 도구 / AI 기업 | 매우 높음 (60~80%+) |
| 사이버보안 | 높음 |
| 블록체인 / Web3 | 높음 |
| SaaS (개발자 대상) | 높음 (50%+) |
| 주류 SaaS | 중간 (확장 중) |
| 퍼블리싱 / 미디어 | 낮음~중간 |
| 금융 서비스 | 낮음 (10% 미만) |
| 헬스케어 | 낮음 (10% 미만) |
| 법률 | 매우 낮음 |
| 전체 평균 | 약 10~15% |
AI 플랫폼별 지원 현황[편집 / 원본 편집]
지원 현황 요약[편집 / 원본 편집]
llms.txt의 가장 큰 논란은 "실제로 AI가 이걸 읽냐"는 것이다. 솔직히 말하면, 2026년 현재 대부분의 주요 LLM 크롤러는 llms.txt를 의미 있는 수준으로 활용하지 않는다. 그럼에도 불구하고 도입이 늘어나는 이유는 뒤에서 설명한다.
| 플랫폼 | 현황 |
|---|---|
| Anthropic (Claude) | 공식 지원 확인. Claude Desktop, Claude.ai 모두 검색 워크플로우에서 llms.txt 지시사항을 따름. Perplexity와 함께 가장 명확한 지지 입장. |
| Perplexity | 공식 지원 확인. 잘 구성된 llms.txt 사이트에서 인용률 소폭 상승 관찰됨. |
| OpenAI (ChatGPT) | 공식 약속 없음. GPTBot이 가끔 llms.txt를 방문하는 것이 로그에서 관찰됨. OAI-SearchBot은 거의 방문 안 함. |
| Google (Gemini) | 공식 거부. 2025년 7월 Gary Illyes가 지원 계획 없음 확인. John Mueller는 "키워드 메타 태그랑 비슷하다"며 회의적 입장. 단, Google의 A2A(에이전트 간) 프로토콜에 실험적으로 언급됨. |
| Meta (Llama) | 공식 약속 없음. |
| Mistral | 공식 약속 없음. |
| Cursor / Windsurf / Claude Code / GitHub Copilot / Cline / Aider | 적극적으로 활용. IDE 에이전트들이 문서 사이트를 가리킬 때 llms.txt를 먼저 찾아 관련 페이지만 가져오는 방식으로 활용. 실질적 효과가 가장 명확한 영역. |
| MCP(Model Context Protocol) 서버 | llms.txt 기반으로 구축되는 경우 증가 중. |
IDE 에이전트에서의 실질적 활용[편집 / 원본 편집]
대형 LLM 서비스들이 llms.txt를 소홀히 하는 것과 달리, Cursor, Windsurf, Claude Code, GitHub Copilot, Cline, Aider 같은 AI 코딩 에이전트들은 실질적으로 llms.txt를 활용한다. 동작 방식은 다음과 같다:
- 개발자가 에이전트에게 특정 라이브러리나 API를 사용하는 코드 작성 요청
- 에이전트가 해당 라이브러리/서비스의 도메인에서
/llms.txt와/llms-full.txt를 먼저 확인 - llms.txt의 링크 목록을 보고 관련 문서 페이지만 선택적으로 방문
- 필요한 정보만 컨텍스트 창에 넣어 코드 생성
이 덕분에 IDE 에이전트의 컨텍스트 낭비가 줄고, 더 정확한 코드를 생성할 수 있다. Mintlify의 실험 결과, 잘 구조화된 llms.txt가 있는 문서는 에이전트 성능이 64% 더 정확, 39% 더 높은 탐색성, 절반의 토큰 사용, 1.5배 빠른 속도를 보였다.
GEO(생성 엔진 최적화)와의 관계[편집 / 원본 편집]
GEO란?[편집 / 원본 편집]
GEO(Generative Engine Optimization, 생성 엔진 최적화)는 SEO(검색 엔진 최적화)처럼, 이번에는 구글이 아니라 ChatGPT, Claude, Perplexity, Gemini 같은 AI 응답 엔진에서 자신의 브랜드/콘텐츠가 인용되도록 최적화하는 것을 말한다. llms.txt는 GEO의 핵심 도구 중 하나로 등장했다.
AI 트래픽의 급성장[편집 / 원본 편집]
- 어도비(Adobe) 2026년 3월 보고서에 따르면, AI 참조 트래픽(AI가 링크를 제공하여 방문하는 트래픽)은 2026년 Q1에 전년 대비 393% 성장
- AI 참조 트래픽의 전환율이 일반 트래픽 대비 42% 높음 (미국 리테일 기준)
- Yext 조사에 따르면 AI 인용의 86%가 브랜드가 직접 통제하는 소스에서 발생
"llms.txt가 AI 인용에 실제로 효과가 있냐" 논쟁[편집 / 원본 편집]
이 질문에 대한 솔직한 답은 "별로 없다, 하지만 해놓는 게 낫다"이다.
SE Ranking이 2025년 11월 30만 개 도메인을 분석한 결과, llms.txt 보유 여부와 AI 모델에서의 인용 빈도 사이에 측정 가능한 상관관계가 없었다. 구글의 입장도 냉소적이다. 그러나:
- Anthropic과 Perplexity에서는 잘 구성된 llms.txt를 가진 사이트에서 약간의 인용률 향상이 관찰됨
- 콘텐츠가 방대하고 내비게이션이 복잡한 사이트일수록 llms.txt의 큐레이션 효과가 더 크게 나타남
- 구현 비용이 거의 0에 가깝고, 도입해서 손해볼 것이 없음
- IDE 에이전트에서의 실질적 효과는 이미 입증됨
Limy.ai가 5억 1,500만 건의 AI 봇 트래픽 이벤트를 분석한 결과, /llms.txt를 직접 방문한 크롤러는 408건에 불과했다. 통계적으로 무의미한 수준이다. 하지만 이것이 도입하지 말아야 한다는 뜻은 아니다.
구현 방법[편집 / 원본 편집]
수동 작성[편집 / 원본 편집]
마크다운 파일 하나를 만들고 llms.txt라는 이름으로 웹 서버 루트에 업로드하면 끝이다. 일반적으로 1~4시간 내로 완성 가능하다.
작성 순서:
- H1 헤더에 브랜드/사이트명 작성
- 블록 인용구에 한두 문장 요약 작성 (제3자 시점)
- 필요시 부연 설명 단락 추가
- H2 섹션을 나누어 중요 페이지들을 링크 목록으로 정리
- 각 링크마다 구체적인 한 줄 설명 추가
- 우선순위 낮은 페이지는
## Optional섹션에 배치 - 도메인 루트에 업로드 (
/llms.txt)
자동 생성 도구 및 플랫폼 지원[편집 / 원본 편집]
| 도구/플랫폼 | 방법 |
|---|---|
| Mintlify | 모든 호스팅 문서 사이트에 자동 생성. 별도 설정 불필요. |
| Yoast SEO (WordPress) | WordPress 플러그인에서 자동 생성 지원 |
| Webflow | 루트 디렉토리에 직접 업로드 가능 |
| Next.js | 커뮤니티 플러그인 사용 |
| Astro | 빌트인 지원 또는 플러그인 |
| llms.txt 생성기 웹사이트들 | URL 입력 시 AI가 자동으로 llms.txt 초안 생성해주는 서비스들 다수 존재 |
검증 도구[편집 / 원본 편집]
- Chrome Lighthouse 13.3 (2026년 5월 7일 출시): llms.txt 존재 여부를 기술 감사 항목에 추가
- 여러 온라인 llms.txt 검증기(validator) 서비스 존재
- 직접
curl https://yourdomain.com/llms.txt로 확인
모니터링[편집 / 원본 편집]
구현 후 효과를 추적하는 방법들:
- 서버 액세스 로그 :
/llms.txt에 대한 AI 유저 에이전트 히트 추적 (GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot, Google-Extended, Applebot-Extended 등) - 허니팟 링크 : 파일 내에 자동화 에이전트만 방문할 허위 URL을 심어두고 히트 여부 모니터링
- 브랜드 모니터링 도구 : Profound, Goodie, Otterly 등 GEO 특화 도구들이 AI 응답에서 브랜드 언급 모니터링
비판과 반론[편집 / 원본 편집]
회의적 시각[편집 / 원본 편집]
llms.txt에 대한 비판적 시각들을 정리하면 다음과 같다.
- 구글의 냉소적 입장
- 구글의 Gary Illyes와 John Mueller 모두 llms.txt에 부정적이다. 특히 John Mueller의 "키워드 메타 태그와 비슷하다"는 비유는 많이 회자된다. 키워드 메타 태그는 1990년대에 SEO 스팸으로 인해 완전히 폐기된 전례가 있는 태그다. 그의 요지는 "사이트 소유자가 스스로 주장하는 메타데이터를 크롤러가 신뢰할 이유가 없다"는 것.
- 실제 효과 미측정
- SE Ranking의 30만 도메인 대규모 연구에서 llms.txt 보유와 AI 인용 상관관계를 측정하지 못했다. 현 시점에서 "llms.txt로 AI 검색 순위를 올릴 수 있다"는 마케팅 주장은 데이터로 뒷받침되지 않는다.
- 크롤러 무시
- Limy.ai의 5억 건 분석에서 /llms.txt를 실제로 읽은 주요 AI 크롤러는 통계적으로 무의미한 수준이었다.
- 공식 표준 아님
- W3C, IETF, ISO 등 어떤 공식 표준화 기구의 승인도 없는 커뮤니티 관행에 불과하다. 따라서 플랫폼마다 해석이 달라질 수 있다.
옹호 측 반론[편집 / 원본 편집]
- 구현 비용이 거의 0
- 1~4시간 정도면 작성 완료. 해서 손해볼 것이 없고, 향후 AI 플랫폼이 지원하기로 결정했을 때 이미 준비가 되어 있다는 이점이 있다. 오버피팅 없는 헤지(hedge)다.
- IDE 에이전트에서의 실질적 효과
- ChatGPT, Claude 등의 소비자 AI 서비스에서의 효과는 미미하더라도, 개발자들이 사용하는 Cursor, Claude Code 등 IDE 에이전트에서는 명확히 활용되고 있다.
- 2011년의 schema.org
- IndexLab 분석가들은 2011년 초기의 schema.org 구조화 데이터에 비유한다. 당시에도 "구글이 실제로 쓰지 않는다"는 회의론이 있었지만 결국 중요한 표준이 됐다.
- 콘텐츠 큐레이션 강제 효과
- llms.txt를 만드는 과정 자체가 "AI에게 무엇을 보여주고 싶은가"를 명확히 정리하는 계기가 된다. 파일이 읽히지 않더라도 내부 문서 전략 수립에 도움이 된다.
- B2A(Business-to-Agent) 시대 대비
- AI 에이전트가 사람 대신 웹을 탐색하는 B2A 패러다임이 도래하고 있다. llms.txt는 이 흐름에서 에이전트가 사이트를 효율적으로 탐색하도록 돕는 첫 번째 표준이다.
llms-full.txt의 잠재적 리스크[편집 / 원본 편집]
전문가들이 llms-full.txt 공개에 신중해야 한다고 경고하는 이유들:
- 사이트 전체 콘텐츠를 경쟁사에게 한 번에 제공하는 셈
- 유료 프리미엄 콘텐츠가 의도치 않게 노출될 수 있음
- 저작권 콘텐츠의 무단 학습에 활용될 수 있음
미래 전망[편집 / 원본 편집]
표준화 가능성[편집 / 원본 편집]
llms.txt는 커뮤니티 관행으로 시작했지만, IETF RFC나 W3C 표준으로 공식화될 가능성이 논의되고 있다. 공식화가 이루어지면 금융, 헬스케어, 법률 등 컴플라이언스에 민감한 업종의 도입을 크게 촉진할 것으로 보인다. 현재 llmstxt.org 명세는 Anthropic, Perplexity 및 다양한 오픈소스 기여자들의 참여로 커뮤니티 방식으로 관리되고 있다.
유료 크롤링 경제학[편집 / 원본 편집]
Cloudflare가 2025년 중반에 봇 결제 인프라를 발표하며 AI 크롤러가 콘텐츠에 대해 소액 결제를 하는 개념이 등장했다. 이 흐름이 발전하면 llms.txt 파일에 참조 URL들의 가격 메타데이터가 포함되어, 고가치 페이지 접근에 402 Payment Required 핸드셰이크가 이루어지는 시나리오도 상상해볼 수 있다.
서명된 매니페스트 (Signed Manifests)[편집 / 원본 편집]
llms.txt 채택이 늘면서 사이트가 파일 안에 허위 정보를 넣는 유혹도 커진다. 이에 대응하기 위해 검증 가능하고 암호학적으로 서명된 llms.txt 매니페스트에 대한 논의가 진행 중이다.
AI 에이전트 시대와 B2A[편집 / 원본 편집]
Limy.ai는 이 현상을 B2A(Business-to-Agent)로 명명한다. 과거 B2C 기업들이 모바일 앱을 만들어야 했듯이, 2026년대에는 모든 브랜드가 AI 에이전트가 라우팅할 수 있는 인터페이스를 갖춰야 한다는 것이다. llms.txt는 그 첫 번째 공개 B2A 표준으로 기록될 가능성이 높다.
관련 용어 정리[편집 / 원본 편집]
| 용어 | 설명 |
|---|---|
| GEO (Generative Engine Optimization) | 생성 엔진 최적화. ChatGPT, Claude 등의 AI 답변에 자사 콘텐츠가 인용되도록 최적화하는 것. SEO의 AI 버전. |
| AEO (Answer Engine Optimization) | 질문-답변 엔진 최적화. GEO와 유사하거나 상위 개념으로 사용되기도 함. |
| RAG (Retrieval-Augmented Generation) | 검색 증강 생성. LLM이 답변 생성 시 외부 문서를 실시간으로 검색·참조하는 방식. |
| 컨텍스트 창 (Context Window) | LLM이 한 번에 처리할 수 있는 텍스트의 최대 길이. llms.txt는 이 공간을 효율적으로 쓰도록 돕는다. |
| B2A (Business-to-Agent) | 기업이 인간 고객이 아닌 AI 에이전트를 대상으로 서비스를 설계하는 패러다임. |
| AI 크롤러 (AI Crawler) | GPTBot, ClaudeBot 등 AI 학습 또는 검색을 위해 웹을 수집하는 봇. |
| llmstxt.org | llms.txt 공식 명세 사이트. 제레미 하워드가 관리하며 커뮤니티 기여로 운영됨. |
| MCP (Model Context Protocol) | Anthropic이 제안한 AI 모델과 외부 서비스 연결 표준. llms.txt와 함께 사용되는 경우 증가 중. |
| Mintlify | 개발자 문서 플랫폼. llms.txt 대규모 보급의 1등 공신. Anthropic과 협력하여 .md 확장자 규칙을 명세에 기여. |
여담[편집 / 원본 편집]
- llms.txt 파일의 이름은 반드시 복수형인
llms.txt여야 한다.llm.txt로 만들면 표준을 따르지 않는 것이다. 단순해 보이지만 놀랍게도 이 실수를 하는 사람들이 꽤 있다.
- 제레미 하워드가 최초 제안 시 든 비유가 명쾌하다: 복잡한 HTML로 가득 찬 웹사이트를 AI에게 주는 것은 마치 500페이지짜리 매뉴얼을 통째로 건네주는 것과 같고, llms.txt는 그 중에서 핵심만 추린 1페이지 요약본을 먼저 주는 것이다.
- Cloudflare의 llms-full.txt는 370만 토큰에 달한다. Vercel의 llms-full.txt는 "40만 단어짜리 소설"이라고 불리기도 했다. 토큰 비용 생각하면 AI 크롤러 입장에서 이걸 통째로 읽는 건... 꽤 부담스러운 일이다.
- Google이 llms.txt를 지원하지 않겠다고 밝힌 것과는 별개로, Google의 A2A(Agents-to-Agents) 프로토콜 문서에는 llms.txt가 실험적으로 언급되어 있다. "공식 지원은 없지만 그렇다고 무시하는 것도 아닌" 묘한 입장이다.
- 어떤 독일 디지털 에이전시(dev5310)는 2026년 2월 Cloudflare Workers로 정적 llms.txt를 배포하고 JSON-LD 구조화 데이터와 함께 Google Search Console에 제출한 결과, 3일 후 Google AI Mode가 해당 파일을 브랜드 쿼리의 1차 출처로 인용했다는 사례를 보고했다. Google이 공식으로는 지원 안 한다면서 실제로는 참고하고 있다는 증거로 자주 인용된다.
- Cursor, Windsurf 등 AI IDE들이 llms.txt를 열심히 읽는다는 점에서, 아이러니하게도 AI가 AI를 위한 파일을 읽어 AI 답변의 품질을 높이는 구조가 형성된다.
- 파일의 공식 명세가 워낙 간단하다 보니, "명세를 다 읽는 데 5분도 안 걸린다"는 우스갯소리가 있다. 실제로 llmstxt.org의 전체 명세 문서는 정말 짧다.
- BuiltWith 기준 2025년 10월 25일 시점 844,000개 이상 웹사이트가 도입했음에도 불구하고, 어떤 주요 AI 플랫폼도 "우리가 llms.txt를 인용 신호로 사용한다"고 공식 발표를 하지 않은 상황이다. 마치 모두가 파티에는 갔는데 아무도 춤을 추지 않는 상황 같다.