귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!=== AI와 웹의 충돌 === 현대의 웹사이트는 사람이 보기 좋게 만들어져 있다. [[HTML]], [[CSS]], [[JavaScript]]가 뒤엉켜 있고, 광고 배너, 내비게이션 메뉴, 쿠키 동의창, 소셜 공유 버튼, 사이트맵 링크 등 '''실제 콘텐츠와 무관한 요소들'''이 페이지의 상당 부분을 차지한다. 사람은 이걸 눈으로 걸러낼 수 있지만, [[LLM]]은 그렇지 못하다. [[대규모 언어 모델]]이 특정 웹페이지의 내용을 참고하여 답변을 생성할 때(일명 [[RAG|검색 증강 생성, RAG]]), 모델은 해당 페이지의 HTML 전체를 읽어야 한다. 이 과정에서 몇 가지 심각한 문제가 발생한다. # '''노이즈 문제''' : 실제 필요한 정보가 HTML 태그, 광고, 메뉴, 푸터 등의 쓸모없는 텍스트에 묻혀버린다. # '''컨텍스트 창 낭비''' : LLM의 [[컨텍스트 창|컨텍스트 윈도우(context window)]]는 유한하다. 쓸모없는 내용으로 공간을 낭비하면 정작 중요한 정보를 담을 공간이 줄어든다. # '''탐색 불가 문제''' : 수천 페이지짜리 문서 사이트에서 AI가 어떤 페이지가 중요한지 알 방법이 없다. 사이트맵(sitemap.xml)은 모든 URL을 나열할 뿐, 어떤 페이지가 가장 중요한지 알려주지 않는다. # '''JavaScript 렌더링 문제''' : SPA([[싱글 페이지 애플리케이션]]) 등 JS로 렌더링되는 콘텐츠는 AI 크롤러가 아예 읽지 못하는 경우가 많다. 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)