본문 바로가기
📂 검색 & 최적화/SEO

robots.txt와 sitemap.xml – 검색 허용의 문지기들

by d0bby 2025. 8. 4.

SEO를 공부하다 보면 반드시 마주치는 파일이 있다.
바로 robots.txtsitemap.xml이다.

 

이 두 파일은 검색엔진이 내 사이트를 얼마나, 어떻게 크롤링할지 제어하는 역할을 한다.
한마디로, 검색 허용의 입구 관리인 같은 존재다.

 


 

 

1. robots.txt란?

robots.txt는 사이트 최상단 루트 디렉터리에 위치한 텍스트 파일로,
검색 엔진 봇(crawler)에게 어떤 페이지를 크롤링해도 되는지, 하지 말아야 하는지를 알려주는 규칙이다.

 

📁 위치 예시:

https://example.com/robots.txt

 

 

✅ 기본 구조 예시

User-agent: *
Disallow: /admin/
Allow: /
키워드 설명
User-agent 대상이 되는 봇 지정 (*은 모든 봇)
Disallow 크롤링 금지 경로
Allow 크롤링 허용 경로 (선택적)

 

 

✅ 실제 예제 1 – 관리자 페이지 차단

User-agent: *
Disallow: /admin/

→ 모든 봇에게 /admin/ 경로는 접근 금지.

 

 

✅ 실제 예제 2 – 모든 페이지 허용

User-agent: *
Disallow:

→ 아무 것도 막지 않음. 전부 허용.

 

 

❗ 주의: robots.txt는 ‘제안’이지 ‘강제’가 아님

대부분의 검색엔진(구글, 네이버)은 robots.txt를 존중하지만,
크롤링을 완전히 차단하고 싶다면 HTTP 인증이나 noindex 메타태그 등을 함께 사용하는 게 더 확실하다.

 


 

2. sitemap.xml이란?

sitemap.xml은 사이트에 어떤 페이지가 있고, 언제 마지막으로 수정됐는지를 검색엔진에 알려주는 구조화된 파일이다.

크롤러가 사이트 구조를 빠르게 파악하고, 중요한 페이지를 빠짐없이 인덱싱하도록 돕는 역할을 한다.

 

📁 위치 예시:

https://example.com/sitemap.xml

 

 

✅ 기본 구조 예시

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/seo-basics</loc>
    <lastmod>2025-08-04</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

 

 

태그 설명
<loc> 페이지 주소
<lastmod> 마지막 수정일
<changefreq> 변경 빈도 (optional)
<priority> 상대적 우선순위 (optional)

 

 

✅ sitemap 생성 방법

 

  • 정적 사이트: sitemaps.org 참고
  • 동적 생성: CMS나 프레임워크마다 플러그인 존재
    예: Next.js에서는 next-sitemap 사용 가능

 

3. robots.txt에 sitemap 연결하기

 

검색엔진에 sitemap 경로를 알려줄 수 있다.

User-agent: *
Disallow:

Sitemap: https://example.com/sitemap.xml

→ 별도로 서치콘솔에 등록하지 않아도 이 경로를 통해 sitemap을 인식할 수 있음

 


 

4. Google Search Console에 등록하기

 

sitemap.xmlrobots.txt를 설정한 후,
구글 서치 콘솔에서 사이트를 등록하고 사이트맵 제출까지 하면 크롤링 신호를 명확하게 줄 수 있다.

 

 

  • Google Search Console 접속
  • 사이트 소유권 확인
  • 좌측 메뉴 → [사이트맵] → sitemap.xml 경로 입력

 


 

SEO는 콘텐츠만 잘 쓴다고 끝나는 게 아니다.
검색엔진이 내 사이트를 잘 읽을 수 있도록 크롤링 구조를 설계하는 것 또한 개발자의 중요한 역할이다.

 

robots.txt로 불필요한 경로를 막고,
sitemap.xml로 중요한 페이지를 알려주면,
검색 유입의 시작을 한결 더 깔끔하게 만들 수 있다.

 

 

 

 

반응형