Robots.txt 의 특정 URL (wp-admin) 제외하기

최근 네이버 서치어드바이저에서 드디어 내 블로그 글을 수집하였다.

글이 50 개가 가까워 짐에도 7개의 게시글 만이 네이버에 노출이 되고 있던 상황에서 네이버 고객센터 문의 를 하고 나니 한꺼번에 380 개가 넘는 게시 글이 수집 되었다.

문제는, 이렇게 수집한 글 내용을 확인해 보니까 wp-admin 과 같은 굳이 가져가지 않았어도 될 내용도 수집이 되었단 것이다. 이건 아무래도 모든 게시글을 수집하게 만든 Robots.txt 수정이 원인이 된 것 같다.

그래서 Robots.txt 를 수정하여 이를 해결해보고자 한다.

Robots.txt 란?

robots.txt는 웹 크롤러 및 기타 웹 로봇들에게 어느 부분을 처리하거나 스캔하지 않아야 하는지를 알리기 위한 웹사이트에서 사용되는 표준이다.

본 파일은 웹사이트의 루트에 위치하며, 웹 크롤러에게 주어진 제한 사항들을 알려준다. 예시로, 웹사이트 주소가 https://example.com일 경우, robots.txt 파일은 https://example.com/robots.txt 에 위치하게 된다.

내 블로그도 https://mntkim.com/robots.txt 에 접속 할 경우 확인이 가능하다.

Robots.txt 내용 분석

Robots.txt 의 내용에서 User-agent 란 웹크롤러 (Bot)의 이름이 들어간다. 구글이라면 Googlebot, Bing은 Bingbot 등이다. *는 모든 Agent에 적용될 규칙이다.

내 블로그 같은 경우는 크롤러에 그냥 모든 URL을 수집할 수 있게 되는 것이다.

여기서 특정 URL을 접근하지 못하게 하려면 추가적으로 Disallow 를 추가하면 된다.

WordPress 에서 Robots.txt 수정하기

내 블로그는 Yoast SEO 가 적용 되어 있다.

그럼 Robots.txt 를 Yoast SEO 에서 변경 할 수 있다.

1. 워드프레스 관리자 설정 접속

2. 좌측 메뉴 Yoast SEO > Tools 선택

Yoast SEO - 좌측 메뉴 Yoast SEO > Tools 선택

3. File editor 선택

Yoast SEO - File editor 선택

여기서 robots.txt 를 수정할 수 있다.

Yoast SEO - robots.txt 수정 화면

Robots.txt 에서 WordPress 관리자 URL 수집 막기

다음과 같이 Disallow 를 파일에 추가해주면 된다.

Robots.txt - Disallow

네이버 서치어드바이저 에서 확인하기

해당 Robots.txt 를 적용하고 나선 서치어드바이저 에서 확인 할 수 있다.

1. 네이버 서치어드바이저 접속

2. 왼쪽 메뉴 검증 > robots.txt 접속

검증 > robots.txt 메뉴

3. 수집요청 버튼으로 robots.txt 정보 끌고오기

Robots.txt 의 특정 URL (wp-admin) 제외하기

4. robots.txt 검증에 해당 URL이 끌고 와 지는지 검색하기

포스팅 요약

1. 문제 상황 파악

  • 초기 상황: 글 50개 중 7개만 네이버에 노출.
  • 문제 발견: 네이버 서치어드바이저가 블로그 포스팅 수집 시 “수집 보류” 상태 지속.

2. 초기 점검 사항

  • 주소 형식 변경 여부
  • 사이트맵 및 RSS 재등록 여부
  • 서치어드바이저 간단체크 진행
  • robots.txt 파일 검증

3. Robots.txt 파일 소개

  • 정의: 웹 크롤러에게 어떤 부분을 스캔하거나 처리하지 않아야 하는지 지시하는 표준 파일.
  • 위치: 웹사이트 루트 디렉토리 (예: https://example.com/robots.txt)

4. Robots.txt 파일 수정 방법 (워드프레스 기준)

  1. 워드프레스 관리자 페이지 접속
  2. 왼쪽 메뉴에서 Yoast SEO > Tools 선택
  3. File editor 옵션 클릭하여 robots.txt 파일 직접 수정

5. WordPress 관리자 URL 수집 방지 방법

  • robots.txt 파일에 “Disallow” 규칙 추가하여 특정 URL 접근 제한 설정 가능.

6. 네이버 서치어드바이저에서 수정 내용 확인 방법

  1. 네이버 서치어드바이저 로그인
  2. 왼쪽 메뉴에서 “검증 > robots.txt” 접속
  3. “수집요청” 버튼 클릭하여 최신 robots.txt 정보 가져오기
  4. robots.txt 검증에서 해당 URL 정보 확인

주의 사항: 불필요한 내용이 수집 되지 않도록 robots.txt 파일을 정확하게 수정하고 검증할 것을 권장한다

Disallow 와 Noindex Page 간의 차이

페이지의 색인을 막는 방법에는 Disallow 외에도 Noindex 지정으로 Page 의 접근을 막을 수도 있다. Noindex 는 Robots.txt 에 적용하는 방법은 아니고 검색되지 않고자 하는 특정 페이지 HTML 에 메타 태그로 지정하여 사용된다.

둘 다 검색 엔진의 노출을 막기 위해 크롤링, 색인화를 방지 하는 것이지만, Disallow 는 특정 페이지의 ‘크롤링’ 을 막는 것이고 Noindex 는 ‘색인화’ 를 막는 것.

크롤링은 검색 엔진 로봇(크롤러) 가 인터넷을 탐색해 웹 페이지를 찾아 그 내용을 읽는 것이고 색인화는 이후 검색 엔진의 DB에 저장되는 과정이다.

즉, Disallow 를 사용하면 크롤러가 해당 페이지를 접근하지 않게 되지만, 가령 수동으로 색인 하는 것을 막을 순 없게 된다.

Noindex 는 색인화가 되지 않아 검색엔진엔 노출되지 않아도 지속적으로 크롤러가 접근할 수 있다.

그래서 내 생각엔 둘 다 되지 않기 원한다면 두 가지 방법 모두 사용해야 할 것.

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
목차
위로 스크롤