Robots.txt 의 특정 URL (wp-admin) 제외하기

콘텐츠

최근 네이버 서치어드바이저에서 드디어 내 블로그 글을 수집하였다.

글이 50 개가 가까워 짐에도 7개의 게시글 만이 네이버에 노출이 되고 있던 상황에서 네이버 고객센터 문의 를 하고 나니 한꺼번에 380 개가 넘는 게시 글이 수집 되었다.

워드프레스 블로그 네이버 서치어드바이저 수집문제 해결

네이버 서치어드바이저 수집문제 발생 이번에 워드프레스 블로그를 운영하면서 네이버 서치어드바이저의 수집문제가 발생 했다. 네이버 서치어드바이저에서 내 포스팅을 수집요청 하면 수집이 되지 않고 수집 보류가 지속적으로 발생. 근데 이 문제가 한달이 되어가는 시점에서도 해결되지 않았다. 하지만… 오늘 어느정도 해결이 된 것으로 보여 이 내용을 정리한다. 네이버 서치어드바이저 수집문제 발생 시 확인 사항 해당 내용은 블로그에 정리해 둔 적이 있으니 참고하여 내 블로그의 상태를 확인해 볼 수 있다. 주소 형식 변경, 사이트맵 및 RSS 재등록, 서치어드바이저 간단체크, robots.txt 검증 등 다양한 접근법 을 통해 먼저 내 블로그 상태를 점검 했고 최종적으로 수집 문제 발생 시 고객센터 문의를 할 수 있어 여러 차례 […]

문제는, 이렇게 수집한 글 내용을 확인해 보니까 wp-admin 과 같은 굳이 가져가지 않았어도 될 내용도 수집이 되었단 것이다. 이건 아무래도 모든 게시글을 수집하게 만든 Robots.txt 수정이 원인이 된 것 같다.

그래서 Robots.txt 를 수정하여 이를 해결해보고자 한다.

Robots.txt 란?

robots.txt는 웹 크롤러 및 기타 웹 로봇들에게 어느 부분을 처리하거나 스캔하지 않아야 하는지를 알리기 위한 웹사이트에서 사용되는 표준이다.

본 파일은 웹사이트의 루트에 위치하며, 웹 크롤러에게 주어진 제한 사항들을 알려준다. 예시로, 웹사이트 주소가 https://example.com일 경우, robots.txt 파일은 https://example.com/robots.txt 에 위치하게 된다.

내 블로그도 https://mntkim.com/robots.txt 에 접속 할 경우 확인이 가능하다.

Robots.txt 내용 분석

Robots.txt 의 내용에서 User-agent 란 웹크롤러 (Bot)의 이름이 들어간다. 구글이라면 Googlebot, Bing은 Bingbot 등이다. *는 모든 Agent에 적용될 규칙이다.

내 블로그 같은 경우는 크롤러에 그냥 모든 URL을 수집할 수 있게 되는 것이다.

여기서 특정 URL을 접근하지 못하게 하려면 추가적으로 Disallow 를 추가하면 된다.

WordPress 에서 Robots.txt 수정하기

내 블로그는 Yoast SEO 가 적용 되어 있다.

구글 서치 콘솔(Google Search Console) 등록하기: 워드프레스(WordPress)

구글 서치 콘솔에 워드 프레스 등록 하기 티스토리 블로그를 운영하던 경험이 있어 워드프레스를 시작하자마자 제가 시도한 것은 글을 하나 쓰고 바로 서치 콘솔에 등록했습니다. 그 이유는 과거 티스토리는 등록을 시도하고 몇일은 지나서야 사이트맵도 등록, URL도 실시간 테스트에서 통과 등 정상적으로 동작했기 때문입니다. 이전글구글 서치 콘솔(Google Search Console) 사이트맵 상태 가져올 수 없음 발생 시 그리고 블로그를 운영한다면 방문자가 유입되어야 글도 쓸맛이 나고 나중엔 수익까지 노려볼 수 있겠죠. 특히 워드프레스는 우리나라의 검색플랫폼 (네이버, 다음 등) 에 우선순위가 밀릴 수 밖에 없을 테니까 구글 검색이 중요해 보였습니다! 👍 그래서 워드프레스를 구글에서 제 블로그 글이 제대로 검색 되도록 하는 첫 단계인 서치 콘솔에 […]

그럼 Robots.txt 를 Yoast SEO 에서 변경 할 수 있다.