구글 서치 콘솔 색인 생성 요청 시 가끔 페이지 가져오기가 실패 했고 ‘Robots.txt를 찾을 수 없음’ 메세지를 출력 합니다.
만약 다음과 같이 서치 콘솔 등록, sitemap.xml을 정상적으로 등록 했다면 다음과 같은 방법으로 이를 점검해 볼 수 있습니다. 콘솔 등록과 sitemap 설정은 다음 게시글을 참고해 주세요.
이전글
구글 서치 콘솔(Google Search Console) 등록하기: 워드프레스(WordPress)
콘텐츠
Robots.txt 란?
Robots.txt는 이름에서도 알 수 있는 것처럼 웹 크롤러와 같은 봇의 활동을 관리하는 파일 입니다.
구글 서치 콘솔에선 저희 블로거들의 URL을 자동으로 수집할 때 이를 어떤식으로 가져오고 차단하는 등 여러가지 크롤링에 관련된 내용이 적혀 있는 파일 입니다.
만약 운영중인 블로그가 티스토리 라면 https://블로그주소/robots.txt 에 접속해 보세요.
구글 서치 콘솔 크롤링 통계 확인
설정에 들어가시면 지금까지 서치 콘솔이 크롤링 한 보고서를 확인할 수 있습니다. 크롤링 도중 문제가 발생 한 부분도 확인 할 수 있습니다.
문제가 발생 했다면 다음과 같이 ‘지난주 호스트에 문제가 있었음’ 등이 표시 되기도 합니다.
들어가서 확인해 보니 robots.txt 가져오기에 문제가 있었다 표시되고 있습니다.
해당 화면에서 발생한 문제들은 하이퍼 링크가 연결 되어 있는 자세히 알아보기를 통해 확인 해 볼 수 있습니다.
robots.txt 가져오기 오류 확인
자세히 알아보기에 접속해서 조금 내려 보시면 호스트 상태 세부정보란 소제목 밑에 robots.txt 가져오기에 관한 자세한 내용을 알아 볼 수 있습니다.
해당 페이지엔 robots.txt 와 관련된 여러 내용이 나옵니다.
설명에 의하면 사이트엔 반드시 robots.txt 파일이 없어도 되지만 요청 시엔 성공적인 응답을 반환 해야 되는데 이를 못했다는 내용으로 보이네요.
어쨌든, 관련 문제가 정리 되어 있는 페이지에서 하나의 페이지를 발견 하였는데 바로 Robots.txt 테스터 입니다.
Robots.txt 테스터
Robots.txt 테스터에 접속하니 속성 선택이 보입니다. 저는 티스토리, 워드프레스 두 블로그가 등록 되어 있어 그런가 봅니다. 문제가 생겼던 티스토리 속성을 선택 했습니다.
속성을 선택하면 가져온 robots.txt 관련 내용이 나옵니다.
정상적으로 처리되지 않고 있으면 이곳에서 내용을 수정하고 제출이 가능하고 내 URL을 입력해 블로그 주소가 봇에게 차단 되고 있는지도 테스트 가능 합니다.
해당 페이지에서 여러가지 테스트를 진행해 봅니다.
마무리
이처럼 구글 서치 콘솔에서 Robots.txt 관련 내용을 알아보고 정리해 보았습니다.
이런 저런 확인을 했는데도 문제가 딱히 해결되지 않아 보인다면 서치 콘솔의 최고 진리 인내심을 가지고 기다려 본 후 나중에 다시 시도해 보도록 합시다 🥹