Sửa lỗi url bị chặn và cách khắc phục nhanh chóng, url bị chặn trên facebook

Hôm nay bản thân thấy khá đa số chúng ta mới chế tạo website và khi submit sitemap lên google thì chạm mặt lỗi Url bị số lượng giới hạn bởi roboot.txt. Lỗi này thực ra rất dễ dàng khắc phục, lỗi xảy ra tại sao chủ yêu là do file robots.txt của chúng ta bị sai cấu trúc. Lí giải này áp dụng cho website áp dụng mã nguồn WordPress nhé. Những website sử dụng mã nguồn khác thì nó vẫn khác nghỉ ngơi dòng Disallow.Bạn đã xem: Sửa lỗi url bị chặn


*

Trước tiên chúng ta cùng tìm hiểu về khái niệm Robots.txt:

Robots.txt xuất xắc The robots exclusion protocol (REP) là một file text mà bạn quản trị web tạo nên để trả lời robot (bọ tìm kiếm của biện pháp tìm kiếm) làm cầm cố nào để tích lũy dữ liệu cùng index các post/pages trên trang web của họ. Nó là 1 trong những nhóm những tiêu chuẩn chỉnh web để kiểm soát và điều chỉnh hành vi Robot Web cùng lập chỉ mục cho nguyên tắc tìm kiếm. REP bao hàm những điều sau đây:

REP mở ra năm 1994, trở nên thịnh hành hơn năm 1997, dùng để xác định chỉ thị thu thập thông tin đến robots.txt. Một số công nạm tìm kiếm cung ứng phần mở rộng như mô hình URI (thẻ wild).Từ năm 1996, REP được mở rộng để xác minh các chỉ thị chỉ mục (REP tags) nhằm sử dụng trong số yếu tố meta robot, nói một cách khác là “robot meta tag.” khi đó, vẻ ngoài tìm kiếm hỗ trợ thêm thẻ REP với một Tag-X-Robots. Người quản trị web rất có thể sử dụng REP tag trong tiêu đề HTTP của các nguồn tài nguyên chưa hẳn HTML như tài liệu PDF hoặc hình ảnh.Từ năm 2005, phiên phiên bản Microformat rel-nofollow để khẳng định xem nguyên lý tìm kiếm phải xử lý rứa nào với những liên kết tất cả thuộc tính REL của một phần tử cất giá trị “nofollow.”

Những cũ pháp thường dùng trong tệp tin robots.txt

User-agent: Đối tượng bot được chấp nhậnDisallow/Allow: URL ao ước chặn/cho phép

" * "Đại diện mang lại tất cả

Ví dụ: User-agent: * (Có nghĩa là đồng ý tất cả những loại bot.)

Khóa toàn cục siteDisallow: /

Chặn 1 thư mục và đông đảo thứ nằm trong nóDisallow: /wp-admin/

Chặn 1 trangDisallow: /private_file.html

Loại vứt 1 hình từ bỏ Google ImagesUser-agent: Googlebot-ImageDisallow: /images/test.jpg

Bỏ tất cả các hình trường đoản cú Google Images:User-agent: Googlebot-ImageDisallow: /

Chặn 1 tệp tin hình bất kỳ, lấy ví dụ như .gifUser-agent: GooglebotDisallow: /*.gif$

Những điều cần tránh trong file robots.txt

– minh bạch chữ hoa chữ thường.

Bạn đang xem: Sửa lỗi url bị chặn và cách khắc phục nhanh chóng, url bị chặn trên facebook

– ko được viết dư, thiếu khoảng tầm trắng.

– từng một câu lệnh yêu cầu viết trên 1 dòng.

Xem thêm:

Cách tạo nên và vị trí đặt file robots.txt

– cần sử dụng notepad sản xuất file, kế tiếp đổi tên file là robots.txt.

– Đặt làm việc thư mục cội của website. (http://domain.com/robots.txt)


*

Như vậy qua các khái niệm và cấu trúc ở trên thì chúng ta đã biết mình không nên ở nơi nào và tầm đặc biệt quan trọng của file robots.txt. Hiện giờ mình sẽ lý giải sửa lỗi Url bị số lượng giới hạn bởi roboot.txt.

Các chúng ta mở tệp tin robots.txt lên với thay cục bộ code trong các số đó bằng đoạn mã sau:

User-agent: *Disallow: /wp-admin/Disallow: /wp-includes/Disallow: /search?q=*Disallow: *?replytocomDisallow: */attachment/*Sitemap: http://domain.com/sitemap_index.xmlSau đó các bạn thay http://domain.com/sitemap_index.xml bằng links tới tệp tin sitemap của bạn. Kế tiếp save lại là xong.Chúc chúng ta thành công!