ᲙᲝᲛᲞᲘᲣᲢᲔᲠᲔᲑᲘ

Robots.txt- ის გამოყენებით საძიებო სისტემების ნებართვის გარეშე, თქვენი ფაილების ინდექსირებისთვის

Ავტორი: Peter Berry
ᲨᲔᲥᲛᲜᲘᲡ ᲗᲐᲠᲘᲦᲘ: 12 ᲘᲕᲚᲘᲡᲘ 2021
ᲒᲐᲜᲐᲮᲚᲔᲑᲘᲡ ᲗᲐᲠᲘᲦᲘ: 10 ᲛᲐᲘᲡᲘ 2024
Anonim
How to Add a Robots.txt File
ᲕᲘᲓᲔᲝ: How to Add a Robots.txt File

ᲙᲛᲐᲧᲝᲤᲘᲚᲘ

რონი არის პენსიონერი ინჟინერი და მენეჯერი IBM- სა და სხვა მაღალტექნოლოგიური კომპანიებისთვის. იგი სპეციალიზირებული იყო როგორც ტექნიკის, ასევე პროგრამული უზრუნველყოფის დიზაინში.

როგორც მწერალი, რომელიც სტატიებს წერს ინტერნეტის სხვადასხვა საიტებზე, მსურდა დამეარსებინა ჩემი არქივის ონლაინ არქივი. ეს იქნება საცავი, რომელზეც შემიძლია სხვებს მივცე წვდომა საჭიროებისამებრ. ამის მაგალითი იქნება საავტორო უფლებების დარღვევის (DMCA) საქმეებში საავტორო უფლებების დადგენა. ამავდროულად, თავიდან აცილების მიზნით, რომ დუბლიკატი ფაილები იგივე შინაარსით არ გამოჩნდეს ძიების შედეგებში, მე თავიდან უნდა ავიცილოდე ჩემი არქივის ფაილების ინდექსაცია საძიებო სისტემებში, როგორიცაა Google ან Bing.

მცირე კვლევამ აჩვენა, რომ ა რობოტები. txt ფაილი, მე შემიძლია საძიებო სისტემებს შევატყობინო, რომ მათ არ უნდა მოახდინონ ინდექსირება ჩემს ვებ – გვერდზე. ეს არის მარტივი და მარტივი გამოსავალი, რომელიც აკეთებს ზუსტად იმას, რაც მე მჭირდება. ჩემი robots.txt ფაილის დაყენებისას, მე შეექმნა რამდენიმე საკითხი, რომლებიც არ იყო განხილული ჩემს მიერ წაკითხულ დოკუმენტაციაში, და რომლის გამოც დრო და შეცდომა სჭირდებოდა.


ამიტომ ვფიქრობდი, რომ შეიძლება სასარგებლო აღმოჩნდეს მარტივი სახელმძღვანელო, რომელიც სხვას გადაარჩენს ჩემს მიერ დასახელებულ საკითხებთან ბრძოლას.

რა არის robots.txt?

საძიებო სისტემები იყენებენ პროგრამებს, სახელწოდებით "რობოტები", მთლიანი ინტერნეტის "მოსაზიდად", ონლაინ ფაილების ძიებისას და მონაცემთა ბაზაში დამატებისთვის. მაგალითად, როდესაც მომხმარებელი შედის საძიებო ტერმინში Google- ში, ეს მოთხოვნა ემთხვევა Google- ის მის მიერ გაძევებული ვებსაიტების მონაცემთა ბაზას. სწორედ ამ შიდა მონაცემთა ბაზადან ხდება მომხმარებლისთვის ძიების შედეგების ჩამონათვალი.

Robot.txt ფაილი გამოიყენება არსებითად KEEP OUT ნიშნის დასაყენებლად თქვენს ვებსაიტზე არსებული ფაილებისთვის, რომელთა დანახვა არ გსურთ საძიებო სისტემის რობოტებს. რადგან ამ ფაილებს რობოტი გამოტოვებს, ისინი არ ინდექსირდება საძიებო სისტემის მონაცემთა ბაზაში და არ გამოჩნდება ძიების შედეგებში.

რეპუტაციის მქონე საძიებო სისტემები ყველა აპროგრამებს თავის რობოტებს, რომ მოძებნონ robot.txt ფაილი თითოეულ ვებგვერდზე. თუ ეს ფაილი არსებობს, რობოტი მიჰყვება ინსტრუქციას ნებისმიერი ფაილის ან საქაღალდის შესახებ, რომელსაც რობოტი გამოტოვებს.


(გაითვალისწინეთ, რომ ეს ყველაფერი საძიებო სისტემის მხრიდან ნებაყოფლობითია. Rogue საძიებო სისტემებს შეუძლიათ და უგულებელყონ მითითებები robot.txt- ში. სინამდვილეში, ზოგიერთ ცუდ ბიჭს შეიძლება მართლაც მოზიდონ თქვენი ვებ – გვერდის robot.txt ნაწილები თავიდან აიცილეთ თეორია იმის შესახებ, რომ თუ გსურთ მისი დამალვა, შეიძლება იქ რაღაც არსებობდეს, რომელთა გამოყენებაც შეუძლიათ).

როგორ შევქმნათ robots.txt ფაილი

მე აღვწერ, თუ როგორ დავაყენე ჩემი robots.txt ფაილი, ჩემი კონკრეტული საჭიროების დასაძლევად. შეგიძლიათ წაიკითხოთ robots.txt- ის გამოყენების სხვადასხვა მეთოდების უფრო ზოგადი აღწერა აქ. გაითვალისწინეთ, რომ ამ მეთოდის გამოსაყენებლად უნდა გქონდეთ საკუთარი ვებსაიტი, რომელსაც გააჩნია საკუთარი დომენის სახელი.

თქვენს ფაილებზე წვდომის შეზღუდვის მიზნით robots.txt- ის გამოყენება მხოლოდ მაშინ მუშაობს, თუ თქვენი ვებსაიტი გაქვთ, რომელსაც გააჩნია საკუთარი დომენის სახელი. ეს იმიტომ, რომ robots.txt ფაილი შეიძლება განთავსდეს მხოლოდ თქვენი ვებ – გვერდის ზედა დონის დირექტორიაში და ამ დირექტორიაში ცვლილებების შეტანა მხოლოდ იმ შემთხვევაში შეგიძლიათ, თუ თქვენ ფლობთ საიტს.

მაგალითად, თუ თქვენი ვებ – გვერდი არის


http://www.myownwebsite.com

მაშინ robots.txt ფაილს უნდა ჰქონდეს სახელი

http://www.myownwebsite.com/robots.txt

თუ თქვენს robots.txt ფაილს სხვაგან განათავსებთ საიტზე, ის არ იქნება აღიარებული. მაგალითად, თუ თქვენი robots.txt განათავსებთ საქაღალდეში, სახელწოდებით mygoodstuff,

http://www.myownwebsite.com/mygoodstuff/robots.txt

ან ისეთ ქვე-დომენში, როგორიცაა

http: //www.mygoodstuff/myownwebsite.com/robots.txt

ვებგვერდიანი რობოტები არ აღიარებენ მას და არ გაითვალისწინებენ მის მითითებებს.

ამ შეზღუდვის გამო, ამის გაკეთება არ შეგიძლიათ უფასო WordPress საიტის საშუალებით, როგორიცაა https://myfreewebsite.wordpress.com. შეგიძლიათ ნახოთ robots.txt ფაილი wordpress.com– ზე (https://wordpress.com/robots.txt), მაგრამ მისი შეცვლა შეუძლებელია.

თუ გსურთ ნახოთ wordpress.com robots.txt ფაილი, უბრალოდ შეიყვანეთ https://wordpress.com/robots.txt თქვენი ბრაუზერის URL ველში და დააჭირეთ Enter. თქვენ ნახავთ ფაილის შინაარსს, მაგრამ ვერ შეცვლით მას.

ასევე გაითვალისწინეთ, რომ კაპიტალიზაციას აქვს მნიშვნელობა! ფაილის სახელი უნდა იყოს robots.txt და სხვა არაფერი. ROBOTS.TXT ან Robots.Txt არ იმუშავებს.

რობოტების შინაარსი. Txt ფაილი

აი, როგორი შეიძლება იყოს ტიპიური robots.txt ფაილის შინაარსი:

მომხმარებლის აგენტი: *

აკრძალვა: / საქაღალდე-იგნორირება /

მომხმარებლის აგენტი ტერმინი განსაზღვრავს კონკრეტულ საძიებო სისტემებს, რომლებსაც ეს დირექტივა ეხება. ზემოთ მოყვანილ მაგალითში * ნიშნავს რომ იგი ეხება ყველა საძიებო სისტემას. მაგალითად, თუ გსურთ მხოლოდ თქვენი ინსტრუქციები ვრცელდებოდეს Google- ს, გამოიყენებდით:

მომხმარებლის აგენტი: Google

აკრძალვა: / საქაღალდე-იგნორირება /

ეს შეზღუდავს მხოლოდ Google- ს და არა სხვა საძიებო სისტემებს, თქვენს მიერ ჩამოთვლილ საქაღალდეებში ან ფაილებზე წვდომისა.

აკრძალვა term განსაზღვრავს რომელი საქაღალდეების ან ფაილების ძებნა არ უნდა მოხდეს რობოტის მიერ. ზემოთ მოყვანილ მაგალითში არ მინდა საქაღალდის შინაარსი ეწოდოს საქაღალდე-იგნორირება ინდექსირდება საძიებო სისტემებში. ასე რომ, ჩემი აკრძალვის განაცხადი ვურჩევ ვებგვერდებს, რომ უგულებელყონ შემდეგი URL:

http://www.myownwebsite.com/folder-to-ignore/

შესაძლებელია მრავალი საქაღალდის ან ფაილის დაზუსტება:

მომხმარებლის აგენტი: *

აკრძალვა: / საქაღალდე-იგნორირება /

აკრძალვა: / another-folder /

აკრძალვა: / მესამე საქაღალდე / ქვე საქაღალდე /

აკრძალვა: /some-folder/myfile.html

Robots.txt ფაილის შექმნა

ნებისმიერი ტექსტური რედაქტორი, მაგალითად, NotePad Windows– ში, შეიძლება გამოყენებულ იქნას robot.txt ფაილების შესაქმნელად. გაითვალისწინეთ, რომ თუ დოკუმენტის რედაქტორი, როგორიცაა Microsoft Word, გამოიყენება, გამომავალი უნდა იყოს შენახული .txt ფაილის სახით. წინააღმდეგ შემთხვევაში, ფაილი შეიძლება შეიცავდეს დამალულ კოდებს, რომლებიც გააუქმებს მის შინაარსს.

ტექსტად შენახვის შემდეგ, ფაილი უნდა აიტვირთოს თქვენი ვებსაიტის ზედა დონის კატალოგში. უმეტეს სერვერებზე ეს იქნება public_html საქაღალდე.

ატვირთეთ robots.txt ზუსტად ისე, როგორც ჩვეულებრივ ატვირთავთ ფაილებს საიტზე. უმეტეს შემთხვევაში, ეს მოიცავს FTP პროგრამის გამოყენებას, როგორიცაა უფასო, ღია კოდის FileZilla კლიენტი. დარწმუნდით, რომ ფაილი მოთავსებულია შესაბამის საქაღალდეში.

ვიდეო: როგორ შევქმნათ robots.txt ფაილი

თქვენი robots.txt ფაილის ტესტირება

ძალზე მნიშვნელოვანია თქვენი robots.txt პარამეტრების შესამოწმებლად, რომ დარწმუნდეთ, რომ მუშაობს ისე, როგორც გსურთ. წინააღმდეგ შემთხვევაში, შეიძლება აღმოაჩინოთ, რომ საქაღალდეები, რომლის დაბლოკვაც გსურთ, კვლავ ხელმისაწვდომია მცოცავებისთვის და ნაჩვენებია ძიების შედეგებში. ამის შემდეგ, საძიებო სისტემის მონაცემთა ბაზიდან ამოღებას შეიძლება დასჭირდეს რამდენიმე კვირა ან თვეებიც.

რამდენიმე უფასო robots.txt ტესტერი ხელმისაწვდომია ინტერნეტში. აი ის, რაც გამოვიყენე:

Google's Webmaster Tools robots.txt ტესტერი (საჭიროა Google ანგარიში)

http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php

GOTCHA- ებმა, რომლებმაც მიმიღეს!

Google- მა ვერ ნახა ჩემი robots.txt ფაილი

მე დავაყენე ჩემი robots.txt ფაილი საქაღალდის დაბლოკვისთვის, რომელსაც ეწოდება / YCN არქივი /. მე შევქმენი ეს საქაღალდე ჩემს ვებგვერდზე და გადავამოწმე, რომ მასზე წვდომა მოსალოდნელი იყო.

შემდეგ შევქმენი robots.txt ფაილი შემდეგი შინაარსით:

მომხმარებლის აგენტი: *

აკრძალვა: / YCN არქივი /

ამ ფაილის ჩემს ზედა დონის დირექტორიაში ატვირთვის შემდეგ, მე შეამოწმე ის robots.txt ტესტერის გამოყენებით Google- ის ვებმასტერების ხელსაწყოებში. მიუხედავად იმისა, რომ ზედმიწევნით მივყევი Webmaster Tools- ის ბმულით მოცემულ მითითებებს, მაშინვე შეექმნა პრობლემა. აი, სრულიად მოულოდნელი შეცდომის წერილი, რომელიც მივიღე:

მაგრამ robot.txt იქ იყო! მე ამას ჩემი ვებსაიტის ფაილების ჩამონათვალში ვხედავდი, ზუსტად სადაც უნდა ყოფილიყო. რატომ ვერ ნახა Google- მა? საბოლოოდ ტესტერის გვერდზე ვნახე ისეთი რამ, რაც მანამდე არ შევიმჩნიე.

გასაღები იყო სტრიქონში, სადაც ნათქვამია: ”უახლესი ვერსია ნანახია 7/26/14…” (მე ტესტს ვაკეთებდი 7/26 წლის შემდეგ რამდენიმე დღის შემდეგ). როდესაც ტესტის ინიცირება დავიწყე, როგორც ჩანს, Google არ გამოვიდა და არ დაათვალიერა ვებ – გვერდის მდგომარეობა იმ მომენტში, მაგრამ აშკარად ეყრდნობოდა მის შინაგან სურათს, თუ როგორ გამოიყურებოდა ვებსაიტი ბოლო დროს, როდესაც ის შეეხო მას.

მე მჭირდებოდა Google- ს ჰქონოდა მიმდინარე სურათი, თუ რა იყო ჩემს ვებგვერდზე. მე ეს მომწონს Fetch- ის, როგორც Google ფუნქციის გამოყენებით.

Google Fetch as Google ფუნქციის შესრულების შემდეგ, Google- მა შეძლო robots.txt ფაილის პოვნა.

აქ არის კიდევ ერთი საკითხი, რომლის ფრთხილად უნდა იყოთ. Robots.txt ტესტერში Google- მა ჩამოთვა ჩემი ვებსაიტი ორი განსხვავებული გზით:

myownwebsite.org

http://myownwebsite.org

რა თქმა უნდა, ორივე ჩანაწერი ზუსტად ერთსა და იმავე URL- ს ეხება. მაგრამ მე უნდა გამეკეთებინა Google- ის ინდივიდუალური მონახაზები თითოეული რომ robots.txt ფაილი ამოეცნო. თითოეულზე ასევე გავაკეთე ცალკეული ტესტები, რათა დავრწმუნებულიყავი, რომ ჩემი დაბლოკვის ინსტრუქციები განხორციელდებოდა, არ აქვს მნიშვნელობა რომელი URL გამოიყენებოდა საიტზე შესასვლელად.

ჩემი robots.txt ფაილი არ იმუშავა!

ახლა, როდესაც Google- მა დაინახა ჩემი robots.txt ფაილი, წარმატებაში დარწმუნებული, ტესტი ჩავატარე. ეს ჯერ კიდევ არ მუშაობდა. ამჯერად, ტესტის თანახმად, მიუხედავად იმისა, რომ ჩემი robots.txt ახლა უკვე აღიარებულია, ის ხელს არ უშლის / YCN არქივში / საქაღალდეზე წვდომას. ვებ საქმის საქმის საქაღალდეზე წვდომა კვლავ "ნებადართულია".

აკრძალულ საქაღალდეში ან ფაილის სახელში დაშვებული ადგილები არ არის

ვიცოდი, რომ ჩემი robots.txt სწორად იყო დაყენებული, ასე რომ, ის მაწუხებს, რატომ არ კრძალავს მითითებულ საქაღალდეზე წვდომას. გარკვეული დრო დამჭირდა იმის გარკვევაში, თუ რა ხდებოდა. ჩემს საქაღალდეს სახელი ჰქონდა ადგილი! როდესაც საქაღალდეს დაარქვი ადგილის ამოსაღებად, Google robots.txt ტესტერმა აჩვენა, რომ საქაღალდე დაბლოკილია.

robots.txt აკეთებს საქმეს

მას შემდეგ, რაც მე ჩემი robot.txt დავაყენე, ეს თავის საქმეს ჩუმად და ეფექტურად ასრულებს. ჩემი ფაილები უსაფრთხოდ დაარქივებულია ინტერნეტით და მათზე წვდომა შეუძლია ნებისმიერ მსურველს, ვისაც URL- ს ვაძლევთ. მაგრამ არცერთი მათგანი არ ჩანს საძიებო სისტემის შედეგებში.

ეს სტატია ზუსტი და სარწმუნოა, ვიდრე ავტორის ცოდნაა. შინაარსი განკუთვნილია მხოლოდ ინფორმაციული ან გასართობი მიზნებისათვის და არ ცვლის პირად რჩევას ან პროფესიულ რჩევას ბიზნესში, ფინანსურ, იურიდიულ და ტექნიკურ საკითხებში.

ᲛᲝᲛᲮᲘᲑᲚᲐᲕᲘ

ᲐᲘᲠᲩᲘᲔᲗ ᲐᲓᲛᲘᲜᲘᲡᲢᲠᲐᲪᲘᲐ

150+ პიცის ციტატები და წარწერათა იდეები Instagram- ისთვის
ᲘᲜᲢᲔᲠᲜᲔᲢ

150+ პიცის ციტატები და წარწერათა იდეები Instagram- ისთვის

Cheeky Kid არის კიბერნაუტი, რომელიც დიდ დროს უთმობს ინტერნეტის დათვალიერებას, უსასრულო ინფორმაციის გაცნობას და გართობასა და გართობას....
ის, რაც უნდა იცოდეთ YouTube- ზე გამოქვეყნებამდე
ᲘᲜᲢᲔᲠᲜᲔᲢ

ის, რაც უნდა იცოდეთ YouTube- ზე გამოქვეყნებამდე

Dreamworker მიიჩნევს, რომ ყველა ადამიანი იმსახურებს უფლებას, აითვისოს თავისი სრული პოტენციალი.დიდი ხნის წინ ვიცოდი, რომ YouTube არსებობდა, მაგრამ მას დიდ ყურადღებას არასდროს ვაქცევდი. სინამდვილეში, წა...