فایل robots.txt چیست و چگونه ایجاد میشود؟

در اینکه گوگل از رباتهای فوق العاده پیشرفته و هوشمندی برخوردار است هیچ شکی نیست؛ مطمئنا شما به عنوان یک مشاور سئو کاربلد میدونید که این رباتها هرچقدر هم توانمند و منحصر بفرد باشند باز هم توانایی کاملی در زمینه درک میزان اهمیت محتوا موجود در صفحات وب سایت را نداشته و به کمک ما انسانها برای شناخت و تشخیص هرچه بهتر اینگونه موارد نیازمند هستند. robots.txt در واقع یک فایل دستوری برای رباتهای خزنده گوگل است که در آن ما مجوزهایی را برای خزیدن یا عدم خزیدن آنها در هر کدام از صفحات مورد نظرمان تعیین میکنیم. به عبارت دیگر با ایجاد یک فایل robots.txt و قرار دادن دستوراتی نظیر Allow یا Disallow برای صفحات مورد نظر در این فایل، به رباتهای خزنده میفهمانیم که در کدام یک از صفحات خزیده و از ایندکس کردن کدام صفحات خودداری کنند.
چگونه یک فایل robots.txt ایجاد کنیم؟
اگر شما صاحب یک وب سایت وردپرسی هستید یا صرفا به صورت یک سئوکار روی یک سایت کار میکنید، میتوانید به سادگی یک فایل robots.txt ایجاد کنید. روش آن هم بدین صورت است که ابتدا به پنل مدیریت هاست خود رفته و بر روی File Manager کلیک کنید. سپس به پوشه روت یا همان Public_html رفته و با استفاده از یک نرم افزار ویرایشگر متن یک فایل با نام robots.txt ایجاد کنید. دقت داشته باشید که نام فایل شما حتما باید با حروف کوچک نوشته شود. سپس با آپلود فایل ایجاد شده در مسیر ذکر شده (Public_html) به همین سادگی شما یک فایل robots.txt ایجاد نمودهاید.
علاوه بر استفاده از نرم افزارهای ویرایش متن، با توجه به نوع هاست خود شما میتوانید با استفاده از گزینه +File در هاست سی پنل و گزینه Create New File در هاست دایرکت ادمین، فایل robots.txt را ایجاد نمایید.
دستورات قابل استفاده در فایل robots.txt
در ابتدا و قبل از بیان انواع دستورات قابل ارائه برای رباتهای موتورهای جستجو بهتر است تا با انواع علائم دستوری قابل استفاده در این فایل آشنا شوید:
*: به کلیه رباتها و کاراکترها اشاره دارد.
/: استفاده از / به تنهایی به معنی تمامی آدرسها است.
$: به اتمام مسیر یک URL اشاره دارد.
به غیر از علائم دستوری ذکر شده عبارتهایی نیز وجود دارند که درک مفهوم آنها برای ایجاد یک دستور در فایل robots.txt لازم و ضروری میباشد که این مفاهیم عبارتند از:
User-agent : برای تعیین دسترسی هر نوع از رباتها میبایست نام ربات مورد نظر را همانند مثال زیر در مقابل این عبارت قرار دهید.
User-agent: googlebot
با توجه به علائم دستوری ذکر شده در بالا میتوانید برای خطاب قرار دادن کلیه رباتها از * استفاده کنید.
User-agent: *
Disallow : این دستور تعیین کننده مسیرهای غیر مجاز برای خزندهها است. مثلا اگر نمیخواهید خزندههای گوگل صفحه بلاگ شما را ایندکس کنند میتوانید دستور را اینگونه تنظیم کنید:
User-agent: googlebot
Disallow: /blog
شما میتوانید به هر مقدار که نیاز است از دستور Disallow پس از User-agent استفاده نمایید. به این نکته نیز توجه داشته باشید که خزندهها نسبت به استفاده شما از حروف کوچک یا بزرگ در دستور Disallow حساس هستند و باید عبارات را عینا مشابه آنچه که در URL شما قرار دارند استفاده کنید.
همچنین استفاده از علامت دستوری / در مقابل دستور Disallow به منزله منع رباتهای خزنده مد نظر از خزیدن در کل وب سایت است.
User-agent: googlebot
Disallow: /
Allow: این دستور کاملا برعکس دستور Disallow میباشد. البته این عبارت دستوری یک دستور غیر رسمی به حساب میآید؛ اما اکثر رباتهای معروف از این دستور پیروی میکنند.
به عنوان مثال شما میتوانید ربات عکس گوگل (googlebot-image) را از ایندکس کردن تصاویر منع و در مقابل به ربات ویدیو گوگل (googlebot-video) اجازه دسترسی به تمام ویدیوهای خود را بدهید.
User-agent: googlebot-image
Disallow: /photo
User-agent: googlebot-video
Allow: /video
مجموع تمامی این علائم و عبارات دستوری تشکیل دهنده یک فایل robots.txt میباشد که با استفاده از این علائم و عبارات میتوانید خزندههای موتورهای جستجو را از خزیدن در قسمتهایی از وب سایت منع کرده و یا آنها را ملزم به خزیدن در بخشهایی از سایت خود نمایید.
تنظیم دستور در فایل robots.txt برای سایت های وردپرسی
اگر وب سایت شما جزو وب سایتهای وردپرسی است، برای تنظیم یک دستور بهینه همانند مثال زیر عمل میکنیم:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
این دستور که در اکثر سایتهای وردپرسی از آن استفاده میشود بدین معناست که تمامی رباتها اجازه ورود به مسیر wp-admin و ایندکس آن را ندارند به جز یک بخش که آن هم فایل admin-ajax.php میباشد که در پوشه wp-admin قرار دارد.
در ادامه مطلب تصویری را مشاهده میکنید که در آن لیستی از اسامی رباتهای معروف موتورهای جستجوگر گنجانده شده است.
تست فایل robots.txt
برای اطمینان از ایجاد و ثبت فایل robots.txt در هاست خود میتوانید در دنباله دامنه وب سایت خود عبارت robots.txt را وارد کرده و آن را جستجو کنید. اگر در این فرایند با خطایی روبرو شدید بدین معناست که وب سایت شما فاقد فایل robots.txt میباشد و قطعا یک جای کار را اشتباه رفتهاید.
همچنین برای اطمینان از عملکرد صحیح دستورات تنظیم شده در فایل robots.txt شما میتوانید با مراجعه به این لینک و سپس انتخاب URL خود از بخش Choose a verified property (همانند تصویر زیر) به صفحه تست این فایل هدایت شوید.
در صفحه جدید محتوای فایل robots.txt را مشاهده خواهید کرد. در این مرحله تنها کافیست تا مانند تصویر پایین با وارد کردن URL صفحه مورد نظرتان و انتخاب ربات مربوطه، بر روی دکمه TEST کلیک کنید تا عملکرد دستورات ثبت شده بررسی شود و نتیجه آن به شما اعلام گردد که اگر نتیجه تست مثبت باشد دکمه TEST به ALLOWED سبز رنگ تغییر پیدا میکند.
مطالب زیر را حتما مطالعه کنید
بهینه سازی سایت برای موبایل
نحوه جستجوی پیشرفته در گوگل چگونه است؟
گام به گام تا تدوین استراتژی در سئو
موتور جستجو چیست؟
معرفی ابزارهای تست سرعت سایت
سیمیلار وب چیست؟
2 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
سلام ممنون از مقاله خوبتان
من تست کردم راهنمایی شما رو، هر چی میزنم مینویسه، allowed! این منطقیه؟
چون من از افزونه hide my wordpress استفاده کردم و با اینکه مسیر wp-admin رو تغییر دادم ولی بازم مینویسه allowed.
و اینکه یه سوال؟ استفاده کردن از این افزونه باعث کاهش ایندکس های گوگل میشود؟ چون کمی ایندکسام با مشکل مواجه شده و محصولات جدید ایندکس نمیشوند!
سلام نه اگر قرار که بسته باشه نباید allowed بزنه
بستن برخی از صفحات سایت تاثیری روی کراول باجت نباید داشته باشه اگر درست انجام بشه حتی بهترم میشه