سئو و بهینه سازی سایت

فایل Robots.txt چیه و چیجوری میشه اونو ساخت؟

۶ اردیبهشت ۱۳۹۶

اگه مقالات قدیمی سئوی وبلاگ نوین رو خونده باشین، به احتمال زیاد متوجه مفهومی به نام فایل robots.txt شدین. در همون مقالات، خیلی از شما عزیزان از ما سوال کردین که این فایل robots.txt چیه و چیجوری میشه اونو ساخت؟ یا وجود فایل robots.txt واسه سئوی سایت لازمه؟

به دلیل همین سوالات، عزممونو جزم کردیم که در این مقاله به شما توضیح بدیم که اصلاً فایل robots.txt چیه و به چه دلیل باید ازش استفاده کرد. پس اگه مشتاقید در این باره اطلاعات بیشتری به دست بیارین، پیشنهاد می کنم این مقاله رو تا انتها بخونین.

همونطور که میدونیم موتورهای جستجوگر (گوگل، یاهو و بینگ که صد البته میدونیم گوگل از همه مهم تره) جهت پیدا کردن و ایندکس کردن صفحات وب سایتا از رباتای جور واجور استفاده می کنن. رباتای موتورهای جستجوگر (که با اسمای Crawler یا Spider هم شناخته می شن) با خزیدن در صفحات وب، اطلاعات مربوط به صفحات جور واجور رو به دست آورده و واسه موتور جستجو ارسال می کنن.

شاید سوال کنین که Crawlerهای موتور جستجوگر هر چند وقت یه بار به سایت شما سر میزنن؟ ، باید گفت که این به تعداد بروزرسانی سایت شما رابطه مستقیم داره. هر چی در طول روز تعداد بیشتری مطلب در سایت تون قرار بگیره، رباتای جستجوگر دفعات بیشتری به سایت شما مراجعه می کنن (پیشنهاد می کنم مقاله موتورهای جستجو چیجوری کار می کنن رو بخونین).

با همه این اوصاف، تموم صفحات یه سایت از درجه اهمیت و امنیت برابری بهره مند نیستن. مثلا بیشتر وب مسترها علاقه ای ندارن تا پنل مدیریت سایت شون در موتورهای جستجوگر ایندکس شه و در اختیار عموم قرار بگیره یا اینکه بعضی از صفحات سایت شون محتوای قابل قبولی نداره و به خاطر همین بهتر می دونن اون صفحات، تا تکمیل پایانی در موتورهای جستجو ثبت نشن. در اینجور شرایطی تکلیف چیه؟ چیجوری میشه از ورود رباتای جستجوگر به این صفحات جلوگیری کرد؟

دقیقاً در همین نقطه س که فایل robots.txt واسه کمک وارد می شه.

فایل Robots.txt چیه؟

فایل robots.txt یا robots exclusion standard (که در ویکیپدیا، استاندارد استثنا کردن ربات ها ترجمه شده)، فایل متنی با فرمت txtه که وب مسترها بوسیله اون می تونن چگونگی خزیده شدن و ایندکس شدن سایت شون توسط رباتای موتور جستجوگر رو تعیین کنن.

به طور خلاصه، با به کار گیری فایل robots.txt می تونین رفتار Crawlerهای موتور جستجو در قبال سایت خود رو مشخص کنین و به اونا بگید کدوم قسمت از صفحات سایت تون رو نباید جستجو و ایندکس کنن.

با این حال، نگفته نمونه که همه رباتا از این دستورات پیروی نمی کنن. مثلا رباتای Email Harvesters و Spambots Malware یا رباتایی که امنیت سایت شما رو بررسی می کنن، ممکنه اصلاً از این دستورات پیروی نکنن و حتی کار خود رو از بخشایی از سایت شروع کنن که اجازه دسترسی بهشون رو ندارن.

به هر حال، روشی در بهینه سازی سایت هست که زمان بر یا سخت نیستن و به کار گیری فایل robots.txt یکی از اوناس.

واسه اینکه از قدرت فایل robots.txt واسه سئوی سایت خود استفاده کنین، احتیاجی به تخصص در کدنویسی ندارین. اگه می تونین منبع کدهای سایت خود رو پیدا کنین، مطمئن باشین می تونین از این فایل استفاده کنین.

در ادامه روش ساخت فایل robots.txt رو به شما آموزش می دیم.

آشنایی با دستورات فایل robots.txt و معانی شون

فایل robots.txt سایت شما از دو دستور کلی پیروی می کنه که واسه ربات گوگل (GoogleBot) یه دستور دیگه هم اضافه می شه.

با به کار گیری این دو دستور، شما می تونین قوانین مختلفی رو جهت دسترسی رباتای خزنده موتورهای جستجوگر واسه ورود به سایت تون وضع کنین. این قوانین عبارتند از:

User-agent

از این دستور واسه هدفگیری یه ربات خاص استفاده می شه. از این دستور میشه به دو شکل در فایل robots.txt استفاده کرد.

اگه می خواین به تموم رباتای خزنده یه دستور رو بدین، فقط کافیه بعد از عبارت User-agent از علامت "*" استفاده کنین. مانند زیر:
User-agent: *
دستور بالا به این معنیه که "دستورات فایل، واسه همه رباتای جستجوگر برابر عمل می کنه".

اما اگه می خواین فقط به یه ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی رو بدین، دستور شما باید به شکل زیر نوشته شه:
User-agent: Googlebot
کد بالا به این معنیه که "اجرای دستورات فایل، فقط واسه ربات گوگل الزامیه".

Disallow

دستور Disallow به رباتا میگه که چه فولدرهایی از سایت شما رو نباید بررسی کنن. درواقع این دستور، نشون دهنده URL های از سایته که می خواین از رباتای جستجو مخفی بمونه.

مثلا اگه نمی خواین موتورهای جستجو، تصاویر سایت تون رو ایندکس کنن، می تونین تموم تصاویر سایت رو درون یه پوشه در هاستینگ خود بذارین و از دسترس موتورهای جستجو خارج کنین.

فرض کنیم که تموم این تصاویر رو به درون فولدر "Photos" منتقل کردین. واسه اینکه به موتورهای جستجو بگید که این تصاویر رو ایندکس نکنه، باید دستوری مانند زیر رو بنویسین:
User-agent: *
Disallow: /photos

دو خط کدنویسی فوق در فایل robots.txt، به هیچ کدوم از رباتای جستجوگر اجازه ورود به فولدر تصاویر سایت تون رو نمی ده. در کد دستوری بالا،  قسمت “User-agent: *” میگه که اجرای این دستور واسه همه رباتای جستجو الزامیه. قسمت "Disallow: /photos" نشون دهنده اینه که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت رو نداره.

Allow

همونطور که میدونیم ربات خزنده و ایندکس کنندۀ گوگل، Googlebot اسمشه. این ربات نسبت به بقیه رباتای جستجوگر، دستورات بیشتری رو متوجه می شه. علاوه بر دستورات "User-agent" و "Disallow"، ربات گوگل دستور دیگری به نام "Allow" رو هم درک می کنه.

دستور Allow به شما امکان میده تا به ربات گوگل بگید که اجازه مشاهده یه فایل، در فولدری که Disallowed شده رو داره. واسه درک بهتر این دستور، اجازه بدین که از مثال قبلی استفاده کنیم، بهتر نیس؟

در مثال قبل رشته کدی رو نوشتیم که به رباتای جستجو، اجازه دسترسی به تصاویر سایت رو نمی داد. تموم تصاویر سایت رو درون یه پوشه به نام Photos قرار دادیم و با دستور زیر یه فایل robots.txt ساختیم:
User-agent: *
Disallow: /photos

حال تصور کنین درون این پوشه ما که در هاستینگ سایت قرار داره، تصویری به نام novin.jpg هست که می خوایم Googlebot اونو ایندکس کنه. با به کار گیری دستور Allow می تونیم به ربات گوگل بگیم که این کار رو بکنه:
User-agent: *
Disallow: /photos
Allow: /photos/novin.jpg

این دستور به ربات گوگل میگه که اجازه مشاهده و ایندکسِ فایل novin.jpg رو داره، بر خلاف اینکه فولدر Photos از دسترس رباتا خارج شده.

یه فایل Robots.txt باید شامل چی باشه؟

محتوای یه فایل robots.txt به کارکرد کلی سایت شما و سئوی اون بستگی داره. کلا تموم فایلای robots.txt یکی از این ۳ نتیجه رو به دنبال دارن:

  • اجازه ایندکس کامل یا Full Allow: در این نوع فایل، اجازه ایندکس تموم محتوای سایت به ربات داده می شه (البته ممکنه که ۱۰۰% سایت ایندکس نشه).
  • نبود اجازه به ربات واسه ایندکس سایت یا Full Disallow: در این نوع فایل، اجازه ایندکس هیچ کدوم از محتوای سایت به ربات داده نمی شه (بازم ۱۰۰% نیس و امکان ایندکس یک یا چند صفحه هست).
  • اجازه شرطی یا Conditional Allow: در این نوع فایل، دستورات موجود در فایل txt مشخص می کنه که کدوم یکی از صفحات نباید ایندکس شن.

آشنایی با دستورات فایل robots.txt

، بیایید هر کدوم از موارد رو با هم بررسی کنیم.

Full Allow یا اجازه ایندکس کامل

بیشتر افراد میخوان که رباتا تموم محتوا سایت شون رو بررسی و ایندکس کنه. اگه شمام جزو این افراد هستین و می خواین تموم سایت تون ایندکس شه، با سه روش می تونین از رباتا بخواین این کار رو براتون بکنن:

۱٫ از فایل robots.txt استفاده نکنین

اگه وب‎سایت تون فایل robots.txt نداره، اینجور اتفاقی اتفاق می افته:

یه ربات خزنده مانند Googlebot وارد سایت شما می شه. به دنبال فایل robots.txt می شه. فایل دلخواه رو پیدا نمی کنه (چون وجود نداره!). بعد، ربات جستجوگر احساس آزادی می کنه و تموم صفحات سایت شما رو جهت ایندکس کردن، مشاهده می کنه. تعجب نکنین! چون این ربات دقیقاً واسه اینجور کاری طراحی شده.

۲٫ یه فایل خالی بسازین و اسمش رو به robots.txt تغییر بدین

اگه سایت شما یه فایل robots.txt داره که درون اون هیچ محتوایی وجود نداره، اینجور اتفاقی اتفاق می افته:

یه ربات خزنده مانند Googlebot وارد سایت شما می شه. به دنبال فایل robots.txt می شه. اونو پیدا کرده و می خواند، اما درون فایل دستوری واسه خوندن وجود نداره. پس، ربات جستجوگر احساس آزادی می کنه و تموم صفحات سایت شما رو جهت ایندکس کردن مشاهده می کنه.

۳٫ یه فایل robots.txt واقعی بسازین

یه فایل txt بسازیر و دو خط کد زیر رو در اون وارد کنین:
User-agent: *
Disallow:

اگه فایل robots.txt شما شامل دستورات باشه، اینجور اتفاقی اتفاق می افته:

یه ربات خزنده مانند Googlebot وارد سایت شما می شه. به دنبال فایل robots.txt می شه. اونو پیدا می کنه. خط اول رو می خواند. بعد، خط دوم رو می خواند. بعد، ربات جستجوگر احساس آزادی می کنه و تموم صفحات سایت شما رو جهت ایندکس کردن مشاهده می کنه چون خودتون از اون خواستین این کار رو بکنه! (توضیحات معرفی دستورات رو به یاد دارین؟)

Full Disallow یا نبود اجازه واسه ایندکس سایت

توجه: به کار گیری این کدها به این معنیه که سایت شما توسط هیچ کدوم از موتورهای جستجو ایندکس نمی شه. پس با وارد کردن این دستورات سایت شما در یافته های جستجو، نمیشه دید.

واسه اینکه رباتای خزنده موتورهای جستجوگر معروف رو به داخل سایت خود راه ندین، فقط کافیه دستور زیر رو در فایل robots.txt وارد کنین:
User-agent: *
Disallow: /

مطمئناً به کار گیری این دستور، اصلا به سود سئوی سایت شما نیس چون هیچ کدوم از صفحات سایت تون ایندکس نمیشه.

به چه دلیل به کار گیری فایل robots.txt مهمه؟

فرض کنین که ربات خزنده یه موتور جستجو می خواد از سایت شما دیدن کنه. این ربات قبل اینکه وارد سایت شما شه، جهت دریافت دستورالعمل فایل robots.txt شما رو بررسی می کنه.

همونطور که در بالا اشاره کردیم، به کار گیری فایل robots.txt به سه دلیل استفاده می شه. بذارین اهمیت به کار گیری این فایل رو با مثال براتون توضیح بدیم.

، فرض کنیم که ربات موتور جستجو وارد سایت شما شده و با یه فایل robots.txt که شامل کدهای زیره مواجه می شه:
User-agent: *
Disallow: /

واقعا، این کد استخون بندی اصلی یه فایل robots.txtه. همونطور که قبل تر گفتیم، علامت "*" پس از دستور User-agent به معنی اینه که تموم رباتا امکان مشاهده فایل robots.txt رو دارن. هم اینکه، علامت مورب "/" پس از دستور Disallow به رباتا میگه که هیچ کدوم از صفحات سایت نبینن.

، شاید تعجب کنین به چه دلیل کسی می خواد از ورود رباتای جستجو به وب سایتش جلوگیری کنه. مگه یکی از اهداف اصلی در سئو و بهینه سازی سایت این نیس که کاری کنیم تا موتورهای جستجو راحت تر صفحات وب سایتمون رو بررسی کنن؟

، اینجا دقیقاً جاییه که ترفندهای سئو وارد قضیه می شن.

شایدً سایت شمام دارای صفحات بسیاریه. درسته؟ اگه تصور می کنین تعداد صفحات سایت تون زیاد نیس، کافیه یه بار اونو بررسی کنین تا با واقعیت روبرو شید.

حال اگه تعداد صفحات سایت تون زیاد باشه، موتور جستجو زمان بیشتری واسه خزیدن و ایندکس کردن صفحات نیاز داره که همین زمان طولانی، روی رتبه سایت تون در یافته های جستجو، تاثیر منفی می ذاره.

می پرسین به چه دلیل؟ چون ربات خزنده موتور جستجوی گوگل (همون Googlebot خودمون!) دارای ویژگی به نام Crawl Budget است.

Crawl Budget واقعا تعداد صفحاتی از سایت‎تونه که ربات گوگل تو یه روز اونا رو خزیده و بررسی می کنه. بودجه شما، یا همون تعداد صفحاتی که توسط Googlebot مشاهده می شن، براساس حجم سایت شما (تعداد صفحات)، سلامت اون (نبود بروز خطا) و تعداد بک لینکای سایت تون تعیین می شه.

Crawl Budget به دو بخش تقسیم می شه. اولین بخش، Crawl Rate Limit (حد اندازه خزیدن) است. راهنمای گوگل Crawl Rate Limit رو به این شکل توضیح میده:

Crawl Rate Limit

ربات گوگل (Googlebot)، به شکلی طراحی شده تا شهروند خوبی واسه دنیای اینترنت باشه. خزیدن، اولویت اصلی این رباته و به شکلی طراحی شده که تا بر تجربه کاربری بازدیدکنندگان سایت تاثیری نذاره. این بهینه سازی Crawl Rate Limit اسمشه که واسه ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl تو یه روز رو محدود می کنه.

به طور خلاصه، Crawl Rate Limit نمایشگر تعداد ارتباطات همزمان ربات گوگل با یه سایت، به همراه تعداد دفعات توقف این ربات در عملیات خزش یا Crawling وب سایته. اندازه خزش (Crawl Rate) می تونه براساس چند عامل عوض شه:

  • سلامت خزش (Crawl Health): اگه سایت سریع باشه و بتونه سیگنالا رو به سرعت جواب دهد، مطمئناً Crawl Rate بالا میره، اما اگه سایت شما کند باشه یا در بین Crawl خطاهای سروری به وجود بیاد، اندازه خزش ربات گوگل کم میشه.
  • تعیین محدودیت در Google Search Console: صاحبات وب سایتا می تونن اندازه خزش سایت شون رو کم کنن.

، هنوز Crawl Budget رو به یاد دارین؟ بخش دوم اون، Crawl Demand اسمشه. گوگل Crawl Demand رو به این شکل توضیح میده:

Crawl Demand

حتی اگه ربات گوگل به حد Crawl Rate تعیین شده نرسه، اگه تقاضایی واسه ایندکس شدن وجود نداشته باشه، شما تماشاگر فعالیت کمی از طرف ربات گوگل هستین. دو فاکتوری که نقش مهمی در تعیین Crawl Demand (درخواست خزش) دارن، عبارتند از:

  • محبوبیت: URLایی که در اینترنت محبوب تر هستن، بیشتر از دیگر نشانیا خزیده می شن تا در ایندکس گوگل تازه تر باشن (ببینین بروزرسانی همیشگی سایت چقدر مهمه!).
  • Staleness: سیستم گوگل به شکلیه که از قدیمی شدن و ثابت موندن URLها جلوگیری می کنه.

هم اینکه، اتفاقاتی که بر کل سایت تاثیر می ذارن مانند جا به جایی سایت، ممکنه اندازه Crawl Demand رو جهت ایندکس دوباره سایت روی نشانی جدید، زیاد کنن.

در آخر، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یه سایت رو تعریف می کنیم. در واقع Crawl Budget، تعداد URLهاییه که ربات گوگل می خواد و می تونه ایندکس کنه.

، بیایید تعریف گوگل از Crawl Budget رو دوباره بخونیم: " Crawl Budget، تعداد URLهاییه که ربات گوگل می خواد و می تونه ایندکس کنه."

مطمئناً شمام می خواین ربات گوگل Crawl Budget سایت تون رو به بهترین شکل ممکن مصرف کنه. یعنی، ربات گوگل باید ارزشمندترین و مهم ترین صفحات شما رو ایندکس کنه.

البته گوگل بیان می کنه که عوامل و فاکتورهایی وجود دارن که روی عملیات خزش و ایندکس شدن سایت، تاثیر منفی می ذارن:

  • وجود محتوای تکراری در سایت
  • وجود صفحات سافت ارور
  • به کار گیری Session Identifier
  • وجود ناوبری ضعیف در سایت
  • صفحات هک شده در سایت
  • محتوای بی ارزش و اسپم

هدر دادن منابع سرور واسه این صفحات، باعث از بین رفتن Crawl Budget شما می شه. اینطوری صفحات مهم و مهمی که واقعاً نیاز به ایندکس شدن دارن خیلی دیرتر به یافته های جستجو راه پیدا می کنن.

، بیایید به موضوع اصلی خودمون یعنی فایل robots.txt برگردیم.

اگه بتونین فایل robots.txt رو به درستی بسازین، می تونین به موتورهای جستجو (به خصوص Googlebot) بگید که کدوم صفحات رو مشاهده نکنه.

نتیجه های داشتن این فایل رو تصور کنین. اگه به موتورهای جستجو بگید که فقط بهترین محتوای سایت تون رو بررسی کنن، رباتا سایت شما رو براساس اون یه محتوا ایندکس می کنن.

گوگل در این باره میگه:

مطمئناً نمی خواین که ربات خزنده گوگل واسه مشاهده و ایندکس محتوای تکراری و کم ارزش، سرورهای شما رو اشغال کنه.

با استفاده درست از فایل robots.txt می تونین به رباتای جستجو بگید که Crawl Budget سایت تون رو به درستی مصرف کنن. همین قابلیته که اهمیت فایل robots.txt رو در سئو دوبرابر می کنه.

به دنبال خدمات سئو هستین؟

ما علم لازم واسه افزایش اعتبار و رتبه شما در گوگل رو داریم. پس خوبه با ما تماس بگیرین.
واسه مشاوره رایگان، همین الان با ما تماس بگیرین.

افزایش ترافیک سایت شما

۰۲۱-۶۳۴۰۴داخلی ۳

پیدا کردن فایل robots.txt

اگه تشویق شدید که نگاهی به فایل robots.txt خود بندازین، راهی آسون واسه انجام این کار هست. در واقع، این روش واسه هر سایتی کاربرد داره. پس، حتی می تونین فایلای دیگر سایتا رو هم بررسی کنین و ببینین که اونا چه نوع فایلی رو ایجاد کردن.

تموم کاری که باید انجام بدین اینه که یه نشانی معمولی در مرورگر خود وارد کنین (مثلا novin.com یا …). بعد، عبارت robots.txt/ رو در انتهای URL وارد کنین.

با انجام این کار، با ۳ موقعیت روبرو میشین:

  1. به فایل txt دسترسی پیدا می کنین.
نمونه فایل robots.txt از سایت نوین

دستور فایل robots.txt سایت نوین

  1. به یه فایل خالی (بدون محتوا) دسترسی پیدا می کنین.

مثلا سایت دیزنی، فایل robots.txt نداره.

نمونه سایتی که فایل robots.txt نداره

همونطور که می ببینن فایل robots.txt سایت دیرنی محتوایی نداره.

  1. با ارور ۴۰۴ روبرو میشین.

مثلا در زمان دیدن فایل robots.txt سایت بامیلو با ارور ۴۰۴ مواجه میشین.

ارور 404 در زمان مشاهده فایل robots.txt

ارور ۴۰۴ در زمان مشاهده فایل robots.txt سایت بامیلو

پیشنهاد می کنم چند دقیقه صبر کنین و فایل robots.txt سایت خود رو بررسی کنین. اگه با یه فایل خالی یا ارور ۴۰۴ مواجه شدید، زمان اون هستش که فایل خود رو بسازین. اگه هم یه فایل معتبر پیدا کردین، شایدً تنظیمات اون مربوط به وقتیه که سایت خود رو راه اندازی کرده بودین.

من به شخصه از این روش واسه واسه نگاه کردن به فایلای robots.txt دیگر سایتا استفاده می کنم. وقتی که راه و چاه به کار گیری این فایل رو یاد بگیرین، به کار گیری این روش بسیار مهمن.

حالا می خوایم به یه فایل robots.txt واقعی نگاه بندازیم.

اگه روی سایت تون فایل robots.txt ندارین، باید از اول این فایل رو بسازین. واسه انجام این کار از نرم افزارهای متنی ساده مانند Notepad در ویندوز یا TextEdit در مکینتاش استفاده کنین. به این موضوع دقت لازم رو به عمل بیارین که حتماً باید از نرم افزارهای ویرایش متن ساده استفاده کنین. مثلا ممکنه نرم افزار Word کدهای اضافی به فایل شما اضافه کنه.

ما در این مقاله از Editpad.org استفاده می کنیم که ابزاری رایگان واسه ویرایش متونه.

editpad.org ابزاری رایگان واسه ویرایش فایل robots.txt

برگردیم به مبحث robots.txt. اگه الان فایل robots.txt دارین، باید اونو در دایرکتوری Root سایت خود بذارین.

اگه به گشت و گذار در کدهای منبع سایت تون عادت ندارین، پیدا کردن نسخه قابل ویرایش فایل robots.txt براتون کمی سخت هستش.

واسه دسترسی به دایرکتوری Root سایت تون می تونین به حساب هاستینگ سایت تون مراجعه کرده و رمز عبور و نام کاربری خود رو وارد کنین. پس از ورود به قسمت مدیریت فایل یا قسمت FTP سایت خود برید.

به احتمال زیاد با اینجور صفحه ای روبرو میشین.

محل ذخیره فایل robots.txt

فایل robots.txt خود رو پیدا کرده و اونو واسه ویرایش باز کنین. دستورات درون اونو پاک کنین. حالا، دستور جدیدی که می خواین رو وارد کنین یا اگه می خواین اونو خالی نگه دارین.

نکته: اگه از سیستم مدیریت محتوای وردپرس استفاده می کنین، شایدً اگه نشانی yoursite.com/robots.txt رو در مرورگرتان وارد کنین فایل robots.txt سایت تون رو ببینین. با این حال، شاید فایل اصلی رو درون دایرکتوری Root سایت پیدا نکنین.

دلیل این اتفاق اینه که اگه فایل robots.txt در دایرکتوری سایت وجود نداشته باشه، وردپرس به صورت خودکار یه فایل robots.txt مجازی بوجود میاره. اگه با اینجور مشکلی روبرو هستین، بهتره که یه فایل جدید واسه سایت تون بسازین.

ساخت فایل robots.txt

شما می تونین با به کار گیری یه ویراشگر متنی ساده، فایل robots.txt خود رو بسازین (البته همونطور که گفتیم این ویرایشگر، حتماً ساده باشه تا کدی به دستورات اضافه نکنه). اگه الان سایت تون دارای فایل robots.txtه و شما قصد تغییر اونو دارین، کافیه فایل رو باز کرده و فقط محتوای اونو پاک کنین.

واسه ساخت فایل robots.txt در اول باید با دستورات یا به اصطلاح Syntaxهایش آشنا باشین (که آشنا هستین. اگه این دستورات رو از یاد بردین، کافیه همین مقاله رو به سمت بالا اسکرول کنین تا دوباره این دستورات رو مورد بررسی قرار بدین).

خیالتون راحت باشه. من نمی خوام دوباره این دستورات و توضیحات رو تکرار کنم، فقط شما رو به دیدن صحبتای گوگل درباره این دستورات دعوت می کنم. اگه خسته شدین پیشنهاد من اینه که یه فنجون چای واسه خود بریزین، بعد ادامه مقاله رو بخونین. نگران نباشین، من همینجا منتظر شما هستم.

سینتکسای دستوری گوگل واسه نوشتن فایل robots.txt

پس از آموزش چگونگی ساخت فایل robots.txt، درباره بهینه سازی اون واسه سئو صحبت می کنیم. ، همونطور که می دونین واسه ایجاد رابطه با رباتا خزنده باید از دستور User-agent استفاده کنین.

واسه اینکه دستور شما توسط همۀ رباتا خونده شه، باید پس از دستور User-agent، علامت * رو بذارین:
User-agent: *
بعد، در خط پایین تر دستور Disallow رو تایپ کنین، اما بعد از اون چیزی ننویسین.
Disallow:
تا اینجای کار دستورات شما به شکل زیره:

User-agent: *
Disallow:

، شاید این دستورات بسیار ساده به نظر برسن اما همین دستورات، سیاست سئوی سایت شما رو به کلی تغییر میدن.

هم اینکه، شما می تونین فایل robots.txt خود رو به سایت مپ xml لینک کنین. هرچند انجام این کار ضرورتی نداره، اما اگه قصد انجام اونو دارین، باید دستور زیر رو در ادامه وارد کنین:
Sitemap: http://www.yoursite.com/sitemap.xml

اتصال فایل robots.txt به سایت مپ

همونطور که می ببینن دیجیکالا دستور سایت مپ رو در فایل robots.txt خود قرار داده.

این دقیقاً ساختار ابتدایی تموم فایلای robots.txtه. ، اگه می خواین فایل robots سایت شما تغییرات اساسی در وضعیت سئوی شما بسازه، با ادامه مقاله همراه باشین.

بهینه سازی فایل robots.txt واسه سئو

چگونگی ویرایش و بهینه سازی فایل robots.txt رابطه مستقیمی با محتوای سایت شما و سیاستای کلی سئوی سایت تون داره. روشای بسیار زیادی هست که از راه اونا می تونین از این فایل بهترین بهره رو ببرین.

در این قسمت می خوایم عادی ترین روشای به کار گیری فایل robots.txt رو با هم بررسی کنیم. یادتون باشه که از فایل robots.txt نباید واسه بستن دسترسی صفحات خود از موتورهای جستجو استفاده کنین چون اگه این کار رو انجام بدین، رباتا قادر نیستن ارزش و Link Juice این صفحات رو محاسبه کنن (چون که شما صفحه رو به کل براشون بسته کردین). واسه انجام این کار بهتره از Meta Robot استفاده کنین که در ادامه براتون توضیح می دیم.

همونطور که توضیح دادیم، یکی از بهترین روشای به کار گیری فایل robots.txt، بهینه سازی مصرف Crawl Budget سایته. با به کار گیری این فایل می تونین به رباتای خزنده موتور جستجو بگید که قسمتای بی اهمیت سایت تون رو بررسی نکنن.

مثلا اگه به فایل robots.txt سایت ما (novin.com) سر بزنین، متوجه میشین که صفحه پنل ادمین سایت از دسترس رباتا خارج شده.

نمونه فایل robots.txt از سایت نوین

از اونجایی که از این صفحه واسه ورود به Backend سایت استفاده می شه، بررسی و ایندکس کردنش توسط رباتای جستجو بی معنیه (اگه سایت تون روی سیستم مدیریت محتوای وردپرسه، می تونین از دستورات بالا واسه فایل robots.txt خود استفاده کنین).

شما می تونین از همین دستورات مشابه واسه جلوگیری از ورود ربات خزنده موتور جستجو به یه صفحه خاص از سایت تون استفاده کنین. واسه این کار کافیه پس از دستور Disallow، نشانی URL اون صفحه که پس از com. قرار میگیره رو بین دو علامت مورب "/"  بذارین.

مثلا اگه می خواین که ربات خزنده به صفحه شما به نشانی http://yoursite.com/page وارد نشه، باید دستوری به شکل زیر رو وارد کنین:
Disallow: /page/
به همین سادگی! هم اینکه، اگه می خواین یه فولدر یا دسته بندی سایت خود رو از دسترس رباتا خارج کنین، همینطوری عمل می کنین:
Disallow: /blog/
واسه نبود ورود ربات به یه صفحه وبلاگ:
Disallow: /blog/what-is-robots-txt-and-how-to-create-one/
واسه خارج کردن دسترسی یه ربات خاص به یه تصویر از سایت تون از دستوری مشابه زیر استفاده کنین:
User-agent: Googlebot-Image
Disallow: /images/novin.jpg

هم اینکه، می‎تونید یه نوع فایل خاص رو براساس فرمت از دید رباتای خزنده مخفی نگه دارین، مثلا فایلای تصویری با فرمت SVG:
User-agent: *
Disallow: /*.svg$

چه نوع صفحاتی رو از دید رباتای خزنده مخفی نگه داریم؟

شاید این سوال براتون پیش اومده باشه که چه نوع صفحاتی از سایت تون نباید توسط موتورهای جستجو ایندکس شن. ، در ادامه بعضی از مواردی که فایل robots.txt به دردتون می خوره رو بررسی می کنیم.

درسته که وجود در سایت معمولاً بد و واسه سئو خراب کننده س، با این حال سناریوهایی وجود دارن که در اونا وجود محتوای تکراری لازم و قبول کردنیه.

مثلا اگه یکی از صفحات مهم سایت تون رو واسه چاپ و پرینت تنظیم کردین، واقعا یه محتوای تکراری در سایت خود درست کردین. در اینجور شرایطی می تونین به رباتای خزنده بگید جهت جلوگیری از Duplicate شدن، نسخه قابل چاپ صفحه شما رو ایندکس نکنن.

اینجور شرایطی واسه صفحات Split-Testing (یا همون A/B Testing) هم هست. این صفحات معمولاً محتوایی برابر با طراحی متفاوت دارن. مثلا صفحات فرم یا صفحات تشکر از کاربر.

به کار گیری این صفحات، معمولاً به افزایش سر نخ (Lead) منجر می شه. اما نکته ای که هست اینه که بعضی از این صفحات واسه گوگل قابل دسترس هستن. دسترسی گوگل به این صفحات به این معنیه که بازدیدکنندگان دیگه روند فروش رو تجربه نمی کنن و مستقیم به صفحه پایانی می رن.

با خارج کردن دسترسی موتورهای جستجو به این صفحات می تونین مطمئن شید که تنها کاربران و خریدارائی که صلاحیت دارن این صفحات رو مشاهده می کنن.

، فرص کنیم که اینجور صفحه با نشانی http://yoursite.com/thank-you قابل دسترسه. با وارد کردن دستور زیر در فایل robots.txt می تونین اونو از دسترس رباتای خزنده خارج کنین:
Disallow: /thank-you/
از اونجایی که به کار گیری فایل robots.txt هیچ قانون خاصی نداره، فایل robots.txt شما، مخصوص سایت خودتونه. پس بهتره از سیاست کلی سئوی شرکت تون پیروی کنین.

دو دستور دیگه هم وجود دارن که باید با اونا هم آشنا باشین: nonin

Published on :Posted on