ما هو ملف الروبوت تكست (Robots.txt)؟

ملف الروبوت تكست (Robots.txt) هو ملف يتم وضعه في الموقع الإلكتروني ليخبر برامج الزحف الخاصة بمحركات البحث (مثل Googlebot)، عن الصفحات أو الأجزاء التي يمكنها الوصول إليها أو التي يجب تجنبها.

كيف يعمل ملف robots.txt؟

عندما تزور برامج الزحف الموقع، تبحث أولاً عن هذا الملف لتعرف القواعد، وبرامج الزحف الجيدة تلتزم بالقواعد المحددة في الملف، أما برامج الزحف السيئة (مثل تلك التي تُستخدم لاستخراج البيانات بشكل غير قانوني)، فقد تتجاهل الملف تمامًا.

ملاحظة هامة
لا يُستخدم الملف لمنع فهرسة الصفحات، بل فقط لمنع زحف برامج البحث إليها، فإذا وُجد رابط خارجي يؤدي إلى صفحة تم منعها في الملف، قد تُفهرس تلك الصفحة في محرك البحث رغم منع الزحف.

محتويات ملف robots.txt

  • user-agent: اسم برنامج الزحف الذي تنطبق عليه القاعدة.
  • disallow: الصفحات أو المسارات التي لا يُسمح بزيارتها.
  • allow: الصفحات أو المسارات المسموح بزيارتها (اختياري).
  • sitemap: رابط إلى خريطة الموقع (اختياري).
  • crawl-delay: تأخير بين الزيارات للتحكم بسرعة الزحف (غير مدعوم من جوجل).

مثال:

User-agent: Googlebot
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Crawl-delay: 2

Sitemap: https://www.linkawy.io/sitemap_index.xml

التوضيح:

  • User-agent: يخبر الملف أن هذه القواعد مخصصة لبرنامج الزحف “Googlebot”.
  • Disallow: يمنع الزحف إلى جميع الصفحات داخل مجلد لوحة تحكم الموقع “/wp-admin/”.
  • Allow: يستثني الملف “wp-admin/admin-ajax.php” من الحظر، مما يسمح بالوصول إلى ما بداخله.
  • Crawl-delay: يطلب من البرنامج الانتظار لمدة ثانيتين بين كل طلب للزحف إلى الموقع، لتقليل الضغط على الخادم.

بهذه الطريقة، يمكنك التحكم في حركة الزحف وإدارة استهلاك الموارد لموقعك بشكل أكثر فاعلية.

ما أهمية ملف الروبوتس robots.txt؟

ملف robots.txt يعد أداة هامة تساعد أصحاب المواقع في التحكم في كيفية تفاعل برامج الزحف (مثل جوجل) مع مواقعهم، فهذا الملف يمنحك القدرة على توجيه هذه البرامج بعيدًا عن الأقسام التي لا ترغب في أن يتم الوصول إليها أو فهرستها. مما يساعد في تحسين ميزانية الزحف، أي أنه يمكن للبرامج التركيز على الصفحات الأكثر أهمية بدلاً من إضاعة الوقت على صفحات غير ضرورية.

كيف يمكن الاستفادة من ملف robots.txt؟

  • منع الزحف الي صفحات معينة: مثل صفحات تسجيل الدخول، أو صفحات الحسابات الشخصية، أو صفحات العضوية التي لا يجب أن تظهر في نتائج البحث.
  • منع الزحف على ملفات أو محتوى خاص: مثل ملفات PDF أو مقاطع الفيديو التي قد تتطلب إدخال بريد إلكتروني للوصول إليها، على سبيل المثال، في نظام إدارة المحتوى مثل WordPress، فإن صفحة /wp-admin/ الخاصة بتسجيل الدخول يتم حظرها من قبل الزواحف تلقائيًا.

تنبيه مهم:

لا يجب الاعتماد فقط على ملف robots.txt لمنع فهرسة الصفحات، فإذا كنت تستخدم علامات “noindex” لمنع فهرسة صفحة معينة، تأكد من أن تلك الصفحة ليست محظورة في ملف robots.txt، لأنه إذا كانت محجوبة، فلن تتمكن برامج الزحف من قراءتها ولن تتمكن جوجل من تحديث فهرسها بشكل صحيح.

الأسئلة الشائعة

ماذا يحدث إذا لم يكن لدي ملف robots.txt؟

معظم المواقع لا تحتاج بالضرورة إلى ملف robots.txt. الغرض من هذا الملف هو إرساء تعليمات محددة لبرامج الزحف (bots)، ولكن قد لا يكون ذلك ضروريًا إذا كان موقعك صغيرًا أو لا يحتوي على صفحات كثيرة تريد منع الزواحف من الوصول إليها.
ومع ذلك، لا يوجد أي ضرر في إنشاء ملف robots.txt ووضعه على موقعك، سيجعل ذلك من السهل إضافة تعليمات إذا احتجت إلى ذلك في المستقبل.

هل يمكنني إخفاء صفحة من محركات البحث باستخدام robots.txt؟

نعم. إخفاء الصفحات من محركات البحث هو أحد الوظائف الرئيسية لملف robots.txt، ويمكنك القيام بذلك باستخدام “Disallow” مع عنوان URL الذي تريد منعه.
ومع ذلك، من المهم ملاحظة أن مجرد إخفاء عنوان URL من Googlebot باستخدام ملف robots.txt لا يضمن أنه لن يتم فهرسته.

كيف يمكنني اختبار ملف robots.txt الخاص بي؟

يمكنك التحقق من صحة ملف robots.txt واختبار كيفية عمل التعليمات على عناوين URL محددة باستخدام أداة اختبار robots.txt في Google Search Console.

مرادفات المصطلح:
ملف الروبوتس, ملف Robots.txt