If you want to disable any link on your website, then watch the next video
disallow robots.txt google docs with example
disallow robots.txt robots.txt disallow all
একটি robots.txt ফাইল তৈরি করুন
আপনি একটি robots.txt ফাইল তৈরি করতে প্রায় যেকোনো টেক্সট এডিটর ব্যবহার করতে পারেন। উদাহরণস্বরূপ, Notepad, TextEdit, vi, এবং emacs বৈধ robots.txt ফাইল তৈরি করতে পারে। ওয়ার্ড প্রসেসর ব্যবহার করবেন না; ওয়ার্ড প্রসেসর প্রায়ই একটি মালিকানাধীন
বিন্যাসে ফাইল সংরক্ষণ করে এবং অপ্রত্যাশিত অক্ষর যোগ করতে পারে, যেমন কোঁকড়া উদ্ধৃতি, যা ক্রলারদের জন্য সমস্যা সৃষ্টি করতে পারে। ফাইল সংরক্ষণ ডায়ালগের সময় অনুরোধ করা হলে UTF-8 এনকোডিং সহ ফাইলটি সংরক্ষণ করা নিশ্চিত করুন৷
disallow robots.txt বিন্যাস এবং অবস্থানের নিয়ম:
ফাইলটির নাম হতে হবে robots.txt।
আপনার সাইটে শুধুমাত্র একটি robots.txt ফাইল থাকতে পারে।
robots.txt ফাইলটি অবশ্যই ওয়েবসাইট হোস্টের মূলে অবস্থিত হতে হবে যেখানে এটি প্রযোজ্য। উদাহরণস্বরূপ, https://www.example.com/ এর নিচের সমস্ত URL-এ ক্রলিং নিয়ন্ত্রণ করতে, robots.txt ফাইলটি অবশ্যই https://www.example.com/robots.txt-এ অবস্থিত হতে হবে। এটি একটি সাবডিরেক্টরিতে স্থাপন করা যাবে না (উদাহরণস্বরূপ,
https://example.com/pages/robots.txt এ)। আপনি যদি আপনার ওয়েবসাইট রুট অ্যাক্সেস করার বিষয়ে অনিশ্চিত হন, বা এটি করার জন্য অনুমতির প্রয়োজন হয়, আপনার ওয়েব হোস্টিং পরিষেবা প্রদানকারীর সাথে যোগাযোগ করুন। আপনি যদি আপনার ওয়েবসাইট রুট অ্যাক্সেস করতে না পারেন তবে একটি বিকল্প ব্লকিং পদ্ধতি ব্যবহার করুন যেমন মেটা ট্যাগ।
একটি robots.txt ফাইল একটি সাবডোমেনে (উদাহরণস্বরূপ, https://website.example.com/robots.txt) বা অ-মানক পোর্টে পোস্ট করা যেতে পারে (উদাহরণস্বরূপ, http://example.com:8181/robots .txt)।
একটি robots.txt ফাইল শুধুমাত্র প্রোটোকল, হোস্ট এবং পোর্টের মধ্যে থাকা পাথগুলিতে প্রযোজ্য যেখানে এটি পোস্ট করা হয়। অর্থাৎ, https://example.com/robots.txt-এর নিয়মগুলি শুধুমাত্র https://example.com/-এর ফাইলগুলিতে প্রযোজ্য,
https://m.example.com/ বা বিকল্প প্রোটোকলের মতো সাবডোমেনগুলিতে নয়, যেমন http://example.com/।
একটি robots.txt ফাইল অবশ্যই একটি UTF-8 এনকোড করা টেক্সট ফাইল হতে হবে (যার মধ্যে ASCII রয়েছে)। Google UTF-8 রেঞ্জের অংশ নয় এমন অক্ষরগুলিকে উপেক্ষা করতে পারে, সম্ভাব্যভাবে robots.txt নিয়মগুলিকে অবৈধ করে।
robots.txt ফাইলে নিয়ম যোগ করুন
নিয়মগুলি হল ক্রলারদের জন্য নির্দেশাবলী যে তারা আপনার সাইটের কোন অংশগুলি ক্রল করতে পারে। আপনার robots.txt ফাইলে নিয়ম যোগ করার সময় এই নির্দেশিকা অনুসরণ করুন:
একটি robots.txt ফাইল এক বা একাধিক গ্রুপ নিয়ে গঠিত।
প্রতিটি গোষ্ঠীতে একাধিক নিয়ম বা নির্দেশ (নির্দেশ), প্রতি লাইনে একটি নির্দেশিকা থাকে। প্রতিটি গ্রুপ একটি ব্যবহারকারী-এজেন্ট লাইন দিয়ে শুরু হয় যা গ্রুপের লক্ষ্য নির্দিষ্ট করে।
একটি গ্রুপ নিম্নলিখিত তথ্য দেয়:
গোষ্ঠীটি কার কাছে প্রযোজ্য (ব্যবহারকারী এজেন্ট)।
কোন ডিরেক্টরি বা ফাইল যে এজেন্ট অ্যাক্সেস করতে পারেন.
কোন ডিরেক্টরি বা ফাইল যে এজেন্ট অ্যাক্সেস করতে পারে না.
ক্রলাররা উপরে থেকে নীচে পর্যন্ত গোষ্ঠীগুলিকে প্রক্রিয়া করে। একটি ব্যবহারকারী এজেন্ট শুধুমাত্র একটি নিয়ম সেটের সাথে মিলতে পারে, যা প্রথম, সবচেয়ে নির্দিষ্ট গ্রুপ যা একটি প্রদত্ত ব্যবহারকারী এজেন্টের সাথে মেলে।
ডিফল্ট অনুমান হল যে একজন ব্যবহারকারী এজেন্ট যেকোন পৃষ্ঠা বা ডিরেক্টরি ক্রল করতে পারে যা অনুমোদন না করার নিয়ম দ্বারা অবরুদ্ধ নয়।
নিয়মগুলি কেস-সংবেদনশীল। উদাহরণস্বরূপ, অস্বীকৃতি: /file.asp https://www.example.com/file.asp-এ প্রযোজ্য, কিন্তু https://www.example.com/FILE.asp নয়৷
# অক্ষরটি একটি মন্তব্যের শুরুতে চিহ্নিত করে।
Google-এর ক্রলারগুলি robots.txt ফাইলগুলিতে নিম্নলিখিত নির্দেশাবলী সমর্থন করে:
ব্যবহারকারী-এজেন্ট: [প্রয়োজনীয়, প্রতি গোষ্ঠীতে এক বা একাধিক] নির্দেশটি স্বয়ংক্রিয় ক্লায়েন্টের নাম নির্দিষ্ট করে যা সার্চ ইঞ্জিন ক্রলার হিসাবে পরিচিত যে নিয়মটি প্রযোজ্য। এটি যেকোনো নিয়ম গ্রুপের জন্য প্রথম লাইন। Google ব্যবহারকারী এজেন্টের নামগুলি
ব্যবহারকারী এজেন্টদের Google তালিকায় তালিকাভুক্ত করা হয়। একটি তারকাচিহ্ন (*) ব্যবহার করা বিভিন্ন AdsBot ক্রলার ব্যতীত সমস্ত ক্রলারের সাথে মেলে, যার নাম স্পষ্টভাবে উল্লেখ করা আবশ্যক। উদাহরণ স্বরূপ:
# উদাহরণ 1: শুধুমাত্র Googlebot ব্লক করুন
ব্যবহারকারী-এজেন্ট: Googlebot
অনুমতি না দেওয়া: /
# উদাহরণ 2: Googlebot এবং Adsbot ব্লক করুন
ব্যবহারকারী-এজেন্ট: Googlebot
ব্যবহারকারী-এজেন্ট: AdsBot-Google
অনুমতি না দেওয়া: /
# উদাহরণ 3: AdsBot ছাড়া সমস্ত ক্রলার ব্লক করুন (AdsBot ক্রলারের নাম স্পষ্টভাবে উল্লেখ করতে হবে)
ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /
disallow: [প্রতি নিয়মে অন্তত এক বা একাধিক এন্ট্রি অনুমোদন বা অনুমতি দিন] রুট ডোমেনের সাথে সম্পর্কিত একটি ডিরেক্টরি বা পৃষ্ঠা, যা আপনি ব্যবহারকারী এজেন্টকে ক্রল করতে চান না। যদি নিয়মটি একটি পৃষ্ঠাকে বোঝায়, তবে এটি অবশ্যই ব্রাউজারে দেখানো পৃষ্ঠার সম্পূর্ণ নাম হতে হবে। এটি অবশ্যই একটি / অক্ষর দিয়ে শুরু হবে এবং যদি এটি একটি ডিরেক্টরিকে বোঝায় তবে এটি অবশ্যই / চিহ্ন দিয়ে শেষ হবে।
অনুমতি দিন: [প্রতি নিয়মে অন্তত এক বা একাধিক অনুমতি না দেওয়া বা এন্ট্রি অনুমতি দিন] একটি ডিরেক্টরি বা পৃষ্ঠা, রুট ডোমেনের সাথে সম্পর্কিত, যা এইমাত্র উল্লেখ করা ব্যবহারকারী এজেন্ট দ্বারা ক্রল করা হতে পারে। এটি একটি অননুমোদিত ডিরেক্টরিতে একটি সাবডিরেক্টরি বা পৃষ্ঠা ক্রল করার অনুমতি দেওয়ার জন্য একটি অননুমোদিত নির্দেশকে
ওভাররাইড করতে ব্যবহৃত হয়। একটি একক পৃষ্ঠার জন্য, ব্রাউজারে দেখানো হিসাবে পুরো পৃষ্ঠার নাম উল্লেখ করুন। একটি ডিরেক্টরির ক্ষেত্রে, একটি / চিহ্ন দিয়ে নিয়মটি শেষ করুন।
সাইটম্যাপ: [ঐচ্ছিক, ফাইল প্রতি শূন্য বা তার বেশি] এই ওয়েবসাইটের জন্য একটি সাইটম্যাপের অবস্থান। সাইটম্যাপ URL অবশ্যই একটি সম্পূর্ণ-যোগ্য URL হতে হবে;
Google অনুমান করে না বা http/https/www.non-www বিকল্পগুলি পরীক্ষা করে না। সাইটম্যাপ হল একটি ভাল উপায় নির্দেশ করার জন্য যে কোন সামগ্রীটি Google-এর ক্রল করা উচিত, কোন সামগ্রীটি ক্রল করতে পারে বা করতে পারে না। সাইটম্যাপ সম্পর্কে আরও জানুন। উদাহরণ:
এই নির্দেশাবলীর সাথে মেলে না এমন লাইনগুলি উপেক্ষা করা হয়।
এছাড়া গুগল সার্চ করতে গেলে আপনি এখানে ক্লিক করে গুগলে সার্চ করতে পারেন
রোবট সম্পর্কে Google এর ব্যাখ্যা সম্পর্কে আমাদের পৃষ্ঠা পড়ুন।