Robots.txt adalah file yang berisi petunjuk tentang cara merayapi situs web. Ini juga dikenal sebagai protokol pengecualian robot, dan standar ini digunakan oleh situs untuk memberi tahu bot bagian mana dari situs web mereka yang perlu diindeks. Selain itu, Anda dapat menentukan area mana yang tidak ingin diproses oleh perayap ini; area tersebut berisi konten duplikat atau sedang dalam pengembangan. Bot seperti pendeteksi malware, pemanen email tidak mengikuti standar ini dan akan memindai kelemahan dalam sekuritas Anda, dan ada kemungkinan besar mereka akan mulai memeriksa situs Anda dari area yang tidak ingin Anda indeks.
File Robots.txt lengkap berisi "User-agent," dan di bawahnya, Anda dapat menulis arahan lain seperti "Allow," "Disallow," "Crawl-Delay" dll. jika ditulis secara manual mungkin akan memakan banyak waktu, dan Anda dapat memasukkan beberapa baris perintah dalam satu file. Jika Anda ingin mengecualikan halaman, Anda harus menulis "Larang: tautan yang tidak Anda inginkan untuk dikunjungi bot" yang sama berlaku untuk atribut allow. Jika menurut Anda hanya itu yang ada di file robots.txt maka itu tidak mudah, satu baris yang salah dapat mengecualikan halaman Anda dari antrian indeksasi. Jadi, lebih baik untuk menyerahkan tugas kepada profesional, biarkan generator Robots.txt kami yang mengurus file untuk Anda