
File Penting yang Menipu yang Dibutuhkan Semua Situs Web
File robots.txt membantu mesin telusur utama memahami di mana mereka diizinkan untuk membuka situs web Anda.
Namun, meskipun mesin pencari utama mendukung file robots.txt, mereka mungkin tidak semua mematuhi aturan dengan cara yang sama.
Di bawah ini, mari kita uraikan apa itu file robots.txt, dan bagaimana Anda dapat menggunakannya.
Apa itu file robots.txt?
Setiap hari, ada kunjungan ke situs web Anda dari bot — juga dikenal sebagai robot atau laba-laba. Mesin pencari seperti Google, Yahoo, dan Bing mengirim bot ini ke situs Anda sehingga konten Anda dapat dirayapi dan diindeks dan muncul di hasil pencarian.
Bot adalah hal yang baik, tetapi ada beberapa kasus di mana Anda tidak ingin bot berjalan di sekitar situs web Anda merayapi dan mengindeks semuanya. Di situlah file robots.txt masuk.
Dengan menambahkan perintah tertentu ke file robots.txt, Anda mengarahkan bot untuk merayapi hanya halaman yang ingin Anda rayapi.
Namun, penting untuk dipahami bahwa tidak semua bot akan mematuhi aturan yang Anda tulis di file robots.txt. Google, misalnya, tidak akan mendengarkan arahan apa pun yang Anda tempatkan di file tentang frekuensi perayapan.
Apakah Anda memerlukan file robots.txt?
Tidak, file robots.txt tidak diperlukan untuk situs web.
Jika bot datang ke situs web Anda dan tidak memilikinya, bot hanya akan merayapi situs web Anda dan mengindeks halaman seperti biasanya.
File robot.txt hanya diperlukan jika Anda ingin lebih mengontrol apa yang sedang dirayapi.
Beberapa manfaat memilikinya antara lain:
- Membantu mengelola kelebihan server
- Cegah pemborosan perayapan oleh bot yang mengunjungi halaman yang tidak Anda inginkan
- Jaga agar folder atau subdomain tertentu tetap pribadi
Bisakah file robots.txt mencegah pengindeksan konten?
Tidak, Anda tidak dapat menghentikan konten agar tidak diindeks dan ditampilkan dalam hasil penelusuran dengan file robots.txt.
Tidak semua robot akan mengikuti instruksi dengan cara yang sama, sehingga beberapa robot mungkin mengindeks konten yang Anda setel untuk tidak dirayapi atau diindeks.
Selain itu, Jika konten yang Anda coba cegah agar tidak ditampilkan di hasil pencarian memiliki tautan eksternal, itu juga akan menyebabkan mesin pencari mengindeksnya.
Satu-satunya cara untuk memastikan konten Anda tidak diindeks adalah dengan menambahkan tag meta noindex ke halaman. Baris kode ini terlihat seperti ini dan akan masuk ke html halaman Anda.
Penting untuk dicatat bahwa jika Anda ingin mesin telusur tidak mengindeks halaman, Anda harus mengizinkan halaman dirayapi di robots.txt.
Di mana file robots.txt berada?
File robots.txt akan selalu berada di domain root sebuah situs web. Sebagai contoh, file kami sendiri dapat ditemukan di https://www.hubspot.com/robots.txt.
Di sebagian besar situs web Anda harus dapat mengakses file yang sebenarnya sehingga Anda dapat mengeditnya di FTP atau dengan mengakses File Manager di CPanel host Anda.
Di beberapa platform CMS Anda dapat menemukan file tepat di wilayah administratif Anda. HubSpot, misalnya, membuatnya mudah untuk menyesuaikan robots.txt Anda file dari akun Anda.
Jika Anda menggunakan WordPress, file robots.txt dapat diakses di folder public_html situs web Anda.
WordPress memang menyertakan file robots.txt secara default dengan instalasi baru yang akan menyertakan hal berikut:
Agen pengguna: *
Larang: /wp-admin/
Larang: /wp-include/
Di atas memberi tahu semua bot untuk merayapi semua bagian situs web kecuali apa pun di bawah direktori /wp-admin/ atau /wp-includes/.
Tetapi Anda mungkin ingin membuat file yang lebih kuat. Mari tunjukkan caranya, di bawah ini.
Penggunaan untuk File Robots.txt
Mungkin ada banyak alasan Anda ingin menyesuaikan file robots.txt — mulai dari mengontrol anggaran perayapan, hingga memblokir bagian situs web agar tidak dirayapi dan diindeks. Mari kita jelajahi beberapa alasan untuk menggunakan file robots.txt sekarang.
1. Blokir Semua Perayap
Memblokir semua perayap agar tidak mengakses situs Anda bukanlah sesuatu yang ingin Anda lakukan di situs web aktif, tetapi merupakan pilihan bagus untuk situs web pengembangan. Saat Anda memblokir perayap, ini akan membantu mencegah halaman Anda ditampilkan di mesin pencari, yang bagus jika halaman Anda belum siap untuk dilihat.
2. Larang Halaman Tertentu Dirayapi
Salah satu cara paling umum dan berguna untuk menggunakan file robots.txt Anda adalah dengan membatasi akses bot mesin telusur ke bagian-bagian situs web Anda. Ini dapat membantu memaksimalkan anggaran perayapan Anda dan mencegah halaman yang tidak diinginkan berakhir di hasil pencarian.
Penting untuk dicatat bahwa hanya karena Anda telah memberi tahu bot untuk tidak merayapi halaman, itu tidak berarti itu akan tidak diindeks. Jika Anda tidak ingin halaman muncul di hasil pencarian, Anda perlu menambahkan tag meta noindex ke halaman.
Contoh Arahan File Robots.txt
File robots.txt terdiri dari blok baris arahan. Setiap direktif akan dimulai dengan agen pengguna, dan kemudian aturan untuk agen pengguna tersebut akan ditempatkan di bawahnya.
Ketika mesin pencari tertentu mendarat di situs web Anda, ia akan mencari agen pengguna yang berlaku untuk mereka dan membaca blok yang merujuk ke mereka.
Ada beberapa arahan yang dapat Anda gunakan dalam file Anda. Mari kita hancurkan itu, sekarang.
1. Agen-Pengguna
Perintah agen pengguna memungkinkan Anda untuk menargetkan bot atau laba-laba tertentu untuk diarahkan. Misalnya, jika Anda hanya ingin menargetkan Bing atau Google, ini adalah arahan yang akan Anda gunakan.
Meskipun ada ratusan agen pengguna, di bawah ini adalah contoh beberapa opsi agen pengguna yang paling umum.
Agen-pengguna: Googlebot
Agen-pengguna: Googlebot-Image
Agen-pengguna: Googlebot-Mobile
Agen-pengguna: Googlebot-Berita
Agen-pengguna: Bingbot
Agen-pengguna: Baiduspider
Agen-pengguna: msnbot
Agen-pengguna: slurp (Yahoo)
Agen-pengguna: yandex
Penting untuk diperhatikan — agen pengguna peka terhadap huruf besar/kecil, jadi pastikan untuk memasukkannya dengan benar.
Agen Pengguna Wildcard
Agen pengguna wildcard ditandai dengan
asterisk dan memungkinkan Anda dengan mudah menerapkan arahan ke semua agen pengguna yang ada. Jadi jika Anda ingin aturan tertentu diterapkan ke setiap bot, Anda dapat menggunakan agen pengguna ini.
Agen pengguna: *
Agen pengguna hanya akan mengikuti aturan yang paling dekat dengan mereka.
2. Larang
Arahan disallow memberi tahu mesin pencari untuk tidak merayapi atau mengakses halaman atau direktori tertentu di situs web.
Di bawah ini adalah beberapa contoh bagaimana Anda dapat menggunakan disallow directive.
Blokir Akses ke Folder Tertentu
Dalam contoh ini kami memberi tahu semua bot untuk tidak merayapi apa pun di direktori /portfolio di situs web kami.
Agen pengguna: *
Larang: /portfolio
Jika kami hanya ingin Bing tidak merayapi direktori itu, kami akan menambahkannya seperti ini, sebagai gantinya:
Agen-pengguna: Bingbot
Larang: /portfolio
Blokir PDF atau Jenis File Lainnya
Jika Anda tidak ingin PDF atau jenis file lainnya dirayapi, maka arahan di bawah ini akan membantu. Kami memberi tahu semua bot bahwa kami tidak ingin file PDF dirayapi. $ di akhir memberi tahu mesin pencari bahwa itu adalah akhir dari URL. Jadi jika saya memiliki file pdf dimywebsite.com/site/myimportantinfo.pdf ,
mesin pencari tidak akan mengaksesnya.
Agen pengguna: *
Larang: *.pdf$
Untuk file PowerPoint, Anda dapat menggunakan:
Agen pengguna: *
Larang: *.ppt$ Opsi yang lebih baik mungkin adalah membuat folder untuk PDF atau file lain Anda dan kemudian melarang perayap untuk merayapinya dan mengindeks seluruh direktori dengantag meta
.
Blokir Akses ke Seluruh Situs Web
Sangat berguna jika Anda memiliki situs web pengembangan atau folder pengujian, arahan ini memberi tahu semua bot untuk tidak merayapi situs Anda sama sekali. Penting untuk diingat untuk menghapus ini saat Anda mengaktifkan situs Anda, atau Anda akan mengalami masalah pengindeksan.
Agen pengguna: *
Tanda * (tanda bintang) yang Anda lihat di atas adalah apa yang kami sebut sebagai ekspresi “wildcard”. Saat kami menggunakan tanda bintang, kami menyiratkan bahwa aturan di bawah ini harus berlaku untuk semua agen pengguna.
3. Izinkan Arahan izinkan dapat membantu Anda menentukan halaman atau direktori tertentu yang Anda melakukan
ingin bot mengakses dan merayapi. Ini bisa menjadi aturan override untuk opsi disallow, terlihat di atas.
Dalam contoh di bawah ini, kami memberi tahu Googlebot bahwa kami tidak ingin direktori portofolio dirayapi, tetapi kami ingin satu item portofolio tertentu diakses dan dirayapi:
Agen-pengguna: Googlebot
Larang: /portfolio
Izinkan: /portfolio/crawlableportfolio
4. Peta Situs
Menyertakan lokasi peta situs Anda dalam file Anda dapat memudahkan perayap mesin telusur untuk merayapi peta situs Anda.
Jika Anda mengirimkan peta situs Anda langsung ke alat webmaster setiap mesin pencari, maka Anda tidak perlu menambahkannya ke file robots.txt Anda. peta situs:
https://yourwebsite.com/sitemap.xml
5. Penundaan Perayapan
Penundaan perayapan dapat memberi tahu bot untuk melambat saat merayapi situs web Anda sehingga server Anda tidak kewalahan. Contoh arahan di bawah ini meminta Yandex untuk menunggu 10 detik setelah setiap tindakan perayapan yang dilakukan di situs web.
Agen-pengguna: yandex
Penundaan perayapan: 10
Ini adalah arahan yang harus Anda perhatikan. Di situs web yang sangat besar, ini dapat sangat meminimalkan jumlah URL yang dirayapi setiap hari, yang akan menjadi kontraproduktif. Namun, ini dapat berguna di situs web yang lebih kecil, di mana bot terlalu banyak mengunjungi. Catatan: Penundaan perayapan adalahtidak didukung oleh Google atau Baidu . Jika Anda ingin meminta perayap mereka untuk memperlambat perayapan situs web Anda, Anda harus melakukannyamelalui alat mereka
.
Apa ekspresi reguler dan wildcard?
Pencocokan pola adalah cara yang lebih canggih untuk mengontrol cara bot merayapi situs web Anda dengan menggunakan karakter.
Ada dua ekspresi yang umum dan digunakan oleh Bing dan Google. Arahan ini dapat sangat berguna di situs web e-niaga. Asterisk:
* diperlakukan sebagai wildcard dan dapat mewakili urutan karakter apa pun Tanda dollar:
$ digunakan untuk menandai akhir dari sebuah URL
Contoh yang baik untuk menggunakan * wildcard adalah dalam skenario di mana Anda ingin mencegah mesin pencari merayapi halaman yang mungkin memiliki tanda tanya di dalamnya. Kode di bawah ini memberi tahu semua bot untuk mengabaikan perayapan URL apa pun yang memiliki tanda tanya di dalamnya.
Agen pengguna: *
Larang: /*?
Cara Membuat atau Mengedit File Robots.txt
- Jika Anda tidak memiliki file robots.txt di server Anda, Anda dapat dengan mudah menambahkannya dengan langkah-langkah di bawah ini.
- Buka editor teks pilihan Anda untuk memulai dokumen baru. Editor umum yang mungkin ada di komputer Anda adalah Notepad, TextEdit, atau Microsoft Word.
- Tambahkan arahan yang ingin Anda sertakan ke dokumen.
- Simpan file dengan nama “robots.txt”
- Uji file Anda seperti yang ditunjukkan di bagian selanjutnya
Unggah file .txt Anda ke server Anda dengan FTP atau di CPanel Anda. Cara Anda mengunggahnya akan tergantung pada jenis situs web yang Anda miliki.
Di WordPress Anda dapat menggunakan plugin seperti Yoast, All In One SEO, Rank Math untuk menghasilkan dan mengedit file Anda. Anda juga dapat menggunakan alat pembuat robots.txt
untuk membantu Anda mempersiapkan satu yang mungkin membantu meminimalkan kesalahan.
Cara Menguji File Robots.txt
Sebelum Anda menayangkan kode file robots.txt yang Anda buat, Anda harus menjalankannya melalui penguji untuk memastikannya valid. Ini akan membantu mencegah masalah dengan arahan yang salah yang mungkin telah ditambahkan.
Alat pengujian robots.txt hanya tersedia di Google Search Console versi lama. Jika situs web Anda tidak terhubung ke Google Search Console, Anda harus melakukannya terlebih dahulu. Mengunjungi Dukungan Google
halaman lalu klik tombol “buka penguji robots.txt”. Pilih properti yang ingin Anda uji dan kemudian Anda akan dibawa ke layar, seperti di bawah ini.
penguji robots.txt di Dukungan Google
Paket Pemula SEO
Discover more from CiptaVisual
Subscribe to get the latest posts sent to your email.