Proses Pengindeksan SEO

Ada banyak spekulasi tentang bagaimana mesin pencari mengindeks situs web. Topik ini diselimuti misteri tentang kerja yang tepat dari proses pengindeksan mesin pencari karena sebagian besar mesin pencari menawarkan informasi terbatas tentang bagaimana mereka merancang proses pengindeksan. Webmaster mendapatkan beberapa petunjuk dengan memeriksa laporan log mereka tentang kunjungan perayap tetapi tidak mengetahui bagaimana pengindeksan terjadi atau halaman situs web mana yang benar-benar dirayapi.

Sementara spekulasi tentang proses pengindeksan mesin pencari dapat terus berlanjut, berikut adalah sebuah teori, berdasarkan pengalaman, penelitian dan petunjuk, tentang bagaimana mereka akan melakukan pengindeksan 8 hingga 10 miliar halaman web meskipun begitu sering atau alasan mengapa ada penundaan dalam muncul halaman yang baru ditambahkan di indeks mereka. Diskusi ini berpusat di sekitar Google, tetapi kami percaya bahwa sebagian besar mesin pencari populer seperti Yahoo dan MSN mengikuti pola yang sama.

Google beroperasi dari sekitar 10 Pusat Data Internet (IDC), masing-masing memiliki server 1000 hingga 2000 Pentium-3 atau Pentium-4 yang menjalankan OS Linux.

Google memiliki lebih dari 200 (beberapa orang berpikir lebih dari 1000) crawler / bot memindai web setiap hari. Ini tidak selalu mengikuti pola eksklusif, yang berarti perayap yang berbeda dapat mengunjungi situs yang sama pada hari yang sama, tidak mengetahui perayap lain telah ada sebelumnya. Inilah yang mungkin memberikan catatan kunjungan harian dalam laporan log traffic Anda, membuat master web sangat senang dengan kunjungan mereka yang sering.

Beberapa pekerjaan perayap hanya untuk mengambil URL baru (sebut saja URL Grabbers untuk kenyamanan) - Pengambil URL mengambil tautan & URL yang mereka deteksi di berbagai situs web (termasuk tautan yang menunjuk ke situs Anda) dan URL lama / baru yang terdeteksi di situs Anda. Mereka juga menangkap cap tanggal file ketika mereka mengunjungi situs web Anda, sehingga mereka dapat mengidentifikasi konten baru atau halaman konten yang diperbarui. Para pengraih URL menghormati file robots.txt Anda & Robots Meta Tags sehingga mereka dapat memasukkan / mengecualikan URL yang Anda inginkan / tidak ingin diindeks. (Catatan: URL yang sama dengan ID sesi yang berbeda dicatat sebagai URL unik yang berbeda. Untuk alasan ini, ID sesi sebaiknya dihindari, jika tidak mereka dapat disesatkan sebagai konten duplikat. Para pengguna URL menghabiskan sedikit waktu & bandwidth di situs web Anda, karena URL mereka pekerjaannya agak sederhana. Namun, supaya Anda tahu, mereka perlu memindai 8 hingga 10 Miliar URL di web setiap bulan. Bukan pekerjaan kecil dalam dirinya sendiri, bahkan untuk 1000 crawler.

Para pengumpul URL menulis URL yang diambil dengan stempel tanggal dan status lainnya dalam Daftar URL Master sehingga ini dapat diindeks dalam oleh crawler khusus lainnya.

Daftar induk kemudian diproses dan diklasifikasikan agak seperti -

a) URL baru terdeteksi

b) URL lama dengan cap tanggal baru

c) 301 & 302 URL yang dialihkan

d) URL lama dengan cap tanggal yang lama

e) 404 URL kesalahan

f) URL lainnya

Pengindeksan sebenarnya dilakukan oleh (apa yang memanggil) Deep Crawlers. Tugas crawler dalam adalah mengambil URL dari daftar master dan merayapi dalam setiap URL dan menangkap semua konten - teks, HTML, gambar, flash dll.

Prioritas diberikan pada 'URL lama dengan cap tanggal baru' karena berkaitan dengan konten yang sudah diindeks tetapi diperbarui. '301 & 302 URL arahan ulang' datang berikutnya dalam prioritas diikuti oleh 'URL baru terdeteksi'. Prioritas tinggi diberikan pada URL yang tautannya muncul di beberapa situs lain. Ini diklasifikasikan sebagai URL penting. Situs dan URL yang cap tanggal dan isinya berubah setiap hari atau setiap jam dicap sebagai situs Berita yang diindeks setiap jam atau bahkan berdasarkan menit-demi-menit.

Pengindeksan 'URL lama dengan cap tanggal lama' dan '404 URL kesalahan' diabaikan sama sekali. Tidak ada gunanya membuang-buang sumber daya mengindeks 'URL lama dengan cap tanggal lama', karena mesin pencari sudah memiliki konten yang diindeks, yang belum diperbarui. '404 URL kesalahan' adalah URL yang dikumpulkan dari berbagai situs tetapi merupakan tautan rusak atau halaman kesalahan. URL-URL ini tidak menunjukkan konten apa pun di dalamnya.

URL Lainnya dapat berisi URL yang merupakan URL dinamis, memiliki ID sesi, dokumen PDF, dokumen Word, presentasi PowerPoint, file Multimedia, dll. Google perlu memproses lebih lanjut dan menilai mana yang layak diindeks dan seberapa dalam. Mungkin mengalokasikan tugas pengindeksan ini ke Crawler Khusus.

Ketika Google menjadwalkan Deep Crawlers untuk mengindeks URL Baru dan 301 & 302 URL yang dialihkan, hanya URL (bukan deskripsi) mulai muncul di halaman hasil mesin pencari ketika Anda menjalankan pencarian "situs: www.domain.com" di Google. Ini disebut hasil tambahan, yang berarti bahwa Perayap Mendalam akan segera mengindeks konten ketika perayap mendapatkan waktu untuk melakukannya.

Karena Deep Crawlers perlu merayapi Miliaran halaman web setiap bulan, mereka memerlukan waktu 4 hingga 8 minggu untuk mengindeks konten yang bahkan diperbarui. URL baru mungkin perlu waktu lebih lama untuk diindeks.

Setelah Deep Crawlers mengindeks konten, itu masuk ke IDC mereka yang berasal. Konten kemudian diproses, disortir dan direplikasi (disinkronkan) ke seluruh IDC. Beberapa tahun yang lalu, ketika ukuran data dikelola, sinkronisasi data ini digunakan sebulan sekali, yang berlangsung selama 5 hari, disebut Google Dance. Saat ini, sinkronisasi data terjadi terus-menerus, yang oleh sebagian orang disebut Everflux.

Ketika Anda menekan http://www.google.com dari browser Anda, Anda dapat mendarat di salah satu dari 10 IDC mereka tergantung pada kecepatan dan ketersediaannya. Karena data pada waktu tertentu sedikit berbeda di setiap IDC, Anda mungkin mendapatkan hasil yang berbeda pada waktu yang berbeda atau pada pencarian berulang dengan istilah yang sama (Google Dance).

Intinya adalah bahwa seseorang perlu menunggu selama 8 hingga 12 minggu, untuk melihat pengindeksan penuh di Google. Orang harus menganggap ini sebagai waktu memasak di dapur Googles. Kecuali Anda dapat meningkatkan pentingnya halaman web Anda dengan mendapatkan beberapa tautan masuk dari situs-situs yang bagus, tidak ada cara untuk mempercepat proses pengindeksan, kecuali jika Anda secara pribadi mengenal Sergey Brin & Larry Page, dan memiliki pengaruh yang signifikan terhadapnya.

URL dinamis mungkin membutuhkan waktu lebih lama untuk diindeks (kadang-kadang tidak diindeks sama sekali) karena bahkan data kecil dapat membuat URL tidak terbatas, yang dapat mengacaukan indeks Google dengan konten duplikat.

Apa yang harus dilakukan:

Pastikan Anda telah membersihkan semua penghalang jalan untuk perayap dan mereka dapat dengan bebas mengunjungi situs Anda dan menangkap semua URL. Bantu perayap dengan membuat tautan dan peta situs yang baik di situs web Anda.

Dapatkan banyak tautan masuk yang baik ke halaman Anda dari situs web lain untuk meningkatkan pentingnya halaman web Anda. Tidak ada kebutuhan khusus untuk mengirimkan situs web Anda ke mesin pencari. Tautan ke situs web Anda di situs web lain sudah cukup.



Comments

Popular posts from this blog

dbhd

index recipes

indeks aja