Komponen Search Engine Web Crawler Indexer Spider

Maret 11, 2024
SEO Agency Indonesia
12 min read

Home
SEO website
Komponen Search Engine Web Cra ...

Daftar isi konten

Salah satu syarat utama menguasai Search Engine Optimization (SEO) yaitu mengenal baik seluk-beluk mesin pencari alias search engine. Oleh karena itu pemilik sebuah situs/blog sepatutnya dibekali pemahaman dasar soal apa itu indexer, web spider, web crawler, robot atau bot yang selama ini jadi andalan search engine. Semua komponen search engine tersebut memegang peranan penting dalam menampilkan halaman utama atau laman artikel sebuah situs agar terakses pengunjung.

Setelah sebelumnya dibahas detail mengenai Pengertian Search Engine, pada kesempatan kali ini kami akan mengupas lebih dalam apa saja komponen dalam search engine. Artikel ini akan dibuat dengan format tanya jawab untuk memudahkan Anda mempelajari lebih detail apa saja komponen dari mesin pencari dan penjelasannya.

Apa saja komponen search engine

Search engine memiliki beberapa komponen sehingga dapat menyediakan layanan mesin pencari informasi dengan jutaan database. Komponen tersebut antara lain :

Query Interface
Query Engine
Database
Spider atau Web Crawler
Indexer

Apa yang dimaksud Query Interface

Dilansir dari Salt Agency, dalam hal search engine, pencarian data adalah kombinasi dari agen-pengguna (perayap), database, cara pemeliharaannya, dan algoritma pencarian. Pengguna kemudian melihat dan berinteraksi dengan antarmuka kueri atau query interface.

Di ujung depan aplikasi (Front-End), mesin pencari memiliki antarmuka pengguna (user interface) di mana mereka dapat memasukkan kueri dan menemukan informasi spesifik yang berkaitan dengan apa yang telah mereka ketikkan. Ketika pengguna mengklik “pencarian”, mesin pencari mengambil hasil dari database-nya dan kemudian memeringkatnya berdasarkan berbagai bobot dan skor algoritma yang dikaitkan dengan titik data pada dokumen HTML. Mesin pencari modern juga menerapkan aspek pencarian yang dipersonalisasi untuk permintaan, sehingga peringkat 1-10 tidak lagi linear atau tepat.

Semua mesin pencari menyediakan antarmuka pengguna yang berbeda dan berbagai blok konten khusus. Penting juga untuk dicatat dalam beberapa kasus bahwa ada kurang dari 10 hasil teratas pada SERP.

Query interface adalah apa yang dipikirkan oleh 99 persen pengguna internet ketika Anda berbicara tentang mesin pencari, karena itu adalah halaman tempat mereka berinteraksi dan mengambil nilai dari search engine.

Antarmuka kueri dapat datang dalam berbagai bentuk, mulai dari bilah pencarian standar dan sederhana yang banyak dari kita terbiasa menggunakannya (misalnya Google), hingga konsep yang lebih visual (misalnya Bing), dan halaman yang sangat sibuk yang bertindak sebagai pusat informasi tanpa kueri bahkan sedang dilakukan (misalnya Yahoo).

Apa itu Query Engine

Query Engine adalah program yang bertugas menterjemahkan keinginan user ke dalam bahasa yang dimengerti oleh mesin komputer dalam hal ini mesin pencari. Query Engine inilah yang segera melakukan pencarian arsip dan dokumen yang tepat di dalam sistem database mesin pencari tersebut.

Dilansir dari Techopedia, Search engine query adalah permintaan untuk informasi yang dibuat menggunakan mesin pencari. Setiap kali pengguna menempatkan serangkaian karakter di mesin pencari dan menekan “Enter”, permintaan mesin pencari dibuat. Rangkaian karakter (seringkali satu atau lebih kata) bertindak sebagai kata kunci yang digunakan mesin pencari untuk secara algoritmik mencocokkan hasil dengan kueri. Hasil ini ditampilkan pada halaman hasil mesin pencari (SERP) dalam urutan signifikansi (sesuai dengan algoritma).

Setiap permintaan mesin pencari menambah massa data analitik di Internet. Semakin banyak mesin pencari data yang mengumpulkan, semakin akurat hasil pencarian dan itu hal yang baik bagi pengguna internet.

Permintaan mesin pencari dulunya cukup sederhana, tetapi pengguna harus menjadi lebih mengerti karena jumlah situs di Web telah menggelembung. Misalnya, untuk mendapatkan definisi istilah perangkat lunak perusahaan, Anda tidak bisa hanya membuat permintaan mesin pencari untuk itu. Alih-alih, lebih baik menggunakan “definisi perangkat lunak perusahaan” atau, jika Anda memiliki sumber terpercaya dalam pikiran, “SEON definisi perangkat lunak perusahaan.” Ada banyak trik lain, seperti menggunakan kutipan di dalam bilah pencarian atau menentukan di mana mesin pencari mencari dengan menggunakan fungsi “site:”.

Meskipun kebanyakan orang membuat permintaan mesin pencari tanpa berpikir dua kali, perusahaan yang menjual produk dan layanan atau memproduksi konten untuk Web memperhatikan dengan seksama data tentang permintaan mesin pencari populer dan jumlah global dari permintaan mesin pencari spesifik pada kata kunci tertentu. Data ini membantu mereka mengoptimalkan situs mereka untuk mencocokkan rentang pertanyaan dengan produk atau layanan yang mereka tawarkan.

Salah satu syarat agar program dikatakan dalam search engine adalah memiliki query engine.

Apa itu Database

Dilansir dari Wikipedia, Database adalah Pangkalan data atau basis data yaitu kumpulan informasi yang disimpan di dalam komputer secara sistematik sehingga dapat diperiksa menggunakan suatu program komputer untuk memperoleh informasi dari basis data tersebut. Perangkat lunak yang digunakan untuk mengelola dan memanggil kueri basis data disebut sistem manajemen basis data (database management system). Sistem basis data dipelajari dalam ilmu informasi.

Istilah “basis data” berawal dari ilmu komputer. Meskipun kemudian artinya semakin luas, memasukkan hal-hal di luar bidang elektronika. Catatan yang mirip dengan basis data sebenarnya sudah ada sebelum revolusi industri yaitu dalam bentuk buku besar, kuitansi dan kumpulan data yang berhubungan dengan bisnis.

Konsep dasar dari basis data adalah kumpulan dari catatan-catatan, atau potongan dari pengetahuan. Sebuah database memiliki penjelasan terstruktur dari jenis fakta yang tersimpan di dalamnya: penjelasan ini disebut skema. Skema menggambarkan objek yang diwakili suatu basis data, dan hubungan di antara objek tersebut. Ada banyak cara untuk mengorganisasi skema, atau memodelkan struktur basis data: ini dikenal sebagai model basis data atau model data.

Model yang umum digunakan sekarang adalah model relasional, yang menurut istilah layman mewakili semua informasi dalam bentuk tabel-tabel yang saling berhubungan di mana setiap tabel terdiri dari baris dan kolom (definisi yang sebenarnya menggunakan terminologi matematika). Dalam model ini, hubungan antar tabel diwakili dengan menggunakan nilai yang sama antar tabel. Model yang lain seperti model hierarkis dan model jaringan menggunakan cara yang lebih eksplisit untuk mewakili hubungan antar tabel.

Istilah database mengacu pada koleksi dari data-data yang saling berhubungan, dan perangkat lunaknya seharusnya mengacu sebagai sistem manajemen basis data (database management system/DBMS). Jika konteksnya sudah jelas, banyak administrator dan programer menggunakan istilah database untuk kedua arti tersebut.

Jadi secara konsep database adalah kumpulan dari data-data yang membentuk suatu berkas (file) yang saling berhubungan (relation) dengan tatacara yang tertentu untuk membentuk data baru atau informasi. Atau merupakan kumpulan dari data yang saling berhubungan antara satu dengan yang lainnya yang diorganisasikan berdasarkan skema atau struktur tertentu.

Berbagai kumpulan atau daftar dari dokumen maupun arsip dari seluruh situs yang ada di internet adalah database search engine itu sendiri.

apa itu web spider

Pengertian Web Spider adalah sebuah program dirancang khusus untuk mengunjungi sebuah situs, membaca halaman dan beragam informasi penting lainnya dalam upaya membuat catatan penting bagi search engine index. Dengan demikian kinerja semakin ringan dan cepat.

Sebagian besar layanan search engine mengusung program spider ini yang terkadang diberi nama berbeda meski fungsinya serupa. Web Crawler atau bot merupakan nama lain robot yang digunakan oleh mesin pencari, adapun tujuan utama program spider adalah mengunjungi situs secara utuh ataupun artikel/postingan yang baru saja dirilis. Keseluruhan situs atau halaman tertentu dapat dikunjungi dan terindeks secara selektif.

Kenapa program unik ini diberi nama spider? Pemberian nama seperti hewan serangga “laba-laba” karena cara kerjanya yang serupa. Web Spider mengunjungi banyak situs sejajar dalam waktu bersamaan, persis kaki dari seekor laba-laba yang dapat menjangkau area luas pada jaring sangkarnya. Web Spider dapat “merayap” ke berbagai laman sebuah website dalam beberapa cara. Salah satunya adalah mengikuti semua link hypertext di setiap halaman hingga semua halaman selesai terbaca.

Contoh program spider diantaranya web spider atay crawler mesin pencari google, yahoo, yandex, bing, dan lainnya.

Sebagai tambahan referensi, berdasarkan webopedia, spider adalah program yang secara otomatis mengambil halaman Web. Laba-laba digunakan untuk memberi makan halaman ke mesin pencari. Ini disebut laba-laba karena merayapi melalui Web. Istilah lain untuk program ini adalah webcrawler.

Karena sebagian besar halaman Web berisi tautan ke halaman lain, laba-laba dapat memulai hampir di mana saja. Segera setelah ia melihat tautan ke halaman lain, ia berbunyi dan mengambilnya. Mesin pencari besar, seperti Alta Vista, memiliki banyak laba-laba yang bekerja secara paralel.

Apa itu Web Crawler

Membahas web crawler tak ada bedanya seperti menyinggung spider. Mengapa demikian? Sejujurnya keduanya itu bagai cermin, definisi serupa hanya terbungkus dalam istilah kata berbeda. Ya, komponen search engine crawler itu nama lain dari spider dan begitu pula sebaliknya. Sebagaimana dilansir dari laman TechTarget, crawler adalah sebuah program buatan yang bertujuan mengunjungi situs dan membaca semua halaman serta informasi untuk menghasilkan catatan penting bagi index search engine.

Peran web crawler sudah tidak tergantikan dan semua layanan search engine butuh itu. Masing-masing mengusung nama berbeda meski berlatar belakang sama, tak heran ada pihak yang menyebutnya spider atau bot. Crawler sengaja diprogram untuk mengunjungi semua situs yang diajukan atau submit ke layanan mesin pencari. Tak hanya keseluruhan situs, melainkan semua halaman satu per satu, entah itu artikel baru rilis dan diperbarui.

Crawler sengaja dirancang khusus agar selektif mengunjungi dan mengindeks situs secara utuh atau halaman spesifik saja. Lalu, mengapa diberi nama demikian? Ternyata semua merujuk pada cara kerja, dimana program merayap atau bergerak pelan sekali menyusuri sebuah situs dan halaman pada waktu bersamaan. Bahkan turut mengikuti link dari satu halaman ke halaman lain hingga semua halaman selesai terbaca. Perayapan ini bisa diartikan pengertian crawling itu sendiri.

Sederhananya program web crawler berfungsi untuk mengunjungi semua konten situs secara utuh untuk kemudian memberikan data kepada indexer untuk diolah di query engine mesin pencari.

Pengertian Metacrawler

Sebagai tambahan referensi, ada program lain yang sedikit berkaitan yaitu program metacrawler.

Dilansir dari Wikipedia, Metacrawler adalah mesin metasearch yang memadukan hasil pencarian atas web dari Google, Yahoo!, Bing, Ask.com, About.com, MIVA, Looksmart dan mesin pencari populer lainnya. MetaCrawler juga memberikan pengguna pilihan untuk mencari gambar, video, berita. MetaCrawler memulai langkahnya di akhir 90-an saat itulah kata kerja “metacrawled” digunakan oleh pembawa acara talk show Conan O’Brien di TRL. MetaCrawler adalah merek dagang terdaftar dari InfoSpace, Inc.

MetaCrawler awalnya dikembangkan pada tahun 1994 di University of Washington oleh mahasiswa pascasarjana Aaron Collins dan Profesor Oren Etzioni sebagai Erik Selberg’s Ph.D. proyek kualifikasi. Awalnya, dibuat untuk memberikan lapisan daya tarik yang dapat diandalkan untuk program mesin pencari web untuk mempelajari struktur semantik di World Wide Web. MetaCrawler bukan mesin metasearch pertama di World Wide Web. Prestasi itu milik SavvySearch, yang dikembangkan di Colorado State University, meskipun diluncurkan hanya empat bulan sebelum MetaCrawler.

Apa Pengertian Indexer

Pengertian indexer atau indexing adalah sebuah proses pengumpulan, penguraian dan penyimpanan data untuk digunakan kembali oleh search engine. Bisa disimpulkan bahwa indexer adalah bagian atau “tempat” dari semua kumpulan data hasil koleksi search engine. Tugasnya berkaitan erat menampilkan data hasil pertanyaan dan hasil penelusuran dengan kata kunci atau keyword.

Fungsi indexer adalah untuk mempercepat proses pencarian. Cara kerjanya mirip dengan prinsip penggunaan indeks pada kamus atau buku. Tanpa adanya index, maka kerja search engine semakin berat dan lamban dalam menghasilkan jawaban atas pertanyaan para pengguna. Tanpa sentuhan index bisa dipastikan kinerja semakin rumit karena terus menjalani penelusuran halaman situs dan data yang berkaitan langsung dengan kata kunci, bahkan turut memastikan tak ada satupun yang terlewati.

Indexer tidak sendirian dalam melaksanakan tugas, bahkan turut dipermudah kehadiran web spider atau web crawler. Dengan begitu pengumpulan informasi jadi semakin ringan dan cepat, malahan turut membantu proses pembaruan data serta terbebas dari ancaman spam. Ada banyak bagian berbeda melekat erat pada search engine index seperti faktor desain dan struktur data. Faktor desain bertujuan merancang arsitektur index dan menentukan cara kerja index.

Apa itu Robot atau Bot !

Selain indexer, spider dan crawler, maka ada satu lagi istilah yang wajib diketahui yakni robot atau biasa dipanggil bot. Robot menurut pengertian dasar adalah sebuah program yang berjalan otomatis di internet, tetapi pada kenyataan tak semua berjalan tanpa lepas kendali begitu saja.

Beberapa bot justru akan melaksanakan perintah usai menerima masukan atau input spesifik. Bot terbagi menjadi beberapa tipe, tetapi sebagian besar yang beredar di internet justru berkaitan erat dengan crawler, chat room bot dan malicious bot. Crawler seringkali digunakan oleh layanan search engine untuk memindai situs secara teratur.

Jenis bot ini akan bergerak perlahan menyusuri situs dengan mengikuti link di setiap halaman. Crawler nantinya menyimpan konten setiap halaman pada index pencarian. Dengan memakai algoritma kompleks, search engine dapat menampilkan halaman paling relevan yang berhasil ditemui oleh crawler untuk menjawab pertanyaan spesifik.

Robot sebagai komponen search engine selain dikenal sebutan “bot” ternyata juga memiliki nama lain tak kalah beken seperti bot, wanderer, spider, and crawler. Terlepas dari perbedaan nama, program tersebut merupakan andalan bagi layanan mesin pencari beken dunia seperti Google, Bing, and Yahoo! Robot sengaja dirancang untuk membangun database. Sebenarnya sebagian besar robot bekerja seperti web browser, hanya saja tidak butuh interaksi pengguna.

Mudah sekali bagi robot mengakses sebuah situs. Sebagaimana tertulis pada paragraf sebelumnya, bot seringkali memakai link untuk mencari dan terhubung dengan situs lain. Dengan begitu bisa mengindeks judul, ringkasan atau seluruh konten dokumen jauh lebih cepat ketimbang kemampuan manusia. Oleh karena itu layanan search engine terus berusaha memperbaiki kualitas bot demi hasil penelusuran lebih baik lagi.

Kehadiran robot memang menguntungkan search engine, apalagi terkenal efisiensi dan cepat. Akan tetapi bisa menjadi malapetaka bagi pemilik situs jika robot dirancang dengan konstruksi buruk. Mengapa demikian? Ketika “robot berkualitas rendah” menyusuri situs, maka kinerja server pun semakin berat. Oleh karena itu pemilik situs dapat mengecualikan atau membatasi akses robot dengan menaruh file robots.txt pada server. Nantinya file tersebut akan menjabarkan perintah mengenai apa saja bagian dari situs yang boleh diakses.

Kesimpulan

Jika melihat penjelasan tentang indexer, web spider, web crawler dan bot, maka bisa ditarik kesimpulan bahwa ketiga istilah tersebut memiliki makna serupa. Spider merupakan nama lain dari crawler dan bot, begitu pula sebaliknya. Hampir semua layanan search engine terutama pemain raksasa seperti Google, Bing dan Yahoo sangat mengandalkannya untuk penyusunan indeks.

Indexer atau proses indexing sangat tergantung pada kesiapan spider, crawler atau bot. Dengan konstruksi rapi berkualitas, justru membantu pengumpulan data semakin lebih cepat dan akurat. Umumnya setiap layanan search engine memiliki robot andalan berbeda-beda, sehingga mempengaruhi hasil pencarian. Sampai saat ini bot buatan Google masih keluar sebagai juara karena selalu menghasilkan informasi relevan sesuai pertanyaan atau kata kunci (keyword).

Penting sekali bagi pemilik situs mengenal apa itu indexer, spider, crawler, robot atau bot pada search engine agar tidak terjadi kesalahpahaman dan semakin mengerti seluk-beluk dunia SEO. Pengguna pun bisa memperoleh hasil efektif tanpa buang-buang banyak waktu.