SEO

[Basic Technical SEO I] : Bagaimana Cara Crawling Mesin Pencari / Search Engine Google Bekerja

Langsung backlink, riset keyword serach volume tinggi,  tambahin konten pilar, Berapakah slot untuk organik di pageone google, bagaimanakan cara kompetitor dalam menangani keyword yang kita target dan segenap teknik optimasi lainnya, tanpa mengetahui bagaimana siy caranya search engine(SE/google) bekerja. SE setiap harinya menyusuri (crawl) milyaran halaman dengan menggunakan tools crawler mereka yang sering disebut SE Bot ex. googlebot.  Berikut beberapa point Bagaimana Cara Crawling Mesin Pencari / Search Engine Google :

Crawling

Proses yang digunakan Crawler SE untuk mengunjungi, mengunduh suatu halaman untuk menemukan sesuatu yang baru dari suatu halaman website

Bagaimana Cara Mengidentifikasi Crawler dari sebuah SE?

Bot dari SE bisa diidentifikasi dari user agent yang mereka lewati ketika sebuah server untuk menuju suatu pages website

Berikut adalah beberapa user agents yang digunakan oleh SE :

  • Googlebot User Agent
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Bingbot User Agent
    Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
  • Baidu User Agent
    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
  • Yandex User Agent
    Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Cara Crawler Menemukan Pages ‘Baru’ :

  • Buat Sitemap, sesuaikan format dengan panduan sitemap dari google, submit sitemap ke dalam search console
  • Submit langsung url ke search engine (search console google), Gunakan URL Inspection tool. tools ini bukan hanya digunakan untuk proses index tapi bisa untuk memeriksa masalah yang ada dalam page itu, dan jika ditemukan bagusnya langsung diperbaiki, dan fitur ini juga dapat memeriksa content anda jika melakukan penambahan or perubahan content
Baca Juga  [Google Update May 2020] Core Algoritma Google

Indexing

Proses dimana mesin pencari mendapatkan informasi halaman website sebelum suatu kueri ditampilkan di mesin pencari. Google menggunakan proses inverted index / reverse index atau proses indeks terbalik

Apa Siy Inverted Index itu?

Inverted Index adalah sebuah sistem dimana database elemen teks dikompilasi bersama dengan pointer ke dokumen yang berisi elemen tersebut.

Versi Cache Index

Selain mengindeks halaman, mesin pencari juga dapat menyimpan versi teks dari sebuah dokumen termasuk semua HTML dan metadata. bisa di akses di google dengan cara mengetikan cache:namaurl

Indeks Terdiri Dari Elemen: 

  • Keyword apa yang ditemukan di halaman tersebut dan apa topik artikelnya?
  • Tipe Konten apa yang di halaman itu ( terbaca menggunakan Schema)
  • The freshness of the page  : Kapan kah kontennya dibuat/update?
  • user engagement  : Bagaimana visitor berinteraksi dihalaman itu seperti komentar, like or share

Tipe  File Yang Terindex di Google :

  • Adobe Flash (.swf)
  • Adobe Portable Document Format (.pdf)
  • Adobe PostScript (.ps)
  • Autodesk Design Web Format (.dwf)
  • Google Earth (.kml, .kmz)
  • GPS eXchange Format (.gpx)
  • Hancom Hanword (.hwp)
  • HTML (.htm, .html, other file extensions)
  • Microsoft Excel (.xls, .xlsx)
  • Microsoft PowerPoint (.ppt, .pptx)
  • Microsoft Word (.doc, .docx)
  • OpenOffice presentation (.odp)
  • OpenOffice spreadsheet (.ods)
  • OpenOffice text (.odt)
  • Rich Text Format (.rtf)
  • Scalable Vector Graphics (.svg)
  • TeX/LaTeX (.tex)
  • Text (.txt, .text, other file extensions), bahasa pemrograman:
    • Basic source code (.bas)
    • C or C++
    • C# source code (.cs)
    • Java source code (.java)
    • Perl source code (.pl)
    • Python source code (.py)
  • Wireless Markup Language (.wml, .wap)
  • XML (.xml)

Mengapa page bisa tidak terindex

Ada beberapa  penyebab page tidak terindex diantaranya :

  • Cek file robots.txt : file ini bisa memberitahukan SE page mana saja yang jangan dikunjungi atau diindex
  • Cek Langsung di code pagenya adakah tag no index
Baca Juga  [Google Update May 2020] Core Algoritma Google

noindex tag seo

  • low quality content, thin content (sedikit content) atau mengandung konten yang sama (duplikat konten) dengan web lain
  • Page Mengarah ke  page yang error (ex. 404 atau not found  page)

Google Algoritma

Sistem yang kompleks yang digunakan untuk mengambil data dari indeks pencarian dan langsung memberikan hasil yang terbaik untuk query.

SE menggunakan berbagai kombinasi dari algoritma dan berbagai peringkat sinyal untuk menampilkan peringkat halaman web  oleh relevansi pada halaman hasil mesin pencari (SERPs).

Beberapa Indikator Abadi Google Algoritma sering saya jadikan analisa terhadap kompetitor :

  • URLs : apakah keyword terletak di url?
  • Content : Seberapa deep content Kompetitor di pageone?
  • Internal links : mengarah ke content apa dan mendapatkan internal link dari page apa saja
  • External links : darimana sajakah backlins berasal
  • Images : seberapa image dioptimasi( size image, alt image etc) dan diperlukan dalam sebuah konten
  • Pages Speed :bisa menggunakan google pagespeed, gk hanya melulu skor tinggi, tapi coba analisa hal hal yang bisa dioptimasi dari suatu halaman web baik image, caching, javascript code etc

Machine learning (RankBrain)

Google mempunyai machine learning yang disebut RankBrain yang digunakan untuk menyusun hasil pencarian dan memprosess dan memahami banyak kueri pencarian. yang bisa menTweak dirinya sendiri untuk memperbaiki dirinya sendiri dan gilanya lagi Google menyerahkan ke Rankbrain untuk mengidentifikasikan url page yg terbaik untuk diberikan, kurang lebih seperti ini pembagian kerja untuk RankBrain di mesin pencari google.

RankBrain Smarter than google engineers

User Intent – Search Intent ( Niat Pengguna)

Motivasi seseorang dalam memncari sebuah jawaban di mesin pencari, dengan mengetahui user intent kita dapat menyiapkan jawaban (konten) yang diinginkan oleh user.

Contoh Keyword User Intent :

  • gejala sakit jantung
  • kalori sayuran
  • kurs rupiah
  • Presiden Amerika
Baca Juga  [Google Update May 2020] Core Algoritma Google

presiden amerika user intent

contoh keyword diatas sebaiknya dihindari, dikarenakan google sekarang sudah menyiapkan Quic Box  / jawaban – jawaban langsung di mesin pencarinya sehingga kita bisa kehilangan traffik.

Leave a Reply

Your email address will not be published.

Back to top button
Close
Close