HTML

HTML adalah bahasa dasar yang digunakan untuk mengatur dan menampilkan konten di web.

Definisi

HTML (HyperText Markup Language) adalah bahasa markup standar yang menentukan struktur dan tata letak halaman web. Ia menggunakan sistem tag dan elemen untuk mengatur teks, gambar, tautan, dan komponen interaktif sehingga peramban dapat menampilkannya dengan benar. HTML berperan sebagai fondasi semua situs web dan biasanya dikombinasikan dengan CSS untuk styling dan JavaScript untuk perilaku dinamis. Dalam penggalian web dan otomatisasi, HTML berfungsi sebagai sumber data utama yang dibaca oleh bot untuk mengekstrak informasi atau berinteraksi dengan elemen halaman.

Kelebihan

  • Standar universal yang didukung oleh semua peramban web dan platform
  • Menyediakan representasi yang jelas dan terstruktur dari konten web
  • Mudah dipelajari dan memiliki dokumentasi yang luas, membuatnya aksesibel bagi pengembang dan alat otomatisasi
  • Memungkinkan integrasi dengan CSS dan JavaScript untuk aplikasi web yang kaya dan dinamis
  • Penting untuk penguraian dan ekstraksi data dalam alur kerja penggalian web

Kekurangan

  • Bukan bahasa pemrograman, sehingga tidak dapat melakukan logika atau perhitungan sendiri
  • HTML yang kompleks atau tidak terstruktur dengan baik dapat membuat penggalian dan penguraian sulit
  • Perubahan DOM yang sering pada situs web modern dapat merusak skrip penggalian
  • Konten dinamis yang ditampilkan melalui JavaScript mungkin tidak lengkap dalam HTML mentah
  • Membutuhkan teknologi tambahan (CSS, JS) untuk fungsionalitas dan interaktivitas penuh

Kasus Penggunaan

  • Membangun dan mengatur halaman web untuk situs web dan aplikasi web
  • Menguraikan konten halaman dalam alur kerja penggalian dan ekstraksi data
  • Mengidentifikasi elemen (misalnya, formulir, tombol) untuk menyelesaikan CAPTCHA dan otomatisasi
  • Melatih sistem AI/LLM pada data web yang terstruktur
  • Menganalisis struktur DOM untuk deteksi bot dan strategi menghindari anti-bot