Lewati ke konten

Ruang Panen Data

Pengguna
Terakhir diperbarui 5 Juli 2026

Masuk untuk melihat Ruang Panen Data

Panel personal menampilkan ringkasan milik Anda setelah login — data tidak dimuat di halaman publik.

Masuk

Apa & untuk apa

Ruang Panen Data adalah fitur untuk mengambil data dari API situs lain secara tertata — lalu menyalurkannya langsung ke aset Dataset Anda. Hasil panen biasanya masih draft yang perlu dikurasi, tetapi sudah siap masuk alur Pabrik Data, Notebook, atau Ruang Metadata.

Berbeda dengan Data Sintesis (data buatan), Ruang Panen Data mengambil data dari sumber eksternal nyata — dengan batasan keamanan ketat: hanya domain tepercaya (allowlist), alamat internal/privat diblokir, dan rate limit sopan agar tidak membebani sumber.

Setelah login, panel Job Panen Saya menampilkan daftar job, status, dan tautan ke dataset hasil.

Cara kerja

Anda menyusun job panen lewat wizard langkah demi langkah:

  1. Sumber — URL API (HTTPS), method, parameter, dan autentikasi (API key, bearer, basic).
  2. Paginasi — strategi page/offset/cursor, ukuran halaman, batas max pages/records, rate per menit.
  3. Pemetaan field — pratinjau 1 halaman, lalu petakan kolom keluaran ke path JSON sumber.
  4. Tujuan dataset — buat dataset baru atau tambah versi ke dataset yang sudah ada (CSV/JSONL/Parquet).
  5. Jalankan — job berjalan async di latar belakang; hasil ditulis ke SatuDanau dataset Anda.

Rahasia autentikasi disimpan aman di vault — tidak pernah ditampilkan ulang di UI setelah disimpan. Job bisa dibatalkan, diulang, dan dipantau progresnya (records_written).

Kapan dipakai

Cocok untuk:

  • Mengambil data terbuka dari API pemerintah, statistik, atau layanan yang Anda punya hak aksesnya.
  • Membangun dataset awal sebelum transformasi di Pabrik Data.
  • Memperbarui dataset secara berkala (mode versi baru) dari sumber yang sama.
  • Proyek riset/kompetisi yang butuh data eksternal terstruktur.

Kurang tepat bila:

  • Anda butuh data sintetis untuk latihan — gunakan Data Sintesis.
  • Sumber tidak punya API publik atau tidak ada di allowlist — minta penambahan ke admin atau kumpulkan manual.
  • Anda hanya butuh beberapa sel spreadsheet — coba Ruang Lembar Kerja dengan fungsi IMPORT.
Panen hanya untuk sumber yang Anda punya hak/izin aksesnya. Hormati ToS, robots.txt, dan rate limit.

Langkah demi langkah

Menyusun job panen

  1. Buka menu Suite Data → Ruang Panen Data (/harvest).
  2. Tekan Buat Job Panen.
  3. Langkah Sumber: isi URL API (HTTPS), method (GET/POST), params, dan auth bila perlu.
  4. Langkah Paginasi: pilih strategi, page_size, records_path (mis. data.items), batas halaman/rekord.
  5. Langkah Pemetaan: tekan Pratinjau → lihat baris contoh → petakan kolom (opsional).
  6. Langkah Tujuan: pilih buat dataset baru atau versi dataset existing; pilih format output.
  7. Tinjau & Jalankan — job masuk antrean async.

Memantau job

  1. Daftar job menampilkan status: draft, queued, running, completed, failed, canceled.
  2. Job berjalan → pantau records_written naik.
  3. Selesai → tekan Lihat dataset untuk membuka halaman Dataset hasil.
  4. Gagal → baca error, perbaiki konfigurasi, tekan Coba lagi.

Setelah panen selesai

  1. Buka dataset hasil — data masih draft, perlu kurasi.
  2. Periksa kualitas: null, duplikat, tipe kolom.
  3. Lanjutkan ke Pabrik Data untuk cleansing/transform ke silver/gold.
  4. Opsional: tautkan Ruang Metadata untuk katalog & lineage.

Batas tier

Kapasitas panen mengikuti tier reputasi Anda. Angka berikut ilustratif — angka dapat berubah.

TierJob panen/hariMaks. rekord per jobRate default (req/menit)
Pemula35.00015
Kontributor1025.00030
Ahli25100.00060
Master60500.000120
Grandmaster2002.000.000300
Angka dapat berubah. Job melebihi kuota ditolak sebelum dijalankan. Atur rate_per_min rendah untuk sumber yang sensitif — kesopanan adalah tanggung jawab pengguna.

Poin & quest

AktivitasPoin (ilustratif)
Job panen selesai+10
Dataset hasil panen diterbitkan+10
Job panen dengan paginasi multi-halaman+5

Quest bertema Ruang Panen Data:

  1. Panen Pertama — buat job sederhana tanpa paginasi, 1 halaman API.
  2. Paginasi Pintar — panen API berpaginasi (page atau cursor).
  3. Pemetaan Field — petakan minimal 3 kolom dari pratinjau.
  4. Dataset Draft — selesaikan job dan buka dataset hasil.
  5. Naik Pipeline — olah hasil panen di Pabrik Data.

Masalah umum & solusi

Pesan / gejalaSolusi
**Domain tidak dalam daftar izin (`not_allowlisted`)**Domain belum di-allowlist admin. Ajukan penambahan atau pilih sumber yang sudah diizinkan.
**Target internal diblokir (`ssrf_blocked`)**URL mengarah ke alamat privat/localhost/metadata cloud — tidak diizinkan demi keamanan.
**Skema URL harus HTTPS (`bad_scheme`)**Gunakan `https://` saja; HTTP plain ditolak.
**Pratinjau kosong / records_path salah**Periksa path JSON (mis. `data` vs `data.items`). Uji dengan pratinjau sebelum run penuh.
**Job gagal di tengah jalan**Cek rate limit sumber, auth expired, atau batas max_records. Retry setelah perbaikan.
**Auth tidak bisa diedit**Rahasia disimpan di vault — buat job baru jika perlu ganti kredensial.
**Data kotor / tidak konsisten**Normal untuk draft — kurasi di Pabrik Data sebelum analitik.
Hanya domain tepercaya (allowlist) yang bisa dipanen. Fitur ini dirancang aman & transparan — bukan alat scraping sembarangan.

Fitur terkait

  • Dataset — tujuan langsung hasil panen (SatuDanau).
  • Pabrik Data — kurasi & transform draft panen menjadi data siap analitik.
  • Data Sintesis — alternatif data buatan (bukan dari API eksternal).
  • Ruang Metadata — katalog, kualitas, dan lineage dataset hasil panen.
  • Ruang Lembar Kerja — IMPORT dari domain tepercaya untuk data kecil.
  • Notebook — eksplorasi cepat dataset hasil panen.