Ruang Panen Data

Pengguna

Terakhir diperbarui 5 Juli 2026

Masuk untuk melihat Ruang Panen Data

Panel personal menampilkan ringkasan milik Anda setelah login — data tidak dimuat di halaman publik.

Apa & untuk apa

Ruang Panen Data adalah fitur untuk mengambil data dari API situs lain secara tertata — lalu menyalurkannya langsung ke aset Dataset Anda. Hasil panen biasanya masih draft yang perlu dikurasi, tetapi sudah siap masuk alur Pabrik Data, Notebook, atau Ruang Metadata.

Berbeda dengan Data Sintesis (data buatan), Ruang Panen Data mengambil data dari sumber eksternal nyata — dengan batasan keamanan ketat: hanya domain tepercaya (allowlist), alamat internal/privat diblokir, dan rate limit sopan agar tidak membebani sumber.

Setelah login, panel Job Panen Saya menampilkan daftar job, status, dan tautan ke dataset hasil.

Cara kerja

Anda menyusun job panen lewat wizard langkah demi langkah:

Sumber — URL API (HTTPS), method, parameter, dan autentikasi (API key, bearer, basic).
Paginasi — strategi page/offset/cursor, ukuran halaman, batas max pages/records, rate per menit.
Pemetaan field — pratinjau 1 halaman, lalu petakan kolom keluaran ke path JSON sumber.
Tujuan dataset — buat dataset baru atau tambah versi ke dataset yang sudah ada (CSV/JSONL/Parquet).
Jalankan — job berjalan async di latar belakang; hasil ditulis ke SatuDanau dataset Anda.

Rahasia autentikasi disimpan aman di vault — tidak pernah ditampilkan ulang di UI setelah disimpan. Job bisa dibatalkan, diulang, dan dipantau progresnya (records_written).

Kapan dipakai

Cocok untuk:

Mengambil data terbuka dari API pemerintah, statistik, atau layanan yang Anda punya hak aksesnya.
Membangun dataset awal sebelum transformasi di Pabrik Data.
Memperbarui dataset secara berkala (mode versi baru) dari sumber yang sama.
Proyek riset/kompetisi yang butuh data eksternal terstruktur.

Kurang tepat bila:

Anda butuh data sintetis untuk latihan — gunakan Data Sintesis.
Sumber tidak punya API publik atau tidak ada di allowlist — minta penambahan ke admin atau kumpulkan manual.
Anda hanya butuh beberapa sel spreadsheet — coba Ruang Lembar Kerja dengan fungsi IMPORT.

Panen hanya untuk sumber yang Anda punya hak/izin aksesnya. Hormati ToS, robots.txt, dan rate limit.

Langkah demi langkah

Menyusun job panen

Buka menu Suite Data → Ruang Panen Data (/harvest).
Tekan Buat Job Panen.
Langkah Sumber: isi URL API (HTTPS), method (GET/POST), params, dan auth bila perlu.
Langkah Paginasi: pilih strategi, page_size, records_path (mis. data.items), batas halaman/rekord.
Langkah Pemetaan: tekan Pratinjau → lihat baris contoh → petakan kolom (opsional).
Langkah Tujuan: pilih buat dataset baru atau versi dataset existing; pilih format output.
Tinjau & Jalankan — job masuk antrean async.

Memantau job

Daftar job menampilkan status: draft, queued, running, completed, failed, canceled.
Job berjalan → pantau records_written naik.
Selesai → tekan Lihat dataset untuk membuka halaman Dataset hasil.
Gagal → baca error, perbaiki konfigurasi, tekan Coba lagi.

Setelah panen selesai

Buka dataset hasil — data masih draft, perlu kurasi.
Periksa kualitas: null, duplikat, tipe kolom.
Lanjutkan ke Pabrik Data untuk cleansing/transform ke silver/gold.
Opsional: tautkan Ruang Metadata untuk katalog & lineage.

Batas tier

Kapasitas panen mengikuti tier reputasi Anda. Angka berikut ilustratif — angka dapat berubah.

Tier	Job panen/hari	Maks. rekord per job	Rate default (req/menit)
Pemula	3	5.000	15
Kontributor	10	25.000	30
Ahli	25	100.000	60
Master	60	500.000	120
Grandmaster	200	2.000.000	300

Angka dapat berubah. Job melebihi kuota ditolak sebelum dijalankan. Atur rate_per_min rendah untuk sumber yang sensitif — kesopanan adalah tanggung jawab pengguna.

Poin & quest

Aktivitas	Poin (ilustratif)
Job panen selesai	+10
Dataset hasil panen diterbitkan	+10
Job panen dengan paginasi multi-halaman	+5

Quest bertema Ruang Panen Data:

Panen Pertama — buat job sederhana tanpa paginasi, 1 halaman API.
Paginasi Pintar — panen API berpaginasi (page atau cursor).
Pemetaan Field — petakan minimal 3 kolom dari pratinjau.
Dataset Draft — selesaikan job dan buka dataset hasil.
Naik Pipeline — olah hasil panen di Pabrik Data.

Masalah umum & solusi

Pesan / gejala	Solusi
Domain tidak dalam daftar izin (`not_allowlisted`)	Domain belum di-allowlist admin. Ajukan penambahan atau pilih sumber yang sudah diizinkan.
Target internal diblokir (`ssrf_blocked`)	URL mengarah ke alamat privat/localhost/metadata cloud — tidak diizinkan demi keamanan.
Skema URL harus HTTPS (`bad_scheme`)	Gunakan `https://` saja; HTTP plain ditolak.
Pratinjau kosong / records_path salah	Periksa path JSON (mis. `data` vs `data.items`). Uji dengan pratinjau sebelum run penuh.
Job gagal di tengah jalan	Cek rate limit sumber, auth expired, atau batas max_records. Retry setelah perbaikan.
Auth tidak bisa diedit	Rahasia disimpan di vault — buat job baru jika perlu ganti kredensial.
Data kotor / tidak konsisten	Normal untuk draft — kurasi di Pabrik Data sebelum analitik.

Hanya domain tepercaya (allowlist) yang bisa dipanen. Fitur ini dirancang aman & transparan — bukan alat scraping sembarangan.

Fitur terkait

Dataset — tujuan langsung hasil panen (SatuDanau).
Pabrik Data — kurasi & transform draft panen menjadi data siap analitik.
Data Sintesis — alternatif data buatan (bukan dari API eksternal).
Ruang Metadata — katalog, kualitas, dan lineage dataset hasil panen.
Ruang Lembar Kerja — IMPORT dari domain tepercaya untuk data kecil.
Notebook — eksplorasi cepat dataset hasil panen.