Ruang Panen Data
Masuk untuk melihat Ruang Panen Data
Panel personal menampilkan ringkasan milik Anda setelah login — data tidak dimuat di halaman publik.
MasukApa & untuk apa
Ruang Panen Data adalah fitur untuk mengambil data dari API situs lain secara tertata — lalu menyalurkannya langsung ke aset Dataset Anda. Hasil panen biasanya masih draft yang perlu dikurasi, tetapi sudah siap masuk alur Pabrik Data, Notebook, atau Ruang Metadata.
Berbeda dengan Data Sintesis (data buatan), Ruang Panen Data mengambil data dari sumber eksternal nyata — dengan batasan keamanan ketat: hanya domain tepercaya (allowlist), alamat internal/privat diblokir, dan rate limit sopan agar tidak membebani sumber.
Cara kerja
Anda menyusun job panen lewat wizard langkah demi langkah:
- Sumber — URL API (HTTPS), method, parameter, dan autentikasi (API key, bearer, basic).
- Paginasi — strategi page/offset/cursor, ukuran halaman, batas max pages/records, rate per menit.
- Pemetaan field — pratinjau 1 halaman, lalu petakan kolom keluaran ke path JSON sumber.
- Tujuan dataset — buat dataset baru atau tambah versi ke dataset yang sudah ada (CSV/JSONL/Parquet).
- Jalankan — job berjalan async di latar belakang; hasil ditulis ke SatuDanau dataset Anda.
Rahasia autentikasi disimpan aman di vault — tidak pernah ditampilkan ulang di UI setelah disimpan. Job bisa dibatalkan, diulang, dan dipantau progresnya (records_written).
Kapan dipakai
Cocok untuk:
- Mengambil data terbuka dari API pemerintah, statistik, atau layanan yang Anda punya hak aksesnya.
- Membangun dataset awal sebelum transformasi di Pabrik Data.
- Memperbarui dataset secara berkala (mode versi baru) dari sumber yang sama.
- Proyek riset/kompetisi yang butuh data eksternal terstruktur.
Kurang tepat bila:
- Anda butuh data sintetis untuk latihan — gunakan Data Sintesis.
- Sumber tidak punya API publik atau tidak ada di allowlist — minta penambahan ke admin atau kumpulkan manual.
- Anda hanya butuh beberapa sel spreadsheet — coba Ruang Lembar Kerja dengan fungsi IMPORT.
Langkah demi langkah
Menyusun job panen
- Buka menu Suite Data → Ruang Panen Data (
/harvest). - Tekan Buat Job Panen.
- Langkah Sumber: isi URL API (HTTPS), method (GET/POST), params, dan auth bila perlu.
- Langkah Paginasi: pilih strategi,
page_size,records_path(mis.data.items), batas halaman/rekord. - Langkah Pemetaan: tekan Pratinjau → lihat baris contoh → petakan kolom (opsional).
- Langkah Tujuan: pilih buat dataset baru atau versi dataset existing; pilih format output.
- Tinjau & Jalankan — job masuk antrean async.
Memantau job
- Daftar job menampilkan status:
draft,queued,running,completed,failed,canceled. - Job berjalan → pantau
records_writtennaik. - Selesai → tekan Lihat dataset untuk membuka halaman Dataset hasil.
- Gagal → baca
error, perbaiki konfigurasi, tekan Coba lagi.
Setelah panen selesai
- Buka dataset hasil — data masih draft, perlu kurasi.
- Periksa kualitas: null, duplikat, tipe kolom.
- Lanjutkan ke Pabrik Data untuk cleansing/transform ke silver/gold.
- Opsional: tautkan Ruang Metadata untuk katalog & lineage.
Batas tier
Kapasitas panen mengikuti tier reputasi Anda. Angka berikut ilustratif — angka dapat berubah.
| Tier | Job panen/hari | Maks. rekord per job | Rate default (req/menit) |
|---|---|---|---|
| Pemula | 3 | 5.000 | 15 |
| Kontributor | 10 | 25.000 | 30 |
| Ahli | 25 | 100.000 | 60 |
| Master | 60 | 500.000 | 120 |
| Grandmaster | 200 | 2.000.000 | 300 |
rate_per_min rendah untuk sumber yang sensitif — kesopanan adalah tanggung jawab pengguna.Poin & quest
| Aktivitas | Poin (ilustratif) |
|---|---|
| Job panen selesai | +10 |
| Dataset hasil panen diterbitkan | +10 |
| Job panen dengan paginasi multi-halaman | +5 |
Quest bertema Ruang Panen Data:
- Panen Pertama — buat job sederhana tanpa paginasi, 1 halaman API.
- Paginasi Pintar — panen API berpaginasi (page atau cursor).
- Pemetaan Field — petakan minimal 3 kolom dari pratinjau.
- Dataset Draft — selesaikan job dan buka dataset hasil.
- Naik Pipeline — olah hasil panen di Pabrik Data.
Masalah umum & solusi
| Pesan / gejala | Solusi |
|---|---|
| **Domain tidak dalam daftar izin (`not_allowlisted`)** | Domain belum di-allowlist admin. Ajukan penambahan atau pilih sumber yang sudah diizinkan. |
| **Target internal diblokir (`ssrf_blocked`)** | URL mengarah ke alamat privat/localhost/metadata cloud — tidak diizinkan demi keamanan. |
| **Skema URL harus HTTPS (`bad_scheme`)** | Gunakan `https://` saja; HTTP plain ditolak. |
| **Pratinjau kosong / records_path salah** | Periksa path JSON (mis. `data` vs `data.items`). Uji dengan pratinjau sebelum run penuh. |
| **Job gagal di tengah jalan** | Cek rate limit sumber, auth expired, atau batas max_records. Retry setelah perbaikan. |
| **Auth tidak bisa diedit** | Rahasia disimpan di vault — buat job baru jika perlu ganti kredensial. |
| **Data kotor / tidak konsisten** | Normal untuk draft — kurasi di Pabrik Data sebelum analitik. |
Fitur terkait
- Dataset — tujuan langsung hasil panen (SatuDanau).
- Pabrik Data — kurasi & transform draft panen menjadi data siap analitik.
- Data Sintesis — alternatif data buatan (bukan dari API eksternal).
- Ruang Metadata — katalog, kualitas, dan lineage dataset hasil panen.
- Ruang Lembar Kerja — IMPORT dari domain tepercaya untuk data kecil.
- Notebook — eksplorasi cepat dataset hasil panen.