Data Sintesis
Apa & untuk apa
Data Sintesis adalah fitur untuk menghasilkan dataset sintetis berkonteks Indonesia dari deskripsi masalah — tanpa perlu mengumpulkan data lapangan sungguhan. Cocok untuk latihan pipeline, prototyping model, demo kompetisi, atau eksperimen di Ruang Ide ketika data nyata belum tersedia.
Cara kerjanya hemat: AI hanya merancang spesifikasi (skema + aturan tiap kolom), lalu generator lokal (Faker id_ID) membuat N baris secara deterministik. Biaya token tetap kecil walau Anda meminta jutaan baris — kualitas lebih terkendali daripada AI mengarang baris satu per satu.
Cara kerja
Alur Data Sintesis punya dua fase:
- Perencanaan — AI (mode prompt) atau Anda sendiri (mode skema manual) menentukan spesifikasi:
nama kolom, tipe data (int, float, category, name, city, phone, dll.), dan aturan (distribusi, kategori, rentang tanggal).
- Generasi — generator lokal membuat baris sesuai spec + seed tetap, sehingga hasil reproducible
(bisa dibuat ulang dengan spec yang sama).
Dua mode input:
| Mode | Kuota AI | Kapan dipakai |
|---|---|---|
| **Dari masalah (prompt)** | Memakai 1 rencana AI | Anda punya ide masalah, belum tahu skema detail |
| **Skema manual** | Tidak memakai kuota AI | Anda sudah tahu struktur kolom yang diinginkan |
Setelah job selesai, Anda bisa mengedit spec dan membuat ulang tanpa kuota AI — iterasi hemat biaya. Hasil wajib berlabel "Data Sintesis" dan spec disimpan agar transparan & reproducible.
Kapan dipakai
Cocok untuk:
- Latihan analisis, pipeline, atau modeling tanpa data sensitif/asli.
- Demo UMKM, transaksi, demografi Indonesia untuk portofolio atau course.
- Mengisi kebutuhan data awal di Ruang Ide sebelum solusi tim dikerjakan.
- Prototyping kompetisi atau baseline model sebelum data resmi tersedia.
Kurang tepat bila:
- Anda butuh data resmi instansi — data sintesis bukan pengganti data lapangan.
- Anda ingin data real-time dari API eksternal — gunakan Ruang Panen Data.
- Volume sangat besar untuk produksi — pertimbangkan sumber data nyata + Pabrik Data.
Langkah demi langkah
Membuat dataset sintesis
- Buka menu Suite Data → Data Sintesis (
/synthesis). - Periksa kuota di atas form: sisa rencana AI hari ini dan maks baris tier Anda.
- Pilih mode:
- Dari masalah — tulis deskripsi (mis. "Transaksi harian warung makan di Bandarlampung,
kolom tanggal, produk, qty, harga").
- Skema manual — isi tabel kolom: nama, dtype, params.
- Tentukan jumlah baris (
n_rows) dan nama dataset. - Tekan Buat — job masuk antrean.
Memantau job
- Halaman memantau status secara otomatis:
- Antre → Merancang (AI) → Membuat data → Selesai (atau Gagal).
- Bila gagal, baca pesan error dan coba lagi (mis. kurangi baris atau perbaiki spec).
- Riwayat job tersimpan di bagian Job Saya.
Mengedit spec & membuat ulang
- Setelah job selesai, buka editor spec — lihat kolom, dtype, dan params.
- Edit aturan (mis. tambah kategori produk, ubah distribusi harga).
- Tekan Buat ulang dengan spec ini — tanpa memakai kuota AI.
- Iterasi sampai statistik dan contoh baris sesuai kebutuhan.
Pratinjau, unduh, dan terbitkan
- Lihat pratinjau (20 baris pertama) sebagai tabel.
- Unduh CSV lewat tautan hasil.
- Tekan Terbitkan sebagai dataset — isi judul dan visibilitas.
- Dataset muncul di aset Dataset dengan label Data Sintesis + spec tampil untuk transparansi.
Batas tier
Kuota mengikuti tier reputasi Anda. Angka berikut dari konfigurasi platform — ilustratif, angka dapat berubah.
| Tier | Rencana AI/hari | Maks. baris per job |
|---|---|---|
| Pemula | 3 | 2.000 |
| Kontributor | 15 | 20.000 |
| Ahli | 40 | 100.000 |
| Master | 100 | 500.000 |
| Grandmaster | 300 | 1.000.000 |
Poin & quest
| Aktivitas | Poin (ilustratif) |
|---|---|
| Job sintesis selesai | +10 |
| Terbitkan dataset sintesis | +10 |
| Iterasi spec tanpa AI (regenerate) | +3 |
Quest bertema Data Sintesis:
- Sintesis Pertama — buat dataset dari prompt masalah sederhana.
- Skema Manual — buat dataset tanpa memakai kuota AI.
- Iterasi Hemat — edit spec dan regenerate tanpa prompt baru.
- Terbitkan ke Dataset — publikasikan hasil dengan label Data Sintesis.
- Pipeline Latihan — olah dataset sintesis di Pabrik Data.
Masalah umum & solusi
| Pesan / gejala | Solusi |
|---|---|
| **Kuota rencana AI habis** | Tunggu reset harian atau naikkan tier. Gunakan mode **skema manual** alih-alih prompt. |
| **Baris melebihi batas tier** | Kurangi `n_rows` atau naikkan tier reputasi. |
| **Job gagal saat merancang** | Perjelas deskripsi masalah; hindari permintaan kolom/dtype yang tidak didukung. |
| **Statistik aneh / tidak realistis** | Edit spec: perbaiki distribusi, kategori, atau params kolom; regenerate. |
| **Dataset tanpa label sintesis** | Seharusnya otomatis — jangan hapus label. Laporkan bila badge hilang. |
| **Ingin data nyata, bukan sintetis** | Gunakan **Ruang Panen Data** atau unggah dataset sendiri. |
Fitur terkait
- Dataset — tujuan publikasi hasil sintesis (SatuDanau).
- Pabrik Data — olah dataset sintesis menjadi silver/gold.
- Ruang Ide — fase data sintesis otomatis dari masalah ruang.
- Ruang Panen Data — alternatif untuk data dari API eksternal (bukan sintetis).
- Notebook — eksplorasi statistik dataset sintesis sebelum modeling.
- Kompetisi — dataset sintesis bisa jadi data latih demo.