Dataset
Masuk untuk melihat Dataset
Panel personal menampilkan ringkasan milik Anda setelah login — data tidak dimuat di halaman publik.
MasukApa & untuk apa
Dataset adalah aset untuk menyimpan dan mengelola data di PSD — bukan sekadar folder berkas, melainkan danau data kecil bernama SatuDanau (paralel konsep OneLake). Di dalamnya ada area Berkas (data mentah) dan Tabel (data terstruktur yang bisa dikueri), lapisan medallion (bronze → silver → gold), serta Pintasan untuk merujuk data lain tanpa menyalin.
Dataset menjadi fondasi hampir semua alur data di PSD: Pabrik Data membaca sumber dari sini, Ruang Kueri menganalisis lapisan gold, Ruang Model Semantik membangun measure di atas tabel gold, dan Notebook mengakses data lewat skema psd://.
Anda bisa mengunggah langsung dari peramban — tidak wajib lewat Git. Format kanonik platform adalah Parquet + Delta; berkas CSV, JSON, Avro, atau ORC dinormalkan saat ingest agar siap dikueri.
Cara kerja
Setiap dataset adalah aset dengan kind="dataset". Halaman detail dataset memiliki tab standar aset (README, Files, Versi, Branch, Kontributor) plus tab Danau (SatuDanau).
Dua area SatuDanau:
| Area | Isi | Contoh |
|---|---|---|
| **Berkas** | Data mentah, format bebas | PDF laporan, gambar, CSV mentah, arsip |
| **Tabel** | Data terstruktur, bisa dikueri | Parquet, Delta, CSV terdaftar sebagai tabel |
Lapisan medallion membantu menata siklus hidup data:
- Bronze — data mentah apa adanya (hasil unggah atau panen).
- Silver — data yang sudah dibersihkan/dinormalisasi (biasanya output Pabrik Data).
- Gold — data siap analitik (sumber Ruang Kueri & Ruang Model Semantik).
Pintasan menyimpan *referensi* ke data di tempat lain — dataset PSD lain atau sumber eksternal (S3/GCS/HTTPS) — tanpa menggandakan berkas. Hemat penyimpanan, satu sumber kebenaran.
Alur unggah langsung: minta URL presigned → unggah berkas → daftarkan ke danau. Git push tetap bisa dipakai berdampingan untuk workflow yang sudah terbiasa dengan repositori.
Kapan dipakai
Cocok untuk:
- Menyimpan dataset analisis, hasil eksperimen, atau data referensi proyek sains data.
- Menyusun danau data kecil dengan lapisan bronze/silver/gold sebelum analitik.
- Menjadi sumber pipeline di Pabrik Data atau query di Ruang Kueri.
- Berbagi data terbuka ke komunitas (publik) atau menyimpan data sensitif (privat).
Kurang tepat bila:
- Anda hanya menyimpan kode & skrip — gunakan Proyek.
- Anda ingin melatih model ML dan menerbitkan bobot — gunakan Model.
- Anda butuh spreadsheet interaktif untuk data kecil — coba Ruang Lembar Kerja dulu.
Langkah demi langkah
Membuat dataset baru
- Buka menu Aset → Dataset, lalu tekan Buat Dataset.
- Isi nama, deskripsi, dan pilih visibilitas (publik/privat).
- Dataset siap — buka tab Danau (SatuDanau) untuk mulai mengisi data.
Mengunggah data langsung
- Di tab Danau, pilih area (Berkas atau Tabel) dan lapisan (bronze/silver/gold).
- Tekan Unggah atau seret-lepas berkas.
- Sistem menyarankan area otomatis dari format (Parquet/CSV → Tabel; lainnya → Berkas) — Anda bisa mengubah.
- Setelah unggah selesai, berkas muncul di pohon danau.
Alternatif — Git:
- Clone repositori dataset (sama seperti Proyek: SSH key atau token).
- Push berkas ke repo — keduanya (unggah langsung & git) menulis ke penyimpanan dataset yang sama.
Mendaftarkan tabel
- Dari berkas terstruktur di area Tabel, tekan Daftarkan sebagai tabel.
- Isi nama tabel dan pastikan format (Parquet, Delta, atau CSV).
- Tabel terdaftar dengan relasi (mis.
penjualan__transaksi) — siap dipakai sebagai source di Pabrik Data.
Membuat Pintasan
- Di tab Danau, tekan Buat Pintasan.
- Pilih tipe target:
- Dataset PSD (internal) — pilih dataset & path yang ingin dirujuk.
- Eksternal — S3, GCS, atau HTTPS (hanya domain tepercaya).
- Beri nama pintasan. Data tidak disalin — yang tersimpan hanya referensi.
Menyusun medallion & metadata
- Tempatkan data mentah di lapisan bronze.
- Jalankan pipeline Pabrik Data untuk menghasilkan silver/gold.
- Tautkan metadata & kualitas lewat Ruang Metadata dari halaman dataset.
- Pantau progres Belajar Danau — checklist konsep data lake (unggah, daftar tabel, pintasan,
medallion, metadata).
Mengakses dari Notebook
- Buka Notebook dan buat sel kode.
- Akses dataset lewat skema
psd://(mis.psd://username/nama-dataset/tabel). - Eksplorasi data tanpa perlu mengunduh manual ke komputer lokal.
Batas tier
Kapasitas dataset mengikuti tier reputasi Anda. Angka berikut ilustratif — angka dapat berubah.
| Tier | Maks. dataset | Penyimpanan per dataset | Maks. unggah per berkas | Maks. pintasan |
|---|---|---|---|---|
| Pemula | 5 | 500 MB | 50 MB | 3 |
| Kontributor | 15 | 2 GB | 100 MB | 10 |
| Ahli | 40 | 10 GB | 200 MB | 30 |
| Master | 100 | 50 GB | 500 MB | 100 |
| Grandmaster | 500 | 200 GB | 1.000 MB | 500 |
Poin & quest
| Aktivitas | Poin (ilustratif) |
|---|---|
| Menerbitkan dataset | +10 |
| Membuktikan konsep data lake (per konsep) | +8 |
| Dataset Anda disukai (per suka) | +2 |
| Badge **Langkah Pertama** | Aset pertama Anda *(jika dataset adalah aset pertama)* |
Quest bertema Dataset & SatuDanau:
- Danau Pertama — buat dataset dan unggah berkas pertama ke area Berkas.
- Tabel Terdaftar — daftarkan satu tabel Parquet/Delta di area Tabel.
- Pintasan Pintar — buat pintasan ke dataset PSD lain tanpa menyalin data.
- Medallion Lengkap — susun data di ketiga lapisan bronze, silver, dan gold.
- Metadata Siap — tautkan metadata & aturan kualitas lewat Ruang Metadata.
Masalah umum & solusi
| Pesan / gejala | Solusi |
|---|---|
| **Unggah gagal / berkas terlalu besar** | Cek batas tier unggah. Pecah data besar atau gunakan Pintasan ke sumber eksternal. |
| **Path ditolak** | Hindari path absolut dan `..` (traversal). Gunakan path relatif di dalam danau. |
| **Pintasan eksternal ditolak (`not_allowlisted`)** | Domain tujuan belum masuk allowlist tepercaya. Hubungi admin atau gunakan dataset internal. |
| **Pintasan internal ditolak (siklus)** | Pintasan A→B→A tidak diizinkan. Pilih target yang tidak membentuk loop. |
| **Tabel tidak muncul di Pabrik Data** | Pastikan tabel sudah **didaftarkan** (bukan hanya berkas mentah). Cek format Parquet/Delta/CSV. |
| **CSV tidak bisa dikueri** | CSV perlu didaftarkan sebagai tabel; format kanonik jangka panjang adalah Parquet/Delta. |
| **Data sintesis tanpa label** | Dataset dari Data Sintesis otomatis berlabel — jangan hapus label "Data Sintesis". |
Fitur terkait
- Pabrik Data — olah data dari SatuDanau; hasil pipeline menulis ke lapisan silver/gold.
- Ruang Kueri — analitik SQL read-only di atas tabel gold.
- Ruang Model Semantik — bangun measure (gaya DAX) di atas tabel gold.
- Ruang Panen Data — ambil data dari API eksternal → hasilnya jadi dataset draft.
- Data Sintesis — hasilkan dataset sintetis berkonteks Indonesia (wajib berlabel).
- Ruang Metadata — katalog, kualitas data, dan lineage untuk dataset Anda.
- Proyek — simpan kode analisis; akses data lewat
psd://dari notebook proyek.