Lewati ke konten

Dataset

Pengguna
Terakhir diperbarui 5 Juli 2026

Masuk untuk melihat Dataset

Panel personal menampilkan ringkasan milik Anda setelah login — data tidak dimuat di halaman publik.

Masuk

Apa & untuk apa

Dataset adalah aset untuk menyimpan dan mengelola data di PSD — bukan sekadar folder berkas, melainkan danau data kecil bernama SatuDanau (paralel konsep OneLake). Di dalamnya ada area Berkas (data mentah) dan Tabel (data terstruktur yang bisa dikueri), lapisan medallion (bronze → silver → gold), serta Pintasan untuk merujuk data lain tanpa menyalin.

Dataset menjadi fondasi hampir semua alur data di PSD: Pabrik Data membaca sumber dari sini, Ruang Kueri menganalisis lapisan gold, Ruang Model Semantik membangun measure di atas tabel gold, dan Notebook mengakses data lewat skema psd://.

Anda bisa mengunggah langsung dari peramban — tidak wajib lewat Git. Format kanonik platform adalah Parquet + Delta; berkas CSV, JSON, Avro, atau ORC dinormalkan saat ingest agar siap dikueri.

Setelah login, panel Dataset Saya menampilkan daftar dataset milik Anda — termasuk yang berasal dari unggah manual, Ruang Panen Data, atau Data Sintesis.

Cara kerja

Setiap dataset adalah aset dengan kind="dataset". Halaman detail dataset memiliki tab standar aset (README, Files, Versi, Branch, Kontributor) plus tab Danau (SatuDanau).

Dua area SatuDanau:

AreaIsiContoh
**Berkas**Data mentah, format bebasPDF laporan, gambar, CSV mentah, arsip
**Tabel**Data terstruktur, bisa dikueriParquet, Delta, CSV terdaftar sebagai tabel

Lapisan medallion membantu menata siklus hidup data:

  • Bronze — data mentah apa adanya (hasil unggah atau panen).
  • Silver — data yang sudah dibersihkan/dinormalisasi (biasanya output Pabrik Data).
  • Gold — data siap analitik (sumber Ruang Kueri & Ruang Model Semantik).

Pintasan menyimpan *referensi* ke data di tempat lain — dataset PSD lain atau sumber eksternal (S3/GCS/HTTPS) — tanpa menggandakan berkas. Hemat penyimpanan, satu sumber kebenaran.

Alur unggah langsung: minta URL presigned → unggah berkas → daftarkan ke danau. Git push tetap bisa dipakai berdampingan untuk workflow yang sudah terbiasa dengan repositori.

Kapan dipakai

Cocok untuk:

  • Menyimpan dataset analisis, hasil eksperimen, atau data referensi proyek sains data.
  • Menyusun danau data kecil dengan lapisan bronze/silver/gold sebelum analitik.
  • Menjadi sumber pipeline di Pabrik Data atau query di Ruang Kueri.
  • Berbagi data terbuka ke komunitas (publik) atau menyimpan data sensitif (privat).

Kurang tepat bila:

  • Anda hanya menyimpan kode & skrip — gunakan Proyek.
  • Anda ingin melatih model ML dan menerbitkan bobot — gunakan Model.
  • Anda butuh spreadsheet interaktif untuk data kecil — coba Ruang Lembar Kerja dulu.
Dataset hasil Data Sintesis wajib berlabel "Data Sintesis" — jangan disamakan dengan data resmi atau data lapangan sungguhan.

Langkah demi langkah

Membuat dataset baru

  1. Buka menu Aset → Dataset, lalu tekan Buat Dataset.
  2. Isi nama, deskripsi, dan pilih visibilitas (publik/privat).
  3. Dataset siap — buka tab Danau (SatuDanau) untuk mulai mengisi data.

Mengunggah data langsung

  1. Di tab Danau, pilih area (Berkas atau Tabel) dan lapisan (bronze/silver/gold).
  2. Tekan Unggah atau seret-lepas berkas.
  3. Sistem menyarankan area otomatis dari format (Parquet/CSV → Tabel; lainnya → Berkas) — Anda bisa mengubah.
  4. Setelah unggah selesai, berkas muncul di pohon danau.

Alternatif — Git:

  1. Clone repositori dataset (sama seperti Proyek: SSH key atau token).
  2. Push berkas ke repo — keduanya (unggah langsung & git) menulis ke penyimpanan dataset yang sama.

Mendaftarkan tabel

  1. Dari berkas terstruktur di area Tabel, tekan Daftarkan sebagai tabel.
  2. Isi nama tabel dan pastikan format (Parquet, Delta, atau CSV).
  3. Tabel terdaftar dengan relasi (mis. penjualan__transaksi) — siap dipakai sebagai source di Pabrik Data.

Membuat Pintasan

  1. Di tab Danau, tekan Buat Pintasan.
  2. Pilih tipe target:
  • Dataset PSD (internal) — pilih dataset & path yang ingin dirujuk.
  • Eksternal — S3, GCS, atau HTTPS (hanya domain tepercaya).
  1. Beri nama pintasan. Data tidak disalin — yang tersimpan hanya referensi.
Pintasan eksternal dibatasi allowlist domain tepercaya demi keamanan. Alamat internal/privat diblokir.

Menyusun medallion & metadata

  1. Tempatkan data mentah di lapisan bronze.
  2. Jalankan pipeline Pabrik Data untuk menghasilkan silver/gold.
  3. Tautkan metadata & kualitas lewat Ruang Metadata dari halaman dataset.
  4. Pantau progres Belajar Danau — checklist konsep data lake (unggah, daftar tabel, pintasan,

medallion, metadata).

Mengakses dari Notebook

  1. Buka Notebook dan buat sel kode.
  2. Akses dataset lewat skema psd:// (mis. psd://username/nama-dataset/tabel).
  3. Eksplorasi data tanpa perlu mengunduh manual ke komputer lokal.

Batas tier

Kapasitas dataset mengikuti tier reputasi Anda. Angka berikut ilustratif — angka dapat berubah.

TierMaks. datasetPenyimpanan per datasetMaks. unggah per berkasMaks. pintasan
Pemula5500 MB50 MB3
Kontributor152 GB100 MB10
Ahli4010 GB200 MB30
Master10050 GB500 MB100
Grandmaster500200 GB1.000 MB500
Angka dapat berubah. Batas unggah per berkas mengikuti tier aktual platform. Untuk data sangat besar, pertimbangkan Pintasan ke penyimpanan eksternal yang sudah di-allowlist — jangan menduplikasi seluruh salinan ke dalam danau.

Poin & quest

AktivitasPoin (ilustratif)
Menerbitkan dataset+10
Membuktikan konsep data lake (per konsep)+8
Dataset Anda disukai (per suka)+2
Badge **Langkah Pertama**Aset pertama Anda *(jika dataset adalah aset pertama)*

Quest bertema Dataset & SatuDanau:

  1. Danau Pertama — buat dataset dan unggah berkas pertama ke area Berkas.
  2. Tabel Terdaftar — daftarkan satu tabel Parquet/Delta di area Tabel.
  3. Pintasan Pintar — buat pintasan ke dataset PSD lain tanpa menyalin data.
  4. Medallion Lengkap — susun data di ketiga lapisan bronze, silver, dan gold.
  5. Metadata Siap — tautkan metadata & aturan kualitas lewat Ruang Metadata.
Panel Belajar Danau di tab SatuDanau menampilkan progres konsep — selesaikan semua untuk bonus quest.

Masalah umum & solusi

Pesan / gejalaSolusi
**Unggah gagal / berkas terlalu besar**Cek batas tier unggah. Pecah data besar atau gunakan Pintasan ke sumber eksternal.
**Path ditolak**Hindari path absolut dan `..` (traversal). Gunakan path relatif di dalam danau.
**Pintasan eksternal ditolak (`not_allowlisted`)**Domain tujuan belum masuk allowlist tepercaya. Hubungi admin atau gunakan dataset internal.
**Pintasan internal ditolak (siklus)**Pintasan A→B→A tidak diizinkan. Pilih target yang tidak membentuk loop.
**Tabel tidak muncul di Pabrik Data**Pastikan tabel sudah **didaftarkan** (bukan hanya berkas mentah). Cek format Parquet/Delta/CSV.
**CSV tidak bisa dikueri**CSV perlu didaftarkan sebagai tabel; format kanonik jangka panjang adalah Parquet/Delta.
**Data sintesis tanpa label**Dataset dari Data Sintesis otomatis berlabel — jangan hapus label "Data Sintesis".

Fitur terkait

  • Pabrik Data — olah data dari SatuDanau; hasil pipeline menulis ke lapisan silver/gold.
  • Ruang Kueri — analitik SQL read-only di atas tabel gold.
  • Ruang Model Semantik — bangun measure (gaya DAX) di atas tabel gold.
  • Ruang Panen Data — ambil data dari API eksternal → hasilnya jadi dataset draft.
  • Data Sintesis — hasilkan dataset sintetis berkonteks Indonesia (wajib berlabel).
  • Ruang Metadata — katalog, kualitas data, dan lineage untuk dataset Anda.
  • Proyek — simpan kode analisis; akses data lewat psd:// dari notebook proyek.