Lewati ke konten

Studio Python

Pengguna
Terakhir diperbarui 5 Juli 2026

Masuk untuk melihat Studio Python

Panel personal menampilkan ringkasan milik Anda setelah login — data tidak dimuat di halaman publik.

Masuk

Apa & untuk apa

Studio Python adalah ruang kerja coding Python/PySpark per-pengguna di PSD. Jika Notebook cocok untuk eksplorasi interaktif, Studio Python cocok untuk menulis script yang lebih rapi, menjalankan proses data yang lebih berat, dan menaikkan script matang menjadi langkah resmi di Pabrik Data.

Di Studio Python, Anda bisa menyalakan lingkungan Python sendiri, memasang paket ke venv pribadi, menulis script Python atau PySpark, menjalankannya, melihat log dan output, lalu mempromosikan script tersebut menjadi node pipeline. Nama fitur ini sengaja Studio Python — bukan "Ruang Python".

Setelah login, panel Studio Python Saya menampilkan status lingkungan, tier, dan pintasan ke script yang sedang Anda kerjakan.

Cara kerja

Studio Python berjalan di atas server per-pengguna dengan kontainer dan venv terisolasi. Artinya, paket yang Anda install tidak mengganggu pengguna lain, dan kode berjalan dengan batas CPU/RAM/waktu sesuai tier serta izin kernel.

Alur umumnya:

  1. Nyalakan lingkungan — Studio menyiapkan kontainer dan venv milik Anda.
  2. Install paket — gunakan pip install dari panel Environment; paket masuk ke venv Anda sendiri.
  3. Tulis script — gunakan editor script untuk Python atau PySpark.
  4. Jalankan — script berjalan di lingkungan terisolasi; hasilnya muncul sebagai log dan manifest output.
  5. Promosikan — script yang sudah stabil bisa menjadi node PySpark di Pabrik Data.
  6. Panen metadata — output yang berhasil bisa dipanen menjadi draft metadata untuk dikurasi.

Untuk pekerjaan data besar, format kanonik PSD adalah Parquet + Delta. Format lain seperti JSON, Avro, atau ORC dapat dinormalkan agar siap dipakai oleh Ruang Kueri dan fitur analitik.

Kapan dipakai

Cocok untuk:

  • Menulis script Python/PySpark yang lebih panjang daripada sel Notebook.
  • Mengolah data besar dengan Spark (bila tier dan izin kernel mendukung).
  • Mengubah eksperimen menjadi langkah pipeline yang bisa dijalankan ulang.
  • Menyiapkan output Parquet/Delta untuk Ruang Kueri, Ruang Analitik, atau Ruang Metadata.

Kurang tepat bila:

  • Anda baru ingin eksplorasi cepat beberapa baris kode — gunakan Notebook.
  • Anda ingin merangkai pipeline tanpa menulis kode — gunakan Pabrik Data visual.
  • Anda hanya perlu menata data kecil seperti spreadsheet — gunakan Ruang Lembar Kerja.

Langkah demi langkah

Menyalakan lingkungan Python

  1. Buka menu Notebook & Komputasi → Studio Python.
  2. Lihat panel Environment: image, runtime, CPU/RAM, kuota paket, dan status Spark.
  3. Aktifkan Lingkungan Python.
  4. Tunggu hingga status venv aktif — setelah itu Anda bisa install paket dan menjalankan script.
Jika Spark belum aktif di tier Anda, Studio tetap bisa dipakai untuk Python ringan. PySpark butuh tier lanjut dan akses kernel yang disetujui admin.

Mengelola paket

  1. Pastikan lingkungan Python sudah aktif.
  2. Di bagian Kelola paket, masukkan nama paket, misalnya pandas pyarrow delta-spark.
  3. Tekan pip install.
  4. Paket terpasang di venv pribadi Anda — bukan di image global platform.
  1. Buka daftar script, lalu pilih Buat Script.
  2. Pilih bahasa: Python atau PySpark.
  3. Tulis script di editor.
  4. Simpan; editor mendukung autosave/penyimpanan berkala.

Menjalankan script

  1. Pilih input data bila script membutuhkan sumber dari danau data.
  2. Tekan Jalankan.
  3. Pantau status: queued, running, done, atau error.
  4. Baca log dan manifest output: nama tabel, jumlah kolom, dan format output.
Kode mentah aman karena dijalankan di kontainer terisolasi dengan batas CPU/RAM/waktu — bukan karena ditebak aman dari isi teksnya.

Promosi ke Pabrik Data

  1. Pastikan script sudah pernah sukses dijalankan.
  2. Tekan Promosikan ke Pabrik Data.
  3. Pilih pipeline baru atau pipeline yang sudah ada.
  4. Isi node id dan input yang dibutuhkan.
  5. Setelah sukses, script menjadi node PySpark terisolasi di pipeline.

Kurasi metadata hasil

  1. Setelah run atau pipeline sukses, lihat kartu metadata output.
  2. Buka Ruang Metadata untuk mengkurasi draft: skema, kualitas, dan lineage.
  3. Jika sudah rapi, publikasikan sebagai Pustaka Metadata agar karya data Anda mudah ditemukan.

Batas tier

Kapasitas Studio Python mengikuti tier reputasi dan izin kernel. Angka berikut ilustratif — angka dapat berubah.

TierStorage venvRuntimeSparkConcurrency scriptCPU/RAM
Pemula1 GBPython ringanTidak aktif11 vCPU / 2 GB
Kontributor2 GBPython ringanTidak aktif11,5 vCPU / 3 GB
Ahli5 GBPython + PySparkAktif dengan izin kernel22 vCPU / 4 GB
Master10 GBPython + PySparkAktif33 vCPU / 6 GB
Grandmaster20 GBPython + PySparkAktif44 vCPU / 8 GB
Angka dapat berubah. Spark dan promosi PySpark membutuhkan tier lanjut serta akses kernel. Jika kuota venv penuh, hapus paket yang tidak dipakai atau naikkan tier.

Poin & quest

AktivitasPoin (ilustratif)
Membuat script Studio Python+5
Run script sukses+15
Promosi script ke Pabrik Data+30
Publikasi pustaka dari output+30

Quest bertema Studio Python:

  1. Script Pertama — buat script Python dan jalankan hingga sukses.
  2. Paket Pribadi — install satu paket ke venv Anda.
  3. Baca Parquet — baca satu tabel Parquet/Delta dari Dataset.
  4. PySpark Pertama — jalankan script PySpark dengan input danau data.
  5. Naik Pipeline — promosikan script menjadi node di Pabrik Data.

Masalah umum & solusi

Pesan / gejalaSolusi
**Menjalankan/mempromosikan PySpark butuh tier lanjut+**Naikkan tier lewat aktivitas & quest, atau gunakan Python ringan dulu.
**Akses kernel belum disetujui**Ajukan akses kernel dari halaman Notebook/Akses Kernel. Setelah disetujui, coba ulang.
**Kuota storage venv penuh**Hapus paket yang tidak dipakai, kurangi dependensi, atau naikkan tier.
**Format tidak didukung**Gunakan Parquet/Delta untuk danau. Format Avro/ORC/JSON perlu dinormalkan.
**Nama node tidak valid**Gunakan huruf/angka/garis bawah, dan awali dengan huruf.
**Worker Spark belum siap**Coba lagi beberapa saat kemudian; jika tetap gagal, hubungi admin.
**Input danau tidak valid**Pastikan input mengarah ke tabel/area yang Anda punya izin akses.
**Venv gagal menyala**Muat ulang halaman dan coba lagi; lingkungan mungkin sedang disiapkan.

Fitur terkait

  • Notebook — eksplorasi interaktif sebelum script distabilkan di Studio Python.
  • Pabrik Data — tujuan promosi script menjadi node PySpark pipeline.
  • Dataset — sumber dan output data, terutama Parquet/Delta.
  • Ruang Metadata — kurasi metadata output script dan lineage.
  • Pustaka Metadata — publikasikan koleksi metadata terkurasi dari output.
  • Ruang Kueri — query hasil gold setelah script/pipeline menulis output.