Studio Python
Masuk untuk melihat Studio Python
Panel personal menampilkan ringkasan milik Anda setelah login — data tidak dimuat di halaman publik.
MasukApa & untuk apa
Studio Python adalah ruang kerja coding Python/PySpark per-pengguna di PSD. Jika Notebook cocok untuk eksplorasi interaktif, Studio Python cocok untuk menulis script yang lebih rapi, menjalankan proses data yang lebih berat, dan menaikkan script matang menjadi langkah resmi di Pabrik Data.
Di Studio Python, Anda bisa menyalakan lingkungan Python sendiri, memasang paket ke venv pribadi, menulis script Python atau PySpark, menjalankannya, melihat log dan output, lalu mempromosikan script tersebut menjadi node pipeline. Nama fitur ini sengaja Studio Python — bukan "Ruang Python".
Cara kerja
Studio Python berjalan di atas server per-pengguna dengan kontainer dan venv terisolasi. Artinya, paket yang Anda install tidak mengganggu pengguna lain, dan kode berjalan dengan batas CPU/RAM/waktu sesuai tier serta izin kernel.
Alur umumnya:
- Nyalakan lingkungan — Studio menyiapkan kontainer dan venv milik Anda.
- Install paket — gunakan
pip installdari panel Environment; paket masuk ke venv Anda sendiri. - Tulis script — gunakan editor script untuk Python atau PySpark.
- Jalankan — script berjalan di lingkungan terisolasi; hasilnya muncul sebagai log dan manifest output.
- Promosikan — script yang sudah stabil bisa menjadi node PySpark di Pabrik Data.
- Panen metadata — output yang berhasil bisa dipanen menjadi draft metadata untuk dikurasi.
Untuk pekerjaan data besar, format kanonik PSD adalah Parquet + Delta. Format lain seperti JSON, Avro, atau ORC dapat dinormalkan agar siap dipakai oleh Ruang Kueri dan fitur analitik.
Kapan dipakai
Cocok untuk:
- Menulis script Python/PySpark yang lebih panjang daripada sel Notebook.
- Mengolah data besar dengan Spark (bila tier dan izin kernel mendukung).
- Mengubah eksperimen menjadi langkah pipeline yang bisa dijalankan ulang.
- Menyiapkan output Parquet/Delta untuk Ruang Kueri, Ruang Analitik, atau Ruang Metadata.
Kurang tepat bila:
- Anda baru ingin eksplorasi cepat beberapa baris kode — gunakan Notebook.
- Anda ingin merangkai pipeline tanpa menulis kode — gunakan Pabrik Data visual.
- Anda hanya perlu menata data kecil seperti spreadsheet — gunakan Ruang Lembar Kerja.
Langkah demi langkah
Menyalakan lingkungan Python
- Buka menu Notebook & Komputasi → Studio Python.
- Lihat panel Environment: image, runtime, CPU/RAM, kuota paket, dan status Spark.
- Aktifkan Lingkungan Python.
- Tunggu hingga status venv aktif — setelah itu Anda bisa install paket dan menjalankan script.
Mengelola paket
- Pastikan lingkungan Python sudah aktif.
- Di bagian Kelola paket, masukkan nama paket, misalnya
pandas pyarrow delta-spark. - Tekan pip install.
- Paket terpasang di venv pribadi Anda — bukan di image global platform.
Menulis script
- Buka daftar script, lalu pilih Buat Script.
- Pilih bahasa: Python atau PySpark.
- Tulis script di editor.
- Simpan; editor mendukung autosave/penyimpanan berkala.
Menjalankan script
- Pilih input data bila script membutuhkan sumber dari danau data.
- Tekan Jalankan.
- Pantau status:
queued,running,done, atauerror. - Baca log dan manifest output: nama tabel, jumlah kolom, dan format output.
Promosi ke Pabrik Data
- Pastikan script sudah pernah sukses dijalankan.
- Tekan Promosikan ke Pabrik Data.
- Pilih pipeline baru atau pipeline yang sudah ada.
- Isi node id dan input yang dibutuhkan.
- Setelah sukses, script menjadi node PySpark terisolasi di pipeline.
Kurasi metadata hasil
- Setelah run atau pipeline sukses, lihat kartu metadata output.
- Buka Ruang Metadata untuk mengkurasi draft: skema, kualitas, dan lineage.
- Jika sudah rapi, publikasikan sebagai Pustaka Metadata agar karya data Anda mudah ditemukan.
Batas tier
Kapasitas Studio Python mengikuti tier reputasi dan izin kernel. Angka berikut ilustratif — angka dapat berubah.
| Tier | Storage venv | Runtime | Spark | Concurrency script | CPU/RAM |
|---|---|---|---|---|---|
| Pemula | 1 GB | Python ringan | Tidak aktif | 1 | 1 vCPU / 2 GB |
| Kontributor | 2 GB | Python ringan | Tidak aktif | 1 | 1,5 vCPU / 3 GB |
| Ahli | 5 GB | Python + PySpark | Aktif dengan izin kernel | 2 | 2 vCPU / 4 GB |
| Master | 10 GB | Python + PySpark | Aktif | 3 | 3 vCPU / 6 GB |
| Grandmaster | 20 GB | Python + PySpark | Aktif | 4 | 4 vCPU / 8 GB |
Poin & quest
| Aktivitas | Poin (ilustratif) |
|---|---|
| Membuat script Studio Python | +5 |
| Run script sukses | +15 |
| Promosi script ke Pabrik Data | +30 |
| Publikasi pustaka dari output | +30 |
Quest bertema Studio Python:
- Script Pertama — buat script Python dan jalankan hingga sukses.
- Paket Pribadi — install satu paket ke venv Anda.
- Baca Parquet — baca satu tabel Parquet/Delta dari Dataset.
- PySpark Pertama — jalankan script PySpark dengan input danau data.
- Naik Pipeline — promosikan script menjadi node di Pabrik Data.
Masalah umum & solusi
| Pesan / gejala | Solusi |
|---|---|
| **Menjalankan/mempromosikan PySpark butuh tier lanjut+** | Naikkan tier lewat aktivitas & quest, atau gunakan Python ringan dulu. |
| **Akses kernel belum disetujui** | Ajukan akses kernel dari halaman Notebook/Akses Kernel. Setelah disetujui, coba ulang. |
| **Kuota storage venv penuh** | Hapus paket yang tidak dipakai, kurangi dependensi, atau naikkan tier. |
| **Format tidak didukung** | Gunakan Parquet/Delta untuk danau. Format Avro/ORC/JSON perlu dinormalkan. |
| **Nama node tidak valid** | Gunakan huruf/angka/garis bawah, dan awali dengan huruf. |
| **Worker Spark belum siap** | Coba lagi beberapa saat kemudian; jika tetap gagal, hubungi admin. |
| **Input danau tidak valid** | Pastikan input mengarah ke tabel/area yang Anda punya izin akses. |
| **Venv gagal menyala** | Muat ulang halaman dan coba lagi; lingkungan mungkin sedang disiapkan. |
Fitur terkait
- Notebook — eksplorasi interaktif sebelum script distabilkan di Studio Python.
- Pabrik Data — tujuan promosi script menjadi node PySpark pipeline.
- Dataset — sumber dan output data, terutama Parquet/Delta.
- Ruang Metadata — kurasi metadata output script dan lineage.
- Pustaka Metadata — publikasikan koleksi metadata terkurasi dari output.
- Ruang Kueri — query hasil gold setelah script/pipeline menulis output.