Big Data DBA: Data Warehouse

Belajar Big Data Solusi Data Management Dengan Big Data

Articles by "Data Warehouse"

Apakah anda sudah pernah mendengar mengenai data silos? Jika ternyata organisasi Anda menderita data silos, maka data warehouse mungkin dapat menjadi solusi tim Anda dengan menggunakan data intengration atau ETL Tools.


mengatasi data silos dengan data warehouse



Lalu, apakah yang dimaksud dengan data silos ?

Data Silos adalah kumpulan informasi dalam sebuah organisasi yang terisolasi dari dan tidak dapat diakses oleh bagian lain dari organisasi. Menghapus data silos dapat membantu Anda mendapatkan informasi yang tepat pada waktu yang tepat sehingga Anda dapat membuat keputusan yang baik. Dan, Anda dapat menghemat uang dengan mengurangi biaya penyimpanan untuk informasi duplikat.

Jadi data silos ini bisa terjadi karena adanya data yang sama pada organisasi / department yang berbeda, dimana masing-masing bagian tidak dapat melihat data yang sama tersebut yang tersimpan di bagian/department yang lainnya.

Sehingga bisa dikatakan masing-masing department tersebut tidak mengetahui kalau ternyata datanya sama dengan data yang ada di departemen yang lain.

Data Silos adalah kumpulan informasi dalam sebuah organisasi yang terisolasi dari dan tidak dapat diakses oleh bagian lain dari organisasi.

Lalu bagaimana data Silos terjadi?

Sebagaimana  yang saya baca dari dzone.com, data silos dapat terjadi dikarenakan adanya tiga alasan umum berikut ini :
  1. Budaya Perusahaan
  2. Struktur Organisasi
  3. Teknologi


Kalau kita uraikan dari tiga masalah umum tersebut, maka dapat kita ketahui :

1.  Budaya perusahaan.

Seringkali banyak Departemen di suatu perusahaan yang memiliki data silos antara satu department dengan department yang  lain, terutama di perusahaan besar. 

Terkadang hal ini terjadi karena ada persaingan internal, tetapi seringkali hal itu terjadi karena satu departemen melihat dirinya terpisah dari yang lain dan tidak mempertimbangkan di mana informasi harus dibagi.

2.  Struktur organisasi

Selain dari sebuah organisasi yang secara khusus bekerja untuk mengintegrasikan Departemen yang berbeda, maka akan sangat mudah untuk membangun lapisan hirarki dan manajemen yang dapat menghalangi Departemen dari berbagi informasi.

Dengan adanya lapisan hirarki dan manajemen ini akhirnya menjadi penyebab sulitnya untuk mendapatkan data antara satu departemen dengan department yang lain. Dengan adanya kesulitan procedural hirarki ini akhirnya mengakibatkan masing-masing departemen sering menyimpan data yang sama.

3. Teknologi 

Hal ini bisa terjadi akibat tidak biasa bagi departemen yang berbeda untuk menggunakan teknologi yang berbeda, sehingga sulit bagi suatu Departemen untuk berbagi informasi umum dengan departemen yang lain. 

Misalnya, mungkin tim penjualan menggunakan Salesforce, namun tim pemasaran tidak memiliki tool ini. Akan tetapi, ada kemungkinan tool tersebut berisi informasi berharga yang seharusnya bisa digunakan oleh team pemasaran. 

Sebuah survei TI menunjukkan bahwa sebagian besar perusahaan memiliki antara 1-200 aplikasi yang berbeda untuk Departemen mereka. Anda bisa bayangkan, betapa beratnya untuk mendapatkan suatu informasi ketika anda memiliki begitu banyak aplikasi yang digunakan dan tentu saja dengan banyaknya sumber data yang berbeda dengan teknologi yang berbeda pula.


Mengapa Data Silos dapat Menjadi  Masalah?

Tentu saja data silos bisa mendatangkan masalah dengan paling tidak adanya 3 faktor berikut ini :


a. Ketidakmampuan untuk mendapatkan pandangan data yang komprehensif.

Jika data Anda ternyata silos, hubungan yang relevan antara data silos dapat dengan mudah dilewatkan. 

Sebagai contoh, misalnya, tim pemasaran memiliki data yang sangat baik di mana kampanye pemasaran menarik banyak perhatian di geografi tertentu, sedangkan tim penjualan memiliki informasi tentang penjualan di geografi yang sama. 

Bagaimana jika ternyata Anda bisa membawa informasi itu bersama-sama? Bayangkan betapa akan terlihat lebih jelas hubungan antara kampanye pemasaran dan penjualan yang dilakukan.


b. Sumber daya yang terbuang.

Pertimbangkan apa yang terjadi jika Anda memiliki database dengan informasi pelanggan untuk tim pemasaran dan ada satu lagi database informasi pelanggan untuk tim penjualan. 
Banyak data diduplikasi antara kedua Departemen ini. Akan banyak membutuhkan uang untuk menyimpan semua data ini, dan semakin banyak data seperti di atas, maka akan semakin sedikit organisasi yang dapat membelanjakan kebutuhan untuk persyaratan lain.


c. Data yang tidak konsisten

Dalam data silos, adalah umum untuk menyimpan informasi yang sama di tempat yang berbeda. Ketika ini terjadi, ada kemungkinan besar bahwa Anda akan memperkenalkan inkonsistensi data. 

Anda dapat memperbarui alamat pelanggan di satu tempat, sementara di tempat yang lain tidak/belum diganti. Atau, Anda mungkin memperkenalkan salah ketik dalam satu kumpulan informasi. 

Namun ketika data hanya berada di satu tempat, Anda akan memiliki kesempatan yang lebih baik untuk menjaga informasi yang benar sehingga validitas data akan terjamin..

Anda dapat menghindari atau meminimalisasi kondisi data silos dengan memanfaatkan data warehouse dengan cara melakukan integrasi semua sumber data yang ada di data warehouse yang dilakukan oleh tools data integration.

Tantangan dalam berurusan dengan data silos

Sementara banyak perusahaan mengakui bahwa data Silos adalah masalah, mengatasi kondisi data silos ini dapat menjadi sebuah tantangan. Setelah Anda memiliki budaya yang berakar dari memisahkan data, itu adalah tantangan untuk mengubah pola pikir karyawan. 

Selain itu, mungkin sulit untuk membatalkan beberapa siloes karena cara kerja sistem diatur dengan berbagai izin dan hierarki. Sebagai contoh, izin sering diatur oleh grup, jadi setelah data silos untuk grup, sulit untuk kemudian mengubah semua izin yang diperlukan. 

Dan jika data yang silos di sistem yang berbeda (misalnya, data untuk grup operasi keamanan disimpan dalam database Oracle, tetapi informasi penjualan di Salesforce), lebih sulit untuk mengatasi data silos tersebut. 

Untuk menyederhanakan proses ini, sebagian besar perusahaan memindahkan datanya dari berbagai sistem ke dalam data warehouse. Data warehouse adalah repositori untuk semua data yang dikumpulkan oleh sistem operasional perusahaan. Data warehouse dioptimalkan untuk akses dan analisis dari pemrosesan transaksional, dan data warehouse tersebut  dirancang untuk membantu manajemen mendapatkan tampilan 360 mengenai data perusahaan mereka.


Cara memecah data Silos

Cara terbaik untuk menghapus data silos adalah dengan menggabungkan data Anda ke dalam data warehouse. Berikut adalah beberapa metode yang berbeda yang mungkin digunakan perusahaan untuk mendapatkan data ke dalam data warehouse:

- Scripting. 
Beberapa perusahaan menggunakan script (ditulis dalam SQL atau Python, dll) untuk menulis kode guna mengekstrak data dan memindahkannya ke lokasi pusat. Namun hal ini bisa memakan waktu namun, dan juga membutuhkan banyak keahlian.

- ETL Tools berbasis premis
ETL Tools (Extract, Transform, load) dapat mengambil banyak “rasa sakit” dari memindahkan data dengan mengotomatisasi proses. Mereka mengekstrak data dari sumber data, melakukan transformasi, dan kemudian memuat data ke data warehouse tujuan. Tools data integration ini biasanya di-host di situs perusahaan Anda.

Beberapa contoh ETL Toos on premis yang anda gunakan antara lain Pentaho Data Integration, Talend Studio

- ETL Tools berbasis Cloud
ETL Tools ini di-host di Cloud, di mana Anda dapat memanfaatkan keahlian dan infrastruktur dari vendor. Mereka biasanya digunakan ketika sebuah perusahaan memutuskan untuk memindahkan data silos ke cloud data warehouse.

Untuk ETL Tools berbasis cloud, anda bisa mencoba fivetran, blendo, stitch, snaplogic, atau matillion

Jadi, anda dapat menghindari atau meminimalisasi kondisi data silos dengan memanfaatkan data warehouse dengan cara melakukan integrasi semua sumber data yang ada di data warehouse yang dilakukan oleh tools data integration. Baik tools data integration ini berbasis premis maupun tools data integration yang berbasis cloud.


Refference :
#datasilos, #datawarehouse, #datasilosadalah

dzone.com

Data Integration dan Business Analytic - Big Data DBA. Pentaho merupakan kumpulan alat bantu / tool yang digunakan untuk menyelesaikan permasalah di sisi data warehouse ataupun lebih keren nya sering dikatakan sebagai BI (Business Intelligence). Salah satu tool nya yang terkenal dan paling banyak digunakan untuk membantu membangun data warehouse adalah Pentaho Data Integration. Dalam perkembangan nya, saat ini pentaho telah diakusisi sepenuhnya oleh kelompok teknologi raksasa Hitachi.



Pentaho 8, Pentaho Data Integration, Pentaho BI
Pentaho 8

Dari konferensi para pengguna pentaho di ajang PentahoWorld 2017, Hitachi Vantara, anak perusahaan Hitachi Ltd., di hari yang sama meluncurkan perangkat lunak integrasi data dan platform analisis Pentaho (Pentaho Data Integration dan Pentaho BA) generasi berikutnya yaitu Pentaho 8.0.  Dengan adanya peningkatan versi ini antara lain,  di pentaho 8.0 memberikan dukungan untuk Spark dan Kafka untuk memperbaiki data dan pengolahan arus, ditambah lagi dengan kemampuan untuk mencocokkan sumber daya komputasi dengan permintaan bisnis secara real time dengan mudah. Rilis baru ini dirancang untuk membantu pelanggan Hitachi mendapatkan nilai yang lebih besar dari data yang mereka miliki untuk mendapatkan keunggulan kompetitif dan mempercepat perjalanan transformasi digital mereka.
Menurut perusahaan riset independen IDC, data dunia akan tumbuh menjadi 163 zettabyte pada tahun 2025 - 10 kali lebih besar dari jumlah data yang dihasilkan pada tahun 2016. Perusahaan ini juga memperkirakan bahwa lebih dari seperempat data tersebut merupakan data real-time, dengan data IoT akan menghasilkan lebih dari 95 persennya.

Dengan rilis Pentaho 8.0, Hitachi Vantara membantu user dan customer untuk lebih mempersiapkan bisnis mereka untuk mengatasi kebanjiran data real-time ini dengan mengoptimalkan dan memodernisasi jaringan analisis data mereka dan meningkatkan produktivitas yang ada di tim mereka. Perangkat tambahan baru ke platform Pentaho 8.0 memungkinkan pengguna untuk:


1.  Meningkatkan Konektivitas ke Sumber Data Streaming: Dengan data yang bergerak lebih cepat, sangat penting untuk memprosesnya saat terjadi dan segera bereaksi jika diperlukan. Kemampuan baru di Pentaho 8.0 meliputi:


  • Pengolahan data stream dengan Spark: Pentaho 8.0 sekarang sepenuhnya memungkinkan pemrosesan dan pemrosesan data streaming menggunakan mesin asli atau Spark. Ini menambah integrasi Spark yang ada dengan lapisan eksekusi adaptif SQL, MLlib dan Pentaho.

  • Terhubung ke Kafka Streams: Kafka adalah sistem messaging populer / berlangganan yang sangat populer yang menangani volume data besar yang umum terjadi pada data besar dan lingkungan IoT saat ini. Pentaho 8.0 sekarang memungkinkan pemrosesan real-time dengan langkah-langkah khusus yang menghubungkan Pentaho Data Integration (PDI) ke Kafka.

2. Keamanan data yang besar dengan Knox: Membangun keamanan tingkat perusahaan yang ada dengan Cloudera dan Hortonworks, Pentaho 8.0 sekarang menambahkan dukungan untuk Knox Gateway yang digunakan untuk mengotentikasi pengguna ke layanan Hadoop.

3. Mengoptimalkan Sumber Daya Pemrosesan: Setiap organisasi telah membatasi sumber pengolahan data yang ingin digunakan secara cerdas, menjamin ketersediaan data yang besar bahkan ketika permintaan sumber daya komputasi tinggi. Untuk mendukung hal ini, Pentaho 8.0 menyediakan:


  • Simpul pekerja / node untuk meningkatkan beban kerja perusahaan: Manajer TI sekarang dapat dengan mudah membuka node tambahan dan menyebarkan beban kerja simultan di semua sumber komputasi yang ada agar sesuai dengan kapasitas dan sesuai dengan permintaan. Pencocokan ini memberikan elastisitas dan portabilitas antara lingkungan cloud dan lingkungan lokal sehingga menghasilkan pemrosesan yang lebih cepat dan efisien bagi pengguna akhir.

  • Penyempurnaan eksekusi adaptif: Pertama kali diperkenalkan di Pentaho 7.1, eksekusi adaptif Pentaho memungkinkan pengguna mencocokkan beban kerja dengan mesin pemrosesan yang paling tepat, tanpa harus menulis ulang logika integrasi data apa pun. Sekarang, Pentaho 8.0 membuat eksekusi adaptif lebih mudah diatur, mudah digunakan dan aman. Fungsinya juga sekarang tersedia di Hortonworks.

  • Dukungan asli untuk Avro dan Parket: Pentaho 8.0 memudahkan untuk membaca dan menulis ke format file data dan format populer ini dengan Spark dengan menggunakan alat pengeditan visual Pentaho.

  • Boost Team Produktivitas: Pentaho 8.0 juga hadir dengan beberapa fitur baru untuk membantu meningkatkan produktivitas di seluruh jaringan data. Ini termasuk filter granular untuk menyiapkan data, meningkatkan kegunaan repositori dan audit aplikasi yang lebih mudah.

"Di jalan menuju transformasi digital, perusahaan harus sepenuhnya memanfaatkan semua data yang tersedia untuk mereka. Ini memerlukan data silo data tradisional dan mengintegrasikan teknologi operasional dan informasi mereka untuk membangun jaringan data analisis modern yang dapat mengakomodasi data data yang lebih besar dan terbuka, "kata Donna Prlich, chief product officer untuk perangkat lunak Pentaho di Hitachi Vantara. "Pentaho 8.0 menyediakan fitur untuk skala perusahaan dan pemrosesan yang lebih cepat untuk mengantisipasi tantangan data masa depan untuk lebih mendukung pelanggan Hitachi dalam perjalanan digital mereka."

Perangkat Pentaho 8.0 dari Hitachi Vantara sudah mulai tersedia pada bulan November 2017

MENINGKATKAN KONEKTIVITAS DI PENTAHO UNTUK MENURUNKAN BESARAN SUMBER DATA


Untuk tetap berada di depan pertumbuhan volume data dan kecepatan data eksponensial, Pentaho 8.0 membawa kecepatan dan kelincahan ke setiap tahap data pipe, mulai dari konsumsi pesan real-time sampai pemrosesan data streaming. Kini, pengguna bisa mendapatkan nilai dari data lebih cepat tanpa mengorbankan integritas data.

Stream Processing with Spark: Dengan kemampuan eksekusi adaptifnya, Pentaho 8.0 sepenuhnya memungkinkan penggunaan data real-time dari Kafka menggunakan Spark Streaming, tanpa kerja ulang. Pengolahan arus data dengan Spark menambah orkestrasi Spark Pentaho yang ada dan integrasi dengan SQL, MLlib.

Menghubungkan Pentaho ke stream Kafka: Pentaho 8.0 memungkinkan pemrosesan, pemantauan dan agregasi secara real-time dengan langkah-langkah khusus yang menghubungkan Pentaho Data Integration (PDI) ke Kafka, yang memungkinkan pengembang untuk dengan mudah mengatasi berbagai kasus penggunaan yang memerlukan pemrosesan secara real-time.

Keamanan Data Besar dengan Knox: Membangun keamanan tingkat perusahaan yang ada untuk Cloudera dan Hortonworks, Pentaho 8.0 sekarang mendukung Apache Knox Gateway yang menyederhanakan manajemen keamanan Hadoop.



MENGOPTIMALKAN PENTAHO SUITE SEBAGAI SUMBER DAYA PENGOLAHAN DATA


Dengan permintaan pemrosesan data yang terus meningkat, manajer TI menghadapi tantangan untuk memaksimalkan sumber daya komputasi yang ada. Pentaho 8.0 menyediakan kemampuan untuk secara langsung menangani kebutuhan ini dengan sumber pemrosesan real-time dan terukur.

Simpul pekerja untuk meningkatkan beban kerja perusahaan: Manajer TI dapat dengan mudah membuka simpul tambahan dan menyebarkan beban kerja simultan ke sumber perhitungan yang ada agar sesuai dengan kapasitas dan sesuai dengan permintaan. Ini memberikan elastisitas dan portabilitas antara cloud dan lingkungan lokal sehingga menghasilkan pemrosesan yang lebih cepat dan efisien bagi pengguna akhir.

Penyempurnaan eksekusi adaptif: Eksekusi adaptif Pentaho memungkinkan pengguna mencocokkan beban kerja dengan mesin pemrosesan yang paling tepat, tanpa harus menulis ulang logika integrasi data apa pun. Pentaho 8.0 membuat eksekusi adaptif lebih mudah diatur dan digunakan dengan keamanan yang ditingkatkan. Fungsinya sekarang tersedia di Hortonworks.

Dukungan asli untuk Avro dan Parket: Rilis ini mempermudah membaca dan menulis ke format file data dan format populer ini dengan Spark dengan menggunakan alat pengeditan visual Pentaho.


Tingkatkan Produktifitas TIM Anda DALAM PIPELINE DATA


Seiring teknologi yang menjadi lebih kuat, produktivitas tim Anda juga harusnya demikian. Namun, teknologi yang terus berubah menyulitkan organisasi untuk berporos dengan kelincahan. Pentaho 8.0 menawarkan seperangkat fitur yang lebih baik bagi pengalaman penggunaan di tim Anda, termasuk proses persiapan data yang lebih halus, akses konten Pentaho lebih cepat, dan tata kelola yang disederhanakan.

Lebih baik, Pengambilan Data Lebih Cepat: Rilis ini menangani persiapan data secara langsung, memungkinkan TI menerapkan filter untuk menemukan data duplikat, data yang hilang, dan outlier. TI dapat dengan mudah mempublikasikan sumber data awal dan skema agar bisnis memvalidasi lebih cepat dan pada akhirnya memberikan data berkualitas tinggi ke bisnis dengan lebih cepat.

Peningkatan Pengalaman Pengguna Repositori: Pentaho 8.0 membawa akses lebih cepat ke konten platform dan memberikan pengalaman pengguna yang konsisten di PDI.

Aplikasi yang Lebih Mudah di Audit: Pentaho 8.0 memudahkan penerapan aplikasi audit sekarang karena laporan Opsmart bekerja dengan database populer, termasuk Oracle, SQL Server, dan MySQL.

Apakah tempat kerja anda tertarik untuk menerapkan product Pentaho Vantara ini ? 


Referensi :
solutionsreview.com
www.pentaho.com

MKRdezign

Contact Form

Name

Email *

Message *

Powered by Blogger.
Javascript DisablePlease Enable Javascript To See All Widget