March 2019 | Big Data DBA

Belajar Big Data Solusi Data Management Dengan Big Data

March 2019

Infrastruktur Big Data itu Seperti Apa - Big Data DBA. Saat mengulas Big Data tentu kita bakal tersadar pada keperluan infrastruktur untuk menyokong teknologi Big Data itu. Dalam infrastruktur teknologi Big Data sendiri mempunyai karakteristik yang tidak sama dengan traditional data, yakni : 

Infrastruktur Big Data itu Seperti Apa










Infrastruktur Big Data itu Seperti Apa

#1.  Sekilas Sejarah Tentang Big Data

Awal mulanya th. 1970-2000 data yang di bangun merupakan data dengan jenis terstruktur serta adalah relational database seperti MySQL, oracle, dan sebagainya. Lantas pada th. 1995 selanjutnya mulai di bangun satu business intelligence yang memakai structured serta relational database dengan sistem seperti cognos, pentaho dan sebagainya. Pada 2010 sampai saat ini di bangun satu sistem yang mempunyai maksud 3V (volume, velocity, varity) atau 4V (ditambah value), serta dengan berbagai teknologinya seperti map reduce, high performance computers cluster dan sebagainya. 

Berarti kegunaan Big Data adalah sisi dari intelijen usaha, Big Data bisa dipakai untuk membuat satu usaha yang mempunyai intelijen manfaat mensupport pengambilan keputusan. Tetapi dalam hal semacam ini ada banyak hal yang tidak sama dari sisi volume yang tidak cuma jumlah data yang banyak, tetapi perkembangan data yang sangatlah cepat hingga dalam rentang waktu yang pendek data bisa bertumbuh dengan amat cepat serta besar (velocity), serta data yang ada mempunyai variasi yang sangatlah banyak (variety) tentu dalam big data sendiri terlebih dalam pembentukan data warehouse telah banyak dikerjakan ekstraksi transform load (ETL) untuk menanggulanggi varietas dari data itu hingga data bisa jadi standard baik dibikin bersih dari beragam noise juga dikerjakan transformasi hingga data tambah lebih sesuai dengan sistem usaha yang ada atau yang tengah jalan untuk organisasi spesifik. 

Business Intelligence yang didalamnya ada pemakaian big data juga memerlukan satu teknologi yang bisa mensupport sistem usaha yang ada di dalam intelijen usaha tersebut, hingga bisa jalan sesuai sama yang diinginkan. Hingga butuh di bangun satu infrastruktur yang pas serta bisa menangani keperluan big data yakni satu diantaranya yaitu sistem pemrosesan data yang amat cepat meskipun diwaktu yang sama data memiliki ukuran besar serta tumbuh dengan cepat. 

Sebagai permasalahan serta tantangan yaitu akusisi data, recording data, ekstraksi, cleaning, anotasi, integrasi, agregasi, representasi, analisa, jenising, interpretasi, serta visualisasi. Big data sendiri mempunyai aplikasi serta fungsi untuk beragam bagian seperti yang telah dijelaskan di atas pada awal mula artikel ini. 

#2. Macam Teknologi Big Data

Ada dua teknologi dalam infrastruktur dalam Big data yakni : 

  1. High Performance Computing Cluster (HPCC) atau bisa dikatakan sebagai Data Analytics Supercomputer (DAS) 
  2. Hadoop Basis (Map Reduced-Based Basis) 

Dari ke-2 pendekatan teknologi itu ada ketidaksamaan yang cukup penting (dari sisi manfaat) serta ada kemiripan dalam sistem yang jalan didalamnya. Kemiripan dari dua teknologi itu yaitu keduanya sama memakai kurang lebih satu computer dalam melakukan sistem penarikan info maupun pemrosesan beragam info atau bahkan juga bisa tampak keduanya memakai rancangan cluster pada arsitektur teknologi yang dipakai. Pada intinya keduanya juga bisa diintegrasikan dengan baik manfaatnya sama-sama mensupport keduanya. 

High Performance Computing Clusters (HPCC) itu sendiri pada intinya dibangun sebagai satu super computer yang terbagi dalam kurang lebih satu computer dengan spesifikasi spesifik (umumnya sama) untuk sama-sama menolong, menyokong, atau membagi pekerjaan keduanya hingga berbarengan bisa lakukan processing pada satu data, terlebih dalam soal pencarian data. Sistem besar yang umumnya jalan sendiri yaitu seperti, Ekstrak, Transform, serta Load, lantas kemudian dikerjakan analisa untuk memperoleh info yang lebih sesuai sama kebuthan usaha organisasi itu. 

Infrastruktur Big Data itu Seperti Apa

Sedang Hadoop Berbasis sendiri adalah satu project teknologi yang di kembangkan oleh apache dalam mengelola data besar hingga tambah lebih efisien serta efektif. Dalam hadoop sendiri terbagi dalam beragam komponen, bahkan juga sampai hadoop sendiri mempunyai distributed file sistem sendiri yang disebut dengan (HDFS). Keunggulan dari dari HDFS itu sendiri yaitu : 


  • Fault tolerance, serta di-deploy untuk low biaya hardware 
  • Write Once, Read many, adalah koherensi simpel, serta ditambah lagi frame-work yang di bangun dalam hadoop saat kita bakal memakai hadoop, memakai teknologi java. 
  • Memindahkan komputasi/sistem lebih cepat dari memindahkan data. 
  • Serupa Google File Sistem, namun HDFS membagi file jadi block dalam cluster node yang terdistribusi. 
  • Core component : master vs slave, name node vs data node, job tracker vs task tracker. 

#3.  Arsitektur Hadoop dan Integrasi antara HPCC dan Hadoop

Berikut ini adalah gambaran dari hadoop Basis : 

Infrastruktur Big Data itu Seperti Apa


Dibawah ini merupakan satu diantara arsitektur integrasi pada HPCC serta Hadoop basis : 

Infrastruktur Big Data itu Seperti Apa


Pada saat itu ada ketidaksamaan System manajemen Basis Data, yang pada intinya basis data mempunyai korelasi antar data yag umumnya kita sebut dengan data yang telah terstruktur atau terorganisasi, serta piranti sistem manajemen basis datanya yang disebut piranti lunak yang bisa dipakai untuk mengelola basis data seperti MySQL, Oracle, PostgreSQL dan sebagainya. Ketika ini ada keperluan lain dari manajemen basis data karenanya ada big data atau jadi System Manajemen Big Data. Berikut yaitu pemicu mengapa ada keperluan Manajemen Big Data itu : 

#4.  DBMS Konvensional Tidak Cukup Untuk Big Data

Tak seluruhnya masalah pemrosesan data bisa dikerjakan lewat cara paling baik memakai traditional relational DBMS. 

DBMS konvensional kurang untuk big data lantaran :
  • Kecepatan akses (gosip volume) 
  • Kesederhanaan set up 
  • Keperluan representasi struktu/skema yang lebih longgar (gosip variety) 
  • Keperluan pengelolaan data yang tidak sama (ACID tak seutuhnya dibutuhkan), missal connectedness. 
  • Keperluan arsitektur terdistribusi (scale out). 


    Hingga di bangun beragam piranti lunak yang bisa menangani keperluan itu tetapi masingmasing teknologi mempunyai karakteristik dalam sistem pemrosesan yang tidak sama, tersebut misalnya : 

    Column Oriented

    • Big table (google), Hbase, Cassandra (Facebook)

    Document Oriented

    • CouchDB, MongoDB

    Graph-Oriented

    • Neo4j, Virtuoso

    Key-value Oriented

    • DynamoDB (Amazon), Riak



      #5.  Perbedaan DBMS Untuk Big Data

      Dari sebagian contoh DBMS di atas itu tampak bahwa ada ketidaksamaan mendasar pada masing DBMS untuk big data itu yaitu pada tujuan dari masing-masing database management sistem. Umumnya sistem untuk manajemen basis data untuk Big Data yang dipakai yaitu NoSQL yang pada awalanya ditujukan oleh beberapa komune yg tidak suka pada pemakaikan SQL juga sebagai “tidak memakai SQL” tetapi saat ini lantaran kesadaran ternyta kita tak bias seutuhnya terlepas pada SQL itu, dirubah jadi “Not Only SQL” (NoSQL). NoSql itu adalah DBMS yang dijelaskan pada awal mulanya (4 point diatas). NoSQL mempunyai ketidaksamaan yaitu database yg tidak berelasi, lantaran tak ada keperluan connectedness yang telah dijelaskan pada awal mulanya, serta umumnya berbentuk terdistribusi serta scale out (dengan cara horizontal). Tidak ada skema spesial hingga lebih longgar pada skema, serta pemakaikan Application Programming Interface yang lebih simpel dalam pemakaian manipulasi atau processing data. Juga mengaplikasikan perinsip BASE, buka ACID. 

      Yang paling populer sendiri untuk teknologi NoSQL itu yaitu Hadoop dengan map reducenya yang pada versus 1.0 serta 2.0 nya mempunyai ketidaksamaan yang cukup penting terlebih dalam jenis frameworknya, yang ke-2 yaitu Document Oriented yang mempunyai rencana hirarki dalam dokumen satu data, serta umumnya dokumen di enkapsulasi serta encoding dalam format standard XML, JSON, YAML, dan sebagainya. Sedang Graph oriented adalah DBMS yang memrepresentasikan jenis data graph, yang menunjukkan keterhubungan antar tiap-tiap data. 

      Dalam sistem mining (datamining) karenanya ada big data itu sendiri cukup menguntungkan lantaran datamining memerlukan data yang banyak hingga membuahkan jenis yang tambah lebih general tetapi mempunyai akurasi yang tinggi. Tetapi karenanya ada big data itu sendiri datamining diwajibkan terima tantangan bagaimanakah lakukan datamining dengan taraf yang sangatlah besar serta terdistribusi dengan juga variety data yang sangatlah variatif. 



      Hingga diinginkan dengan pemakaian infrastruktur teknologi dari Big Data yang pas manfaatnya dan bisa mensupport sistem usaha yang ada jadi tambah lebih baik terlebih dalam sistem pengambilan info, knowledge serta wisdom manfaat mensupport dalam pengambil keputusan disuatu organisasi spesifik baik ini keuntungan / profit ataupun non-profit, baik ini swasta ataupun pemerintah.

      Berdasarkan aturan secara umum, data integration tampaknya seperti topik yang cukup sederhana: kita hanya perlu untuk menggabungkan data yang berasal dari lebih satu sumber data.

      Akan tetapi dalam prakteknya, ternyata data integration bisa menjadi sangat kompleks. Banyak vendor menawarkan array yang memusingkan menggunakan data integration tools yang berbeda dengan berbagai macam kemampuan. 

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus
      Photo by Franki Chamaki on Unsplash

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus


      Perusahaan harus memilih antara data integration tools lokal dan berbasis Internet, single-purpose tools dan platform data integration multi-fungsi, dan data integration tools yang berlicense atau data integration tools yang open source.

      Dan untuk memilih data integration tools yang terbaik, maka kita harus memiliki strategi data integration, serta integrasi data menggunakan kasus-kasus yang masuk akal dari perspektif keuangan.

      Tentu saja, kebutuhan setiap organisasi akan sedikit berbeda, tergantung pada industri mereka, produk, pelanggan, alur kerja dan faktor lainnya. Namun, banyak perusahaan menggunakan data integration untuk tujuan serupa.

      “Kasus penggunaan data integration ini berkisar dari migrasi data untuk sinkronisasi data di beberapa sistem untuk menyediakan pemandangan holistik 360 derajat dari pelanggan.”


      Berikut ini adalah lima dari data integration yang paling umum dengan menggunakan kasus-kasus yang berlaku di berbagai industri:

      Migrasi data ke dalam data warehouse atau Hadoop

      Saat ini, data analytics telah menjadi bagian integral dalam melakukan bisnis. Dalam setiap industri, organisasi menciptakan repositori big data yang mereka harapkan dapat untuk memberikan wawasan berharga.

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus
      Photo by Balázs Kétyi on Unsplash

      Pada kenyataannya, di NewVantage Partners Big Data Executive Survey 2018, ternyata 97.2 persen responden mengatakan bahwa organisasi mereka sudah berinisiatif untuk menggunakan big data atau kecerdasan buatan (AI).

      Tentunya banyak tantangan yang dihadapi dalam mengembangkan bigdata. Apa saja tantangannya ? Anda bisa mencari tahu pada artikel berikut yang membahas tentang apa saja tantangan untuk mengolah big data.

      Namun, sebelum organisasi dapat menjalankan laporan, melakukan analisis atau mendapatkan pengetahuan, mereka pertama kali perlu untuk mengumpulkan semua data mereka ke dalam satu tempat dan mengumpulkan data tersebut dalam format yang tepat untuk analisis.

      Dan ternyata hal tersebut memerlukan data integration.

      Jenis data integration akan tergantung pada jenis repositori data perusahaan dalam ketertarikannya pada penciptaan data tersebut. Banyak organisasi memiliki data warehouse yang mereka gunakan untuk tujuan business intelligence (BI).

      Membuat data repository ini tentunya anda membutuhkan data integration tools yang dapat mengumpulkan data yang relevan dari berbagai aplikasi yang berbeda dan juga berbagai sistem yang berbeda pula.

      Karena data warehouse menyimpan data dalam keadaan terstruktur, data mungkin perlu dibersihkan atau diubah sehingga dalam format yang sama dan serupa seperti data yang lainnya. 

      Misalnya, beberapa aplikasi dapat menyimpan nomor telepon dengan tanda kurung, seperti (123)456-7890, sementara orang lain hanya menggunakan tanda hubung, seperti 123-456-7890. Sebelum sumber data tersebut yang akan disimpan di data warehouse, maka semua nomor telepon tersebut harus memiliki format yang sama.

      Untuk itu, organisasi biasanya menggunakan jenis perangkat lunak data integration yang dikenal sebagai extract, transform, load atau disingkat dengan ETL.

      Perusahaan telah menggunakan banyak tool ETL untuk tujuan ini selama beberapa dekade, dan ini adalah salah satu jenis perangkat lunak data integration yang paling akrab.

      Hari ini, banyak perusahaan memiliki danau data (data lake) yang berada di dalam data warehouse mereka. Danau data yang menyimpan data terstruktur dan data semi-terstruktur yang berbeda dengan data terstruktur, dan mereka menyimpan semua data dalam keadaan mentah tanpa mengubahnya terlebih dahulu.

      Danau data atau kita sebut saja data lake ini sering dijalankan di Hadoop yang merupkan software open source dan perangkat keras dengan standard industri, bukan kepemilikan teknologi, yang membuatnya ekonomis untuk menyimpan lebih banyak data dari sumber-sumber yang lebih banyak.

      Untuk sebuah data lake, organisasi tidak perlu tool ETL, tetapi mereka perlu produk migrasi data yang dapat menarik data dari berbagai sumber yang berbeda.

      Di antara unsur-unsur dalam kasus banyak data integration adalah data pergudangan, data profil dan pemodelan data.

      Sinkronisasi data di beberapa sistem

      Banyak perusahaan menemukan bahwa mereka memiliki beberapa sistem independen yang menyimpan data yang sama. Kadang-kadang hal ini terjadi sebagai akibat dari aktivitas merger dan akuisisi. 

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Misalnya, jika salah satu pengecer barang-barang olahraga merger dengan pengecer barang-barang olahraga lain, maka akan ada dua kemungkinan yaitu memiliki banyak pemasok, mitra dan pelanggan yang sama dan yang kedua memiliki informasi tentang semua entitas tersebut di databses mereka masing-masing. 

      Namun, dua merek yang berbeda mungkin saja menjalankan database yang berbeda, dan informasi yang disimpan di database mereka mungkin tidak selalu sejalan. Sering terjadi banyak data yang sama berada di dalam database yang berbeda.

      Di waktu yang lain, data ganda adalah hanya hasil dari siluet sistem. Sebagai contoh, perangkat lunak Keuangan mungkin berbeda dari perangkat lunak Departemen penerimaan.

      Sementara kedua sistem mungkin menyimpan data yang sama yang berkaitan dengan rantai pasokan, sementara dua database mungkin saja sangat berbeda. 

      Dan jika Departemen penerimaan melakukan update alamat untuk vendor tertentu, mereka mungkin lupa untuk memberitahukan departemen keuangan, yang menyebabkan di departemen keuangan akan masih memiliki alamat lama yang disimpan dalam sistem mereka.

      Perusahaan dapat memilih untuk berurusan dengan situasi seperti ini dalam berbagai cara.

      Misalnya, mereka mungkin mencoba untuk menggabungkan database dari kedua perusahaan untuk digabung, atau mereka mungkin mencoba untuk memindahkan departemen keuangan dan Departemen penerimaan ke software Enterprise Resource Planning (ERP) untuk menghilangkan data silo.

      Namun, pada saat perusahaan besar mungkin dapat mengurangi jumlah database mereka dan aplikasi melalui konsolidasi, mereka biasanya masih menyisakan beberapa repositori data.

      Untuk menyimpan semua database mereka supaya tetap up to date, mereka membutuhkan solusi yang bisa mensinkronkan record dalam berbagai sistem independen.

      Hal ini biasanya memerlukan data integration tools dengan solusi data governance dan kemampuan master data management (MDM).

      Mungkin produk MDM standalone atau platform data integration yang lengkap dapat menghapus duplikat, membakukan format, menyalin data dari satu sistem ke sistem yang lain (data propagasi) dan memberikan keseragaman view pada master data dalam sistem organisasi (data Federasi).

      Menerima data dari pemasok, atau mitra

      Selama ini berbagai perusahaan telah menggunakan komputer, perangkat-perangkat komputer tersebut dibutuhkan untuk mengirim dan menerima data dari pemasok dan mitra mereka. 

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Sebagai contoh, produsen mungkin perlu memindahkan daftar pengiriman, faktur informasi atau data umum produk. Atau rumah sakit mungkin perlu menerima catatan pasien dari independen dokter kantor dan laboratorium.

      Di masa lalu, mitra mungkin hanya mengirimkan Fax untuk informasi yang relevan, dan perusahaan akan kembali melakukan input ke dalam sistem mereka. Tetapi metode ini memakan waktu dan rawan kesalahan.

      Salah satu solusi yang paling awal untuk masalah ini adalah jenis data integration tools yang dikenal sebagai elektronik data interchange (EDI).

      Pertama kali ditemukan pada tahun 1970, EDI masih digunakan sampai sekarang oleh banyak perusahaan, begitu banyak vendor menggabungkan EDI ke platform data integration mereka.

      Namun, teknologi modern menawarkan beberapa alternatif untuk jenis EDI tradisional. Misalnya, beberapa perusahaan melakukan transfer data melalui Layanan Web yang bergantung pada file XML, sementara banyak orang lain membuat nya lebih ekstensif yaitu dengan menggunakan api (application programming interface). 

      Dan beberapa perusahaan menggunakan beberapa metode yang berbeda untuk mentransfer data ke dan dari mitra perusahaan, di mana pada kasus data integration tools yang dapat mengelola berbagai jenis sambungan data menjadi demikian menarik.


      Membuat Dashboard Penjualan atau Dashboard Pemasaran 

      Dalam survei NewVantage 2018, 98,6 persen dari eksekutif yang disurvei mengatakan organisasi mereka sedang dalam proses menciptakan budaya data-driven.

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Sebagian besar dari usaha di sebagian besar perusahaan membuat penggunaan data analytics yang lebih besar dalam penjualan dan Departemen pemasaran.

      Pada saat ini, banyak organisasi berinteraksi dengan pelanggan dengan mengambil tempat secara online.

      Yang memberikan kelebihan pada perusahaan dalam hal kemampuan untuk mengukur upaya mereka dalam melakukan penjualan dan pemasaran, apakah mereka sedang menghitung tayangan iklan dan klik iklan, pelacakan berapa lama pelanggan menghabiskan di berbagai bagian dari situs web mereka atau benar-benar menjual produk mereka dan Layanan online lainnya.

      Banyak organisasi yang menggunakan data ini untuk membuat dashboard yang memberitahu mereka mengenai informasi pemasaran dan penjualan tim, bagaimana usaha yang sudah mereka lakukan.

      Sebagai contoh, sebuah dashboard pemasaran mungkin mampu untuk melacak dan mengarahkan hasil terkait dengan banyak faktor: 
      • Bounce Rates (tingkat pentalan)
      • Open Rates
      • Metrik konversi
      • Convertion Metrics
      • Lead Quality
      • Key Performance Indicator (KPI) yang penting bagi tim

      Bila memungkinkan, data ini disajikan dalam format visual, seperti diagram atau grafik, sehingga pengguna dapat melihat tren baris dan sekilas data visual itu membuatnya masuk akal.

      Untuk membuat dashboard ini, organisasi mungkin menggunakan platform data integration atau gabungan beberapa tool berbeda secara mandiri. Beberapa penjualan atau pemasaran perangkat lunak termasuk kemampuan untuk menciptakan sebuah dashboard. 

      Atau organisasi dapat membuat dashboard mereka sendiri, mengubah sesuai kebutuhan yang menarik data dari beberapa sumber internal dan eksternal yang berbeda.

      Aplikasi yang kemudian berjalan akan membutuhkan berbagai analytics yang diperlukan dan menciptakan visualisasi dan melakukan update data secara teratur.

      Kasus penggunaan data integration ini jauh lebih kompleks daripada ETL atau sinkronisasi records, sehingga memerlukan perangkat lunak yang lebih kuat dan powerfull.

      Memberikan Pandangan 360 Derajat kepada Pelanggan

      Untuk banyak perusahaan, "holy grail" data integration adalah untuk menciptakan pandangan utuh 360 derajat dari setiap individu nasabah / customer.

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Idenya adalah bahwa setiap kali seorang penjual atau karyawan lain yang berinteraksi dengan pelanggan, dia akan memiliki satu panel kaca yang merangkum semua interaksi nasabah dengan perusahaan.

      Kondisi seperti ini sering membutuhkan untuk menarik data pelanggan dari beberapa sistem perangkat lunak manajemen hubungan pelanggan (CRM), aplikasi ERP, dukungan teknis sistem pelacakan Tiket, pemasaran software, sistem e-commerce, dan aplikasi lainnya.

      Hal tersebut akan mampu memberikan kemampuan pada user untuk menelusuri sejarah pelanggan, melihat persis apa yang sudah ia beli di masa lalu dan rincian panggilan, email atau obrolan dengan dukungan pelanggan.

      Banyak dari dashboard 360 derajat pelanggan ini juga memanfaatkan pengayaan data. Karena hal inilah, mereka membawa data eksternal yang tidak disertakan dalam database Perseroan.

      Sebagai contoh, untuk keperluan tersebut bisa saja menarik informasi dari rekening-rekening nasabah, akun media sosial publik atau memasukkan informasi yang tersedia dari broker data.

      Banyak hari ini dashboard juga menggabungkan analisis prediktif, machine learning dan kecerdasan buatan (Artificial Intelligence / AI).

      Sistem-sistem tersebut mungkin mampu menawarkan saran untuk apa yang mungkin pelanggan beli berikutnya, atau menawarkan bahwa pelanggan mungkin akan menemukan sesuatu hal yang sangat menarik. 

      Dalam beberapa kasus, mereka bahkan dapat menggunakan sentimen analisis untuk mengukur keadaan emosi pelanggan dan membimbing anggota staf pada panggilan tersebut.

      Kasus penggunaan data integration ini adalah yang paling rumit dari semua yang ada, dan itu memerlukan perangkat lunak data integration dan data analytic yang sangat maju.

      Banyak perusahaan membuat investasi yang diperlukan, namun, dengan harapan untuk melihat drama perbaikan dalam penjualan dan layanan pelanggan.

      Demikian lah top 5 studi kasus untuk data integration. Apakah anda terarik untuk menggeluti dunia data integration ini?

      Dalam hal data integration ini kita tidak hanya akan membicarakan mengenai big data, namun lebih dari itu semua, karena pada akhirnya semua akan bermuara pada data management, bagaimana kemampuan kita dalam mengelola data yang ada.

      Nantikan untuk bahasan-bahasan menarik lainnya seputar data management dan big data di bigdatadba.com, tidak hanya sekedar bicara data.



      Refference :
      #dataintegration, #dataintegrationtools, #dataintegrationplatform

      MKRdezign

      Contact Form

      Name

      Email *

      Message *

      Powered by Blogger.
      Javascript DisablePlease Enable Javascript To See All Widget