Big Data DBA: Tutorial Big Data

Belajar Big Data Solusi Data Management Dengan Big Data

Articles by "Tutorial Big Data"

Infrastruktur Big Data itu Seperti Apa - Big Data DBA. Saat mengulas Big Data tentu kita bakal tersadar pada keperluan infrastruktur untuk menyokong teknologi Big Data itu. Dalam infrastruktur teknologi Big Data sendiri mempunyai karakteristik yang tidak sama dengan traditional data, yakni : 

Infrastruktur Big Data itu Seperti Apa










Infrastruktur Big Data itu Seperti Apa

#1.  Sekilas Sejarah Tentang Big Data

Awal mulanya th. 1970-2000 data yang di bangun merupakan data dengan jenis terstruktur serta adalah relational database seperti MySQL, oracle, dan sebagainya. Lantas pada th. 1995 selanjutnya mulai di bangun satu business intelligence yang memakai structured serta relational database dengan sistem seperti cognos, pentaho dan sebagainya. Pada 2010 sampai saat ini di bangun satu sistem yang mempunyai maksud 3V (volume, velocity, varity) atau 4V (ditambah value), serta dengan berbagai teknologinya seperti map reduce, high performance computers cluster dan sebagainya. 

Berarti kegunaan Big Data adalah sisi dari intelijen usaha, Big Data bisa dipakai untuk membuat satu usaha yang mempunyai intelijen manfaat mensupport pengambilan keputusan. Tetapi dalam hal semacam ini ada banyak hal yang tidak sama dari sisi volume yang tidak cuma jumlah data yang banyak, tetapi perkembangan data yang sangatlah cepat hingga dalam rentang waktu yang pendek data bisa bertumbuh dengan amat cepat serta besar (velocity), serta data yang ada mempunyai variasi yang sangatlah banyak (variety) tentu dalam big data sendiri terlebih dalam pembentukan data warehouse telah banyak dikerjakan ekstraksi transform load (ETL) untuk menanggulanggi varietas dari data itu hingga data bisa jadi standard baik dibikin bersih dari beragam noise juga dikerjakan transformasi hingga data tambah lebih sesuai dengan sistem usaha yang ada atau yang tengah jalan untuk organisasi spesifik. 

Business Intelligence yang didalamnya ada pemakaian big data juga memerlukan satu teknologi yang bisa mensupport sistem usaha yang ada di dalam intelijen usaha tersebut, hingga bisa jalan sesuai sama yang diinginkan. Hingga butuh di bangun satu infrastruktur yang pas serta bisa menangani keperluan big data yakni satu diantaranya yaitu sistem pemrosesan data yang amat cepat meskipun diwaktu yang sama data memiliki ukuran besar serta tumbuh dengan cepat. 

Sebagai permasalahan serta tantangan yaitu akusisi data, recording data, ekstraksi, cleaning, anotasi, integrasi, agregasi, representasi, analisa, jenising, interpretasi, serta visualisasi. Big data sendiri mempunyai aplikasi serta fungsi untuk beragam bagian seperti yang telah dijelaskan di atas pada awal mula artikel ini. 

#2. Macam Teknologi Big Data

Ada dua teknologi dalam infrastruktur dalam Big data yakni : 

  1. High Performance Computing Cluster (HPCC) atau bisa dikatakan sebagai Data Analytics Supercomputer (DAS) 
  2. Hadoop Basis (Map Reduced-Based Basis) 

Dari ke-2 pendekatan teknologi itu ada ketidaksamaan yang cukup penting (dari sisi manfaat) serta ada kemiripan dalam sistem yang jalan didalamnya. Kemiripan dari dua teknologi itu yaitu keduanya sama memakai kurang lebih satu computer dalam melakukan sistem penarikan info maupun pemrosesan beragam info atau bahkan juga bisa tampak keduanya memakai rancangan cluster pada arsitektur teknologi yang dipakai. Pada intinya keduanya juga bisa diintegrasikan dengan baik manfaatnya sama-sama mensupport keduanya. 

High Performance Computing Clusters (HPCC) itu sendiri pada intinya dibangun sebagai satu super computer yang terbagi dalam kurang lebih satu computer dengan spesifikasi spesifik (umumnya sama) untuk sama-sama menolong, menyokong, atau membagi pekerjaan keduanya hingga berbarengan bisa lakukan processing pada satu data, terlebih dalam soal pencarian data. Sistem besar yang umumnya jalan sendiri yaitu seperti, Ekstrak, Transform, serta Load, lantas kemudian dikerjakan analisa untuk memperoleh info yang lebih sesuai sama kebuthan usaha organisasi itu. 

Infrastruktur Big Data itu Seperti Apa

Sedang Hadoop Berbasis sendiri adalah satu project teknologi yang di kembangkan oleh apache dalam mengelola data besar hingga tambah lebih efisien serta efektif. Dalam hadoop sendiri terbagi dalam beragam komponen, bahkan juga sampai hadoop sendiri mempunyai distributed file sistem sendiri yang disebut dengan (HDFS). Keunggulan dari dari HDFS itu sendiri yaitu : 


  • Fault tolerance, serta di-deploy untuk low biaya hardware 
  • Write Once, Read many, adalah koherensi simpel, serta ditambah lagi frame-work yang di bangun dalam hadoop saat kita bakal memakai hadoop, memakai teknologi java. 
  • Memindahkan komputasi/sistem lebih cepat dari memindahkan data. 
  • Serupa Google File Sistem, namun HDFS membagi file jadi block dalam cluster node yang terdistribusi. 
  • Core component : master vs slave, name node vs data node, job tracker vs task tracker. 

#3.  Arsitektur Hadoop dan Integrasi antara HPCC dan Hadoop

Berikut ini adalah gambaran dari hadoop Basis : 

Infrastruktur Big Data itu Seperti Apa


Dibawah ini merupakan satu diantara arsitektur integrasi pada HPCC serta Hadoop basis : 

Infrastruktur Big Data itu Seperti Apa


Pada saat itu ada ketidaksamaan System manajemen Basis Data, yang pada intinya basis data mempunyai korelasi antar data yag umumnya kita sebut dengan data yang telah terstruktur atau terorganisasi, serta piranti sistem manajemen basis datanya yang disebut piranti lunak yang bisa dipakai untuk mengelola basis data seperti MySQL, Oracle, PostgreSQL dan sebagainya. Ketika ini ada keperluan lain dari manajemen basis data karenanya ada big data atau jadi System Manajemen Big Data. Berikut yaitu pemicu mengapa ada keperluan Manajemen Big Data itu : 

#4.  DBMS Konvensional Tidak Cukup Untuk Big Data

Tak seluruhnya masalah pemrosesan data bisa dikerjakan lewat cara paling baik memakai traditional relational DBMS. 

DBMS konvensional kurang untuk big data lantaran :
  • Kecepatan akses (gosip volume) 
  • Kesederhanaan set up 
  • Keperluan representasi struktu/skema yang lebih longgar (gosip variety) 
  • Keperluan pengelolaan data yang tidak sama (ACID tak seutuhnya dibutuhkan), missal connectedness. 
  • Keperluan arsitektur terdistribusi (scale out). 


    Hingga di bangun beragam piranti lunak yang bisa menangani keperluan itu tetapi masingmasing teknologi mempunyai karakteristik dalam sistem pemrosesan yang tidak sama, tersebut misalnya : 

    Column Oriented

    • Big table (google), Hbase, Cassandra (Facebook)

    Document Oriented

    • CouchDB, MongoDB

    Graph-Oriented

    • Neo4j, Virtuoso

    Key-value Oriented

    • DynamoDB (Amazon), Riak



      #5.  Perbedaan DBMS Untuk Big Data

      Dari sebagian contoh DBMS di atas itu tampak bahwa ada ketidaksamaan mendasar pada masing DBMS untuk big data itu yaitu pada tujuan dari masing-masing database management sistem. Umumnya sistem untuk manajemen basis data untuk Big Data yang dipakai yaitu NoSQL yang pada awalanya ditujukan oleh beberapa komune yg tidak suka pada pemakaikan SQL juga sebagai “tidak memakai SQL” tetapi saat ini lantaran kesadaran ternyta kita tak bias seutuhnya terlepas pada SQL itu, dirubah jadi “Not Only SQL” (NoSQL). NoSql itu adalah DBMS yang dijelaskan pada awal mulanya (4 point diatas). NoSQL mempunyai ketidaksamaan yaitu database yg tidak berelasi, lantaran tak ada keperluan connectedness yang telah dijelaskan pada awal mulanya, serta umumnya berbentuk terdistribusi serta scale out (dengan cara horizontal). Tidak ada skema spesial hingga lebih longgar pada skema, serta pemakaikan Application Programming Interface yang lebih simpel dalam pemakaian manipulasi atau processing data. Juga mengaplikasikan perinsip BASE, buka ACID. 

      Yang paling populer sendiri untuk teknologi NoSQL itu yaitu Hadoop dengan map reducenya yang pada versus 1.0 serta 2.0 nya mempunyai ketidaksamaan yang cukup penting terlebih dalam jenis frameworknya, yang ke-2 yaitu Document Oriented yang mempunyai rencana hirarki dalam dokumen satu data, serta umumnya dokumen di enkapsulasi serta encoding dalam format standard XML, JSON, YAML, dan sebagainya. Sedang Graph oriented adalah DBMS yang memrepresentasikan jenis data graph, yang menunjukkan keterhubungan antar tiap-tiap data. 

      Dalam sistem mining (datamining) karenanya ada big data itu sendiri cukup menguntungkan lantaran datamining memerlukan data yang banyak hingga membuahkan jenis yang tambah lebih general tetapi mempunyai akurasi yang tinggi. Tetapi karenanya ada big data itu sendiri datamining diwajibkan terima tantangan bagaimanakah lakukan datamining dengan taraf yang sangatlah besar serta terdistribusi dengan juga variety data yang sangatlah variatif. 



      Hingga diinginkan dengan pemakaian infrastruktur teknologi dari Big Data yang pas manfaatnya dan bisa mensupport sistem usaha yang ada jadi tambah lebih baik terlebih dalam sistem pengambilan info, knowledge serta wisdom manfaat mensupport dalam pengambil keputusan disuatu organisasi spesifik baik ini keuntungan / profit ataupun non-profit, baik ini swasta ataupun pemerintah.


      Tantangan Pengolahan Big Data – Big Data DBA. Tantangan big data sangat banyak: Proyek big data telah menjadi bagian normal dalam berbisnis - namun bukan berarti big data itu mudah.

      Big Data-Apa saja Tantangan Untuk Mengolahnya


      Menurut NewVantage Partners Big Data Executive Survey 2017, 95 persen pemimpin bisnis Fortune 1000 yang disurvei mengatakan bahwa perusahaan mereka telah melakukan proyek big data dalam lima tahun terakhir. Namun, kurang dari setengah (48,4 persen) yang mengatakan bahwa inisiatif big data mereka telah mencapai hasil yang terukur.

      Laporan pada bulan Oktober 2016 dari Gartner menemukan bahwa organisasi terjebak pada tahap percontohan inisiatif big data mereka. "Hanya 15 persen dari bisnis yang melaporkan penggelaran proyek big data mereka ke produksi, yang secara efektif tidak berubah dari tahun lalu (14 persen)," kata firma tersebut.

      Jelas, organisasi menghadapi beberapa tantangan utama dalam mengimplementasikan strategi big data mereka. Kenyataannya, Riset Data & Analytics IDG Enterprise menemukan bahwa 90 persen dari mereka yang disurvei melaporkan mengalami tantangan yang berkaitan dengan proyek big data mereka.

      [success title="Tantangan Pengolahan Big Data" icon="check-circle"] Jadi apa tantangannya? Dan yang lebih penting, apa yang bisa dilakukan organisasi untuk mengatasi tantangan dalam mengolah big data? [/success]

      Data apakah yang besar yang dinamakan Big Data ?

      Sebelum kita menyelidiki tantangan data yang paling umum, pertama-tama kita harus mendefinisikan "big data". Tidak ada jumlah gigabyte atau terabyte atau petabyte yang memisahkan "big data" dari "data berukuran rata-rata". Data storage terus berkembang, jadi sepertinya data seperti sekarang mungkin tampak seperti jumlah normal dalam satu atau dua tahun. Selain itu, setiap organisasi berbeda, sehingga jumlah data yang tampaknya menantang untuk sebuah toko ritel kecil mungkin tidak terlalu mirip dengan perusahaan jasa keuangan besar.

      Sebagai gantinya, kebanyakan ahli mendefinisikan big data dari tiga sisi Vs. Anda memiliki data yang besar jika data store Anda memiliki karakteristik sebagai berikut:

      Volume: Big data adalah kumpulan data yang begitu besar sehingga organisasi yang memilikinya menghadapi tantangan terkait dengan penyimpanan atau pemrosesannya. Kenyataannya, tren seperti e-niaga, mobilitas, media sosial dan Internet Hal (IoT) menghasilkan begitu banyak informasi, sehingga hampir setiap organisasi mungkin memenuhi kriteria ini.

      Velocity: Jika organisasi Anda menghasilkan data baru dengan kecepatan tinggi dan perlu merespons secara real time, Anda memiliki kecepatan yang terkait dengan big data. Sebagian besar organisasi yang terlibat dalam e-niaga, media sosial atau IoT memenuhi kriteria ini untuk big data.

      Variety: Jika data Anda berada dalam berbagai format, ragamnya memiliki data yang besar. Misalnya, penyimpanan data yang besar biasanya mencakup pesan email, dokumen pengolah kata, gambar, video dan presentasi, serta data yang berada dalam sistem pengelolaan basis data relasional yang terstruktur (RDBMSes).


      Ketiga karakteristik ini menyebabkan banyak tantangan yang dihadapi organisasi dalam inisiatif big data mereka. Beberapa tantangan big data yang paling umum adalah sebagai berikut:

      1. Berurusan dengan pertumbuhan data

      Tantangan yang paling jelas terkait dengan big data hanyalah menyimpan dan menganalisis semua informasi itu. Dalam laporan Digital Universe-nya, IDC memperkirakan bahwa jumlah informasi yang tersimpan dalam sistem TI di dunia dua kali lipat setiap dua tahun sekali. Pada 2020, jumlah totalnya akan cukup untuk mengisi setumpuk tablet yang mencapai dari bumi hingga bulan 6,6 kali. Dan perusahaan memiliki tanggung jawab atau tanggung jawab sekitar 85 persen dari informasi tersebut.

      Sebagian besar data itu tidak terstruktur, artinya tidak berada dalam database. Dokumen, foto, audio, video dan data tidak terstruktur lainnya sulit dicari dan dianalisis.

      Tidak mengherankan jika laporan IDG menemukan, "Mengelola data tidak terstruktur tumbuh sebagai tantangan - meningkat dari 31 persen di tahun 2015 menjadi 45 persen pada tahun 2016."

      Untuk mengatasi pertumbuhan data, organisasi beralih ke sejumlah teknologi yang berbeda. Ketika infrastruktur penyimpanan, konvergensi dan hyperconverged dan perangkat lunak yang didefinisikan penyimpanan dapat memudahkan perusahaan untuk mengukur perangkat keras mereka. Dan teknologi seperti kompresi, deduplikasi dan tiering dapat mengurangi jumlah ruang dan biaya yang berkaitan dengan penyimpanan data yang besar.

      Di sisi manajemen dan analisis, perusahaan menggunakan alat seperti database NoSQL, Hadoop, Spark, perangkat lunak analisis big data, aplikasi intelijen bisnis, kecerdasan buatan dan pembelajaran mesin untuk membantu mereka menyisir data store besar mereka untuk menemukan wawasan yang dibutuhkan perusahaan mereka.


      2. Menghasilkan wawasan pada waktu yang tepat

      Tentu saja, organisasi tidak hanya ingin menyimpan big data mereka - mereka ingin menggunakan big data tersebut untuk mencapai tujuan bisnis. Menurut survei NewVantage Partners, tujuan yang paling umum dikaitkan dengan proyek big data adalah sebagai berikut:

      • Mengurangi biaya melalui efisiensi biaya operasional
      • Menetapkan budaya berbasis data
      • Menciptakan jalan baru untuk inovasi dan gangguan
      • Mempercepat kecepatan dengan kemampuan dan layanan baru dikerahkan
      • Meluncurkan penawaran produk dan layanan baru


      Semua tujuan tersebut dapat membantu organisasi menjadi lebih kompetitif - tetapi hanya jika mereka dapat mengekstrak wawasan dari big data mereka dan kemudian bertindak sesuai wawasan tersebut dengan cepat. Survei Data dan Analytics Global PwC 2016 menemukan, "Semua orang ingin pengambilan keputusan menjadi lebih cepat, terutama di bidang perbankan, asuransi, dan perawatan kesehatan."

      Untuk mencapai kecepatan itu, beberapa organisasi mencari generasi baru alat ETL dan analisis yang secara dramatis mengurangi waktu yang dibutuhkan untuk menghasilkan laporan. Mereka berinvestasi dalam perangkat lunak dengan kemampuan analisis real-time yang memungkinkan mereka merespons perkembangan di pasar secara langsung.


      3. Merekrut dan mempertahankan bakat data yang besar

      Tetapi untuk mengembangkan, mengelola dan menjalankan aplikasi yang menghasilkan wawasan, organisasi membutuhkan profesional dengan keterampilan data yang besar. Hal itu mendorong permintaan ahli big data - dan gaji data yang besar telah meningkat secara dramatis.

      Panduan Gaji Gaji Robert Tahun 2017 melaporkan bahwa insinyur big data menghasilkan rata-rata antara $ 135.000 dan $ 196.000, sementara gaji ilmuwan data berkisar antara $ 116.000 sampai $ 163, 500. Bahkan, analis business intelligence dibayar dengan sangat baik, menghasilkan $ 118.000 sampai $ 138.750 per tahun.

      Untuk mengatasi kekurangan bakat, organisasi memiliki beberapa pilihan. Pertama, banyak yang meningkatkan anggaran dan upaya rekrutmen dan retensi mereka. Kedua, mereka menawarkan lebih banyak kesempatan pelatihan kepada anggota staf mereka saat ini dalam upaya mengembangkan talenta yang mereka butuhkan dari dalam. Ketiga, banyak organisasi mencari teknologi. Mereka membeli solusi analisis dengan kemampuan belajar mandiri dan / atau mesin. Dirancang untuk digunakan oleh para profesional tanpa gelar sains data, alat ini dapat membantu organisasi mencapai sasaran big data mereka walaupun mereka tidak memiliki banyak pakar big data mengenai staf.

      4. Mengintegrasikan sumber data yang berbeda

      Varietas yang terkait dengan big data mengarah pada tantangan dalam integrasi data. Big data berasal dari banyak tempat yang berbeda - aplikasi perusahaan, aliran media sosial, sistem email, dokumen buatan karyawan, dll. Menggabungkan semua data dan rekonsiliasi sehingga dapat digunakan untuk membuat laporan dapat menjadi sangat sulit. Vendor menawarkan berbagai perangkat ETL dan integrasi data yang dirancang untuk mempermudah proses pembuatannya, namun banyak perusahaan mengatakan bahwa mereka belum menyelesaikan masalah integrasi data.

      Sebagai tanggapan, banyak perusahaan beralih ke solusi teknologi baru. Dalam laporan IDG, 89 persen dari mereka yang disurvei mengatakan bahwa perusahaan mereka berencana untuk berinvestasi pada alat data baru yang besar dalam 12 sampai 18 bulan mendatang. Ketika ditanya jenis alat yang akan mereka beli, maka mereka memberitahukan sebagai teknologi integrasi.

      Demikianlah tantangan dalam mengelola big data, terutama untuk big data Indonesia dengan data yang besar dan beragam. Selanjutnya kita bisa belajar big data dengan membaca dan mempelajari artikel-artikel :


      “Serial Tutorial Big Data, Belajar Big Data Bersama Dengan Mudah”



      Apabila artikel ini cukup bermanfaat bagi anda, silahkan anda share artikel ini kepada kolega dan rekan-rekan anda. Sampai jumpa dalam artikel-artikel dan tulisan-tulisan belajar tutorial big data Indonesia selanjutnya.


      Refference :
      big data, big data adalah, big data Indonesia, belajar big data, tutorial big data, manfaat big data, karakteristik big data

      MKRdezign

      Contact Form

      Name

      Email *

      Message *

      Powered by Blogger.
      Javascript DisablePlease Enable Javascript To See All Widget