Big Data DBA

Belajar Big Data Solusi Data Management Dengan Big Data

Latest Post

Infrastruktur Big Data itu Seperti Apa - Big Data DBA. Saat mengulas Big Data tentu kita bakal tersadar pada keperluan infrastruktur untuk menyokong teknologi Big Data itu. Dalam infrastruktur teknologi Big Data sendiri mempunyai karakteristik yang tidak sama dengan traditional data, yakni : 

Infrastruktur Big Data itu Seperti Apa










Infrastruktur Big Data itu Seperti Apa

#1.  Sekilas Sejarah Tentang Big Data

Awal mulanya th. 1970-2000 data yang di bangun merupakan data dengan jenis terstruktur serta adalah relational database seperti MySQL, oracle, dan sebagainya. Lantas pada th. 1995 selanjutnya mulai di bangun satu business intelligence yang memakai structured serta relational database dengan sistem seperti cognos, pentaho dan sebagainya. Pada 2010 sampai saat ini di bangun satu sistem yang mempunyai maksud 3V (volume, velocity, varity) atau 4V (ditambah value), serta dengan berbagai teknologinya seperti map reduce, high performance computers cluster dan sebagainya. 

Berarti kegunaan Big Data adalah sisi dari intelijen usaha, Big Data bisa dipakai untuk membuat satu usaha yang mempunyai intelijen manfaat mensupport pengambilan keputusan. Tetapi dalam hal semacam ini ada banyak hal yang tidak sama dari sisi volume yang tidak cuma jumlah data yang banyak, tetapi perkembangan data yang sangatlah cepat hingga dalam rentang waktu yang pendek data bisa bertumbuh dengan amat cepat serta besar (velocity), serta data yang ada mempunyai variasi yang sangatlah banyak (variety) tentu dalam big data sendiri terlebih dalam pembentukan data warehouse telah banyak dikerjakan ekstraksi transform load (ETL) untuk menanggulanggi varietas dari data itu hingga data bisa jadi standard baik dibikin bersih dari beragam noise juga dikerjakan transformasi hingga data tambah lebih sesuai dengan sistem usaha yang ada atau yang tengah jalan untuk organisasi spesifik. 

Business Intelligence yang didalamnya ada pemakaian big data juga memerlukan satu teknologi yang bisa mensupport sistem usaha yang ada di dalam intelijen usaha tersebut, hingga bisa jalan sesuai sama yang diinginkan. Hingga butuh di bangun satu infrastruktur yang pas serta bisa menangani keperluan big data yakni satu diantaranya yaitu sistem pemrosesan data yang amat cepat meskipun diwaktu yang sama data memiliki ukuran besar serta tumbuh dengan cepat. 

Sebagai permasalahan serta tantangan yaitu akusisi data, recording data, ekstraksi, cleaning, anotasi, integrasi, agregasi, representasi, analisa, jenising, interpretasi, serta visualisasi. Big data sendiri mempunyai aplikasi serta fungsi untuk beragam bagian seperti yang telah dijelaskan di atas pada awal mula artikel ini. 

#2. Macam Teknologi Big Data

Ada dua teknologi dalam infrastruktur dalam Big data yakni : 

  1. High Performance Computing Cluster (HPCC) atau bisa dikatakan sebagai Data Analytics Supercomputer (DAS) 
  2. Hadoop Basis (Map Reduced-Based Basis) 

Dari ke-2 pendekatan teknologi itu ada ketidaksamaan yang cukup penting (dari sisi manfaat) serta ada kemiripan dalam sistem yang jalan didalamnya. Kemiripan dari dua teknologi itu yaitu keduanya sama memakai kurang lebih satu computer dalam melakukan sistem penarikan info maupun pemrosesan beragam info atau bahkan juga bisa tampak keduanya memakai rancangan cluster pada arsitektur teknologi yang dipakai. Pada intinya keduanya juga bisa diintegrasikan dengan baik manfaatnya sama-sama mensupport keduanya. 

High Performance Computing Clusters (HPCC) itu sendiri pada intinya dibangun sebagai satu super computer yang terbagi dalam kurang lebih satu computer dengan spesifikasi spesifik (umumnya sama) untuk sama-sama menolong, menyokong, atau membagi pekerjaan keduanya hingga berbarengan bisa lakukan processing pada satu data, terlebih dalam soal pencarian data. Sistem besar yang umumnya jalan sendiri yaitu seperti, Ekstrak, Transform, serta Load, lantas kemudian dikerjakan analisa untuk memperoleh info yang lebih sesuai sama kebuthan usaha organisasi itu. 

Infrastruktur Big Data itu Seperti Apa

Sedang Hadoop Berbasis sendiri adalah satu project teknologi yang di kembangkan oleh apache dalam mengelola data besar hingga tambah lebih efisien serta efektif. Dalam hadoop sendiri terbagi dalam beragam komponen, bahkan juga sampai hadoop sendiri mempunyai distributed file sistem sendiri yang disebut dengan (HDFS). Keunggulan dari dari HDFS itu sendiri yaitu : 


  • Fault tolerance, serta di-deploy untuk low biaya hardware 
  • Write Once, Read many, adalah koherensi simpel, serta ditambah lagi frame-work yang di bangun dalam hadoop saat kita bakal memakai hadoop, memakai teknologi java. 
  • Memindahkan komputasi/sistem lebih cepat dari memindahkan data. 
  • Serupa Google File Sistem, namun HDFS membagi file jadi block dalam cluster node yang terdistribusi. 
  • Core component : master vs slave, name node vs data node, job tracker vs task tracker. 

#3.  Arsitektur Hadoop dan Integrasi antara HPCC dan Hadoop

Berikut ini adalah gambaran dari hadoop Basis : 

Infrastruktur Big Data itu Seperti Apa


Dibawah ini merupakan satu diantara arsitektur integrasi pada HPCC serta Hadoop basis : 

Infrastruktur Big Data itu Seperti Apa


Pada saat itu ada ketidaksamaan System manajemen Basis Data, yang pada intinya basis data mempunyai korelasi antar data yag umumnya kita sebut dengan data yang telah terstruktur atau terorganisasi, serta piranti sistem manajemen basis datanya yang disebut piranti lunak yang bisa dipakai untuk mengelola basis data seperti MySQL, Oracle, PostgreSQL dan sebagainya. Ketika ini ada keperluan lain dari manajemen basis data karenanya ada big data atau jadi System Manajemen Big Data. Berikut yaitu pemicu mengapa ada keperluan Manajemen Big Data itu : 

#4.  DBMS Konvensional Tidak Cukup Untuk Big Data

Tak seluruhnya masalah pemrosesan data bisa dikerjakan lewat cara paling baik memakai traditional relational DBMS. 

DBMS konvensional kurang untuk big data lantaran :
  • Kecepatan akses (gosip volume) 
  • Kesederhanaan set up 
  • Keperluan representasi struktu/skema yang lebih longgar (gosip variety) 
  • Keperluan pengelolaan data yang tidak sama (ACID tak seutuhnya dibutuhkan), missal connectedness. 
  • Keperluan arsitektur terdistribusi (scale out). 


    Hingga di bangun beragam piranti lunak yang bisa menangani keperluan itu tetapi masingmasing teknologi mempunyai karakteristik dalam sistem pemrosesan yang tidak sama, tersebut misalnya : 

    Column Oriented

    • Big table (google), Hbase, Cassandra (Facebook)

    Document Oriented

    • CouchDB, MongoDB

    Graph-Oriented

    • Neo4j, Virtuoso

    Key-value Oriented

    • DynamoDB (Amazon), Riak



      #5.  Perbedaan DBMS Untuk Big Data

      Dari sebagian contoh DBMS di atas itu tampak bahwa ada ketidaksamaan mendasar pada masing DBMS untuk big data itu yaitu pada tujuan dari masing-masing database management sistem. Umumnya sistem untuk manajemen basis data untuk Big Data yang dipakai yaitu NoSQL yang pada awalanya ditujukan oleh beberapa komune yg tidak suka pada pemakaikan SQL juga sebagai “tidak memakai SQL” tetapi saat ini lantaran kesadaran ternyta kita tak bias seutuhnya terlepas pada SQL itu, dirubah jadi “Not Only SQL” (NoSQL). NoSql itu adalah DBMS yang dijelaskan pada awal mulanya (4 point diatas). NoSQL mempunyai ketidaksamaan yaitu database yg tidak berelasi, lantaran tak ada keperluan connectedness yang telah dijelaskan pada awal mulanya, serta umumnya berbentuk terdistribusi serta scale out (dengan cara horizontal). Tidak ada skema spesial hingga lebih longgar pada skema, serta pemakaikan Application Programming Interface yang lebih simpel dalam pemakaian manipulasi atau processing data. Juga mengaplikasikan perinsip BASE, buka ACID. 

      Yang paling populer sendiri untuk teknologi NoSQL itu yaitu Hadoop dengan map reducenya yang pada versus 1.0 serta 2.0 nya mempunyai ketidaksamaan yang cukup penting terlebih dalam jenis frameworknya, yang ke-2 yaitu Document Oriented yang mempunyai rencana hirarki dalam dokumen satu data, serta umumnya dokumen di enkapsulasi serta encoding dalam format standard XML, JSON, YAML, dan sebagainya. Sedang Graph oriented adalah DBMS yang memrepresentasikan jenis data graph, yang menunjukkan keterhubungan antar tiap-tiap data. 

      Dalam sistem mining (datamining) karenanya ada big data itu sendiri cukup menguntungkan lantaran datamining memerlukan data yang banyak hingga membuahkan jenis yang tambah lebih general tetapi mempunyai akurasi yang tinggi. Tetapi karenanya ada big data itu sendiri datamining diwajibkan terima tantangan bagaimanakah lakukan datamining dengan taraf yang sangatlah besar serta terdistribusi dengan juga variety data yang sangatlah variatif. 



      Hingga diinginkan dengan pemakaian infrastruktur teknologi dari Big Data yang pas manfaatnya dan bisa mensupport sistem usaha yang ada jadi tambah lebih baik terlebih dalam sistem pengambilan info, knowledge serta wisdom manfaat mensupport dalam pengambil keputusan disuatu organisasi spesifik baik ini keuntungan / profit ataupun non-profit, baik ini swasta ataupun pemerintah.

      Berdasarkan aturan secara umum, data integration tampaknya seperti topik yang cukup sederhana: kita hanya perlu untuk menggabungkan data yang berasal dari lebih satu sumber data.

      Akan tetapi dalam prakteknya, ternyata data integration bisa menjadi sangat kompleks. Banyak vendor menawarkan array yang memusingkan menggunakan data integration tools yang berbeda dengan berbagai macam kemampuan. 

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus
      Photo by Franki Chamaki on Unsplash

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus


      Perusahaan harus memilih antara data integration tools lokal dan berbasis Internet, single-purpose tools dan platform data integration multi-fungsi, dan data integration tools yang berlicense atau data integration tools yang open source.

      Dan untuk memilih data integration tools yang terbaik, maka kita harus memiliki strategi data integration, serta integrasi data menggunakan kasus-kasus yang masuk akal dari perspektif keuangan.

      Tentu saja, kebutuhan setiap organisasi akan sedikit berbeda, tergantung pada industri mereka, produk, pelanggan, alur kerja dan faktor lainnya. Namun, banyak perusahaan menggunakan data integration untuk tujuan serupa.

      “Kasus penggunaan data integration ini berkisar dari migrasi data untuk sinkronisasi data di beberapa sistem untuk menyediakan pemandangan holistik 360 derajat dari pelanggan.”


      Berikut ini adalah lima dari data integration yang paling umum dengan menggunakan kasus-kasus yang berlaku di berbagai industri:

      Migrasi data ke dalam data warehouse atau Hadoop

      Saat ini, data analytics telah menjadi bagian integral dalam melakukan bisnis. Dalam setiap industri, organisasi menciptakan repositori big data yang mereka harapkan dapat untuk memberikan wawasan berharga.

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus
      Photo by Balázs Kétyi on Unsplash

      Pada kenyataannya, di NewVantage Partners Big Data Executive Survey 2018, ternyata 97.2 persen responden mengatakan bahwa organisasi mereka sudah berinisiatif untuk menggunakan big data atau kecerdasan buatan (AI).

      Tentunya banyak tantangan yang dihadapi dalam mengembangkan bigdata. Apa saja tantangannya ? Anda bisa mencari tahu pada artikel berikut yang membahas tentang apa saja tantangan untuk mengolah big data.

      Namun, sebelum organisasi dapat menjalankan laporan, melakukan analisis atau mendapatkan pengetahuan, mereka pertama kali perlu untuk mengumpulkan semua data mereka ke dalam satu tempat dan mengumpulkan data tersebut dalam format yang tepat untuk analisis.

      Dan ternyata hal tersebut memerlukan data integration.

      Jenis data integration akan tergantung pada jenis repositori data perusahaan dalam ketertarikannya pada penciptaan data tersebut. Banyak organisasi memiliki data warehouse yang mereka gunakan untuk tujuan business intelligence (BI).

      Membuat data repository ini tentunya anda membutuhkan data integration tools yang dapat mengumpulkan data yang relevan dari berbagai aplikasi yang berbeda dan juga berbagai sistem yang berbeda pula.

      Karena data warehouse menyimpan data dalam keadaan terstruktur, data mungkin perlu dibersihkan atau diubah sehingga dalam format yang sama dan serupa seperti data yang lainnya. 

      Misalnya, beberapa aplikasi dapat menyimpan nomor telepon dengan tanda kurung, seperti (123)456-7890, sementara orang lain hanya menggunakan tanda hubung, seperti 123-456-7890. Sebelum sumber data tersebut yang akan disimpan di data warehouse, maka semua nomor telepon tersebut harus memiliki format yang sama.

      Untuk itu, organisasi biasanya menggunakan jenis perangkat lunak data integration yang dikenal sebagai extract, transform, load atau disingkat dengan ETL.

      Perusahaan telah menggunakan banyak tool ETL untuk tujuan ini selama beberapa dekade, dan ini adalah salah satu jenis perangkat lunak data integration yang paling akrab.

      Hari ini, banyak perusahaan memiliki danau data (data lake) yang berada di dalam data warehouse mereka. Danau data yang menyimpan data terstruktur dan data semi-terstruktur yang berbeda dengan data terstruktur, dan mereka menyimpan semua data dalam keadaan mentah tanpa mengubahnya terlebih dahulu.

      Danau data atau kita sebut saja data lake ini sering dijalankan di Hadoop yang merupkan software open source dan perangkat keras dengan standard industri, bukan kepemilikan teknologi, yang membuatnya ekonomis untuk menyimpan lebih banyak data dari sumber-sumber yang lebih banyak.

      Untuk sebuah data lake, organisasi tidak perlu tool ETL, tetapi mereka perlu produk migrasi data yang dapat menarik data dari berbagai sumber yang berbeda.

      Di antara unsur-unsur dalam kasus banyak data integration adalah data pergudangan, data profil dan pemodelan data.

      Sinkronisasi data di beberapa sistem

      Banyak perusahaan menemukan bahwa mereka memiliki beberapa sistem independen yang menyimpan data yang sama. Kadang-kadang hal ini terjadi sebagai akibat dari aktivitas merger dan akuisisi. 

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Misalnya, jika salah satu pengecer barang-barang olahraga merger dengan pengecer barang-barang olahraga lain, maka akan ada dua kemungkinan yaitu memiliki banyak pemasok, mitra dan pelanggan yang sama dan yang kedua memiliki informasi tentang semua entitas tersebut di databses mereka masing-masing. 

      Namun, dua merek yang berbeda mungkin saja menjalankan database yang berbeda, dan informasi yang disimpan di database mereka mungkin tidak selalu sejalan. Sering terjadi banyak data yang sama berada di dalam database yang berbeda.

      Di waktu yang lain, data ganda adalah hanya hasil dari siluet sistem. Sebagai contoh, perangkat lunak Keuangan mungkin berbeda dari perangkat lunak Departemen penerimaan.

      Sementara kedua sistem mungkin menyimpan data yang sama yang berkaitan dengan rantai pasokan, sementara dua database mungkin saja sangat berbeda. 

      Dan jika Departemen penerimaan melakukan update alamat untuk vendor tertentu, mereka mungkin lupa untuk memberitahukan departemen keuangan, yang menyebabkan di departemen keuangan akan masih memiliki alamat lama yang disimpan dalam sistem mereka.

      Perusahaan dapat memilih untuk berurusan dengan situasi seperti ini dalam berbagai cara.

      Misalnya, mereka mungkin mencoba untuk menggabungkan database dari kedua perusahaan untuk digabung, atau mereka mungkin mencoba untuk memindahkan departemen keuangan dan Departemen penerimaan ke software Enterprise Resource Planning (ERP) untuk menghilangkan data silo.

      Namun, pada saat perusahaan besar mungkin dapat mengurangi jumlah database mereka dan aplikasi melalui konsolidasi, mereka biasanya masih menyisakan beberapa repositori data.

      Untuk menyimpan semua database mereka supaya tetap up to date, mereka membutuhkan solusi yang bisa mensinkronkan record dalam berbagai sistem independen.

      Hal ini biasanya memerlukan data integration tools dengan solusi data governance dan kemampuan master data management (MDM).

      Mungkin produk MDM standalone atau platform data integration yang lengkap dapat menghapus duplikat, membakukan format, menyalin data dari satu sistem ke sistem yang lain (data propagasi) dan memberikan keseragaman view pada master data dalam sistem organisasi (data Federasi).

      Menerima data dari pemasok, atau mitra

      Selama ini berbagai perusahaan telah menggunakan komputer, perangkat-perangkat komputer tersebut dibutuhkan untuk mengirim dan menerima data dari pemasok dan mitra mereka. 

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Sebagai contoh, produsen mungkin perlu memindahkan daftar pengiriman, faktur informasi atau data umum produk. Atau rumah sakit mungkin perlu menerima catatan pasien dari independen dokter kantor dan laboratorium.

      Di masa lalu, mitra mungkin hanya mengirimkan Fax untuk informasi yang relevan, dan perusahaan akan kembali melakukan input ke dalam sistem mereka. Tetapi metode ini memakan waktu dan rawan kesalahan.

      Salah satu solusi yang paling awal untuk masalah ini adalah jenis data integration tools yang dikenal sebagai elektronik data interchange (EDI).

      Pertama kali ditemukan pada tahun 1970, EDI masih digunakan sampai sekarang oleh banyak perusahaan, begitu banyak vendor menggabungkan EDI ke platform data integration mereka.

      Namun, teknologi modern menawarkan beberapa alternatif untuk jenis EDI tradisional. Misalnya, beberapa perusahaan melakukan transfer data melalui Layanan Web yang bergantung pada file XML, sementara banyak orang lain membuat nya lebih ekstensif yaitu dengan menggunakan api (application programming interface). 

      Dan beberapa perusahaan menggunakan beberapa metode yang berbeda untuk mentransfer data ke dan dari mitra perusahaan, di mana pada kasus data integration tools yang dapat mengelola berbagai jenis sambungan data menjadi demikian menarik.


      Membuat Dashboard Penjualan atau Dashboard Pemasaran 

      Dalam survei NewVantage 2018, 98,6 persen dari eksekutif yang disurvei mengatakan organisasi mereka sedang dalam proses menciptakan budaya data-driven.

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Sebagian besar dari usaha di sebagian besar perusahaan membuat penggunaan data analytics yang lebih besar dalam penjualan dan Departemen pemasaran.

      Pada saat ini, banyak organisasi berinteraksi dengan pelanggan dengan mengambil tempat secara online.

      Yang memberikan kelebihan pada perusahaan dalam hal kemampuan untuk mengukur upaya mereka dalam melakukan penjualan dan pemasaran, apakah mereka sedang menghitung tayangan iklan dan klik iklan, pelacakan berapa lama pelanggan menghabiskan di berbagai bagian dari situs web mereka atau benar-benar menjual produk mereka dan Layanan online lainnya.

      Banyak organisasi yang menggunakan data ini untuk membuat dashboard yang memberitahu mereka mengenai informasi pemasaran dan penjualan tim, bagaimana usaha yang sudah mereka lakukan.

      Sebagai contoh, sebuah dashboard pemasaran mungkin mampu untuk melacak dan mengarahkan hasil terkait dengan banyak faktor: 
      • Bounce Rates (tingkat pentalan)
      • Open Rates
      • Metrik konversi
      • Convertion Metrics
      • Lead Quality
      • Key Performance Indicator (KPI) yang penting bagi tim

      Bila memungkinkan, data ini disajikan dalam format visual, seperti diagram atau grafik, sehingga pengguna dapat melihat tren baris dan sekilas data visual itu membuatnya masuk akal.

      Untuk membuat dashboard ini, organisasi mungkin menggunakan platform data integration atau gabungan beberapa tool berbeda secara mandiri. Beberapa penjualan atau pemasaran perangkat lunak termasuk kemampuan untuk menciptakan sebuah dashboard. 

      Atau organisasi dapat membuat dashboard mereka sendiri, mengubah sesuai kebutuhan yang menarik data dari beberapa sumber internal dan eksternal yang berbeda.

      Aplikasi yang kemudian berjalan akan membutuhkan berbagai analytics yang diperlukan dan menciptakan visualisasi dan melakukan update data secara teratur.

      Kasus penggunaan data integration ini jauh lebih kompleks daripada ETL atau sinkronisasi records, sehingga memerlukan perangkat lunak yang lebih kuat dan powerfull.

      Memberikan Pandangan 360 Derajat kepada Pelanggan

      Untuk banyak perusahaan, "holy grail" data integration adalah untuk menciptakan pandangan utuh 360 derajat dari setiap individu nasabah / customer.

      5 Type Data Integration Teratas Berdasarkan Jenis Kasus

      Idenya adalah bahwa setiap kali seorang penjual atau karyawan lain yang berinteraksi dengan pelanggan, dia akan memiliki satu panel kaca yang merangkum semua interaksi nasabah dengan perusahaan.

      Kondisi seperti ini sering membutuhkan untuk menarik data pelanggan dari beberapa sistem perangkat lunak manajemen hubungan pelanggan (CRM), aplikasi ERP, dukungan teknis sistem pelacakan Tiket, pemasaran software, sistem e-commerce, dan aplikasi lainnya.

      Hal tersebut akan mampu memberikan kemampuan pada user untuk menelusuri sejarah pelanggan, melihat persis apa yang sudah ia beli di masa lalu dan rincian panggilan, email atau obrolan dengan dukungan pelanggan.

      Banyak dari dashboard 360 derajat pelanggan ini juga memanfaatkan pengayaan data. Karena hal inilah, mereka membawa data eksternal yang tidak disertakan dalam database Perseroan.

      Sebagai contoh, untuk keperluan tersebut bisa saja menarik informasi dari rekening-rekening nasabah, akun media sosial publik atau memasukkan informasi yang tersedia dari broker data.

      Banyak hari ini dashboard juga menggabungkan analisis prediktif, machine learning dan kecerdasan buatan (Artificial Intelligence / AI).

      Sistem-sistem tersebut mungkin mampu menawarkan saran untuk apa yang mungkin pelanggan beli berikutnya, atau menawarkan bahwa pelanggan mungkin akan menemukan sesuatu hal yang sangat menarik. 

      Dalam beberapa kasus, mereka bahkan dapat menggunakan sentimen analisis untuk mengukur keadaan emosi pelanggan dan membimbing anggota staf pada panggilan tersebut.

      Kasus penggunaan data integration ini adalah yang paling rumit dari semua yang ada, dan itu memerlukan perangkat lunak data integration dan data analytic yang sangat maju.

      Banyak perusahaan membuat investasi yang diperlukan, namun, dengan harapan untuk melihat drama perbaikan dalam penjualan dan layanan pelanggan.

      Demikian lah top 5 studi kasus untuk data integration. Apakah anda terarik untuk menggeluti dunia data integration ini?

      Dalam hal data integration ini kita tidak hanya akan membicarakan mengenai big data, namun lebih dari itu semua, karena pada akhirnya semua akan bermuara pada data management, bagaimana kemampuan kita dalam mengelola data yang ada.

      Nantikan untuk bahasan-bahasan menarik lainnya seputar data management dan big data di bigdatadba.com, tidak hanya sekedar bicara data.



      Refference :
      #dataintegration, #dataintegrationtools, #dataintegrationplatform

      Bahasa pemrograman untuk machine learning dan data scientist menjadi jenis bahasa pemrograman yang akan banyak di cari dan digunakan pada tahun ini. Maka tidak heran jika banyak yang mencari literatur mengenai macam macam bahasa pemrograman apa saja yang bisa digunakan untuk machine learning dan data scientist, serta bahasa pemrograman mana yang paling banyak diminati.

      Berikut ini merupakan daftar lanjutan mengenai bahasa pemrograman paling dicari untuk machine learning dan data scientist. 

      Bahasa pemrograman untuk machine learning dan data scientist

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist


      Jika pada artikel di bagian pertama ada 5 daftar bahasa pemrograman, maka pada bagian kedua ini akan kita ketahui sebanyak 7 bahasa pemrograman lainnya yang bisa digunakan untuk membantu anda untuk menyelesaikan permasalahan seputar machine learning dan data scientist.



      6. Bahasa Pemrograman SQL

      belajar bahasa pemrograman SQL untuk machine learning dan data scientist


      SQL (Structured Query Language) adalah bahasa komputer yang bertujuan untuk menyimpan, memanipulasi, dan meminta data yang disimpan dalam database relasional. Inkarnasi pertama SQL muncul pada tahun 1974, ketika sebuah kelompok di IBM mengembangkan prototipe pertama dari basis data relasional. Database relasional komersial pertama dirilis oleh Relational Software (kemudian menjadi Oracle).

      Ada standar untuk SQL. Namun, SQL yang dapat digunakan pada masing-masing RDBMS utama saat ini ada dalam berbagai rasa. Ini disebabkan oleh dua alasan: 1) standar perintah SQL cukup rumit, dan tidak praktis untuk menerapkan seluruh standar, dan 2) setiap vendor basis data membutuhkan cara untuk membedakan produknya dari yang lain. 


      7. Bahasa Pemrograman Mathlab

      belajar bahasa pemrograman mathlab untuk machine learning dan data scientist


      MATLAB adalah bahasa pemrograman dengan ke khasan nya sendirinya.

      Namun, berbagai bagian MATLAB dan lingkungan pengembangan yang terkait dengan nya ditulis dalam bahasa pemrograman C (kerangka inti), bahasa pemrograman C ++ (Kita ketahui bahwa bagian komputasi Paralel ditulis dalam C ++, mungkin bisa jadi bagian yang lainnya juga demikian) dan bahasa pemrograman Java (sebagian besar untuk antarmuka) ).

      Secara historis, MATLAB ditulis dalam bahasa FORTRAN, dan warisan ini masih memanifestasikan dirinya dalam beberapa cara hingga saat ini (pengindeksan dimulai dari 1 merupakan contoh utama nya).

      MATLAB juga dapat memanggil fungsi yang ditulis dalam sejumlah besar bahasa lain - selain yang telah disebutkan di atas, MATLAB dapat menjalankan kode yang ditulis dalam bahasa pemrograman C #, Python dan Perl - Saya pikir ada juga dukungan untuk berinteraksi dengan Mathematica juga.

      Namun, MATLAB adalah bahasa pemrograman dengan bahasanya sendiri, dan diperlakukan demikian.



      8. Bahasa Pemrograman SCALA

      belajar bahasa pemrograman SCALA untuk machine learning dan data scientist


      Scala memulai kehidupannya pada tahun 2003, diciptakan oleh Martin Odersky dan kelompok penelitiannya di EPFL, di sebelah Danau Jenewa dan Pegunungan Alpen, di Lausanne, Swiss. Scala telah berkembang menjadi bahasa pemrograman open source yang matang, digunakan oleh ratusan ribu pengembang, dan dikembangkan serta dikelola oleh sejumlah orang di seluruh dunia.

      Scala menggabungkan pemrograman berorientasi objek (OOP) dan fungsional dalam satu bahasa tingkat tinggi yang ringkas. Jenis statis dari bahasa pemrograman Scala membantu menghindari bug dalam aplikasi yang kompleks, dan runtime JVM dan JavaScript memungkinkan Anda membangun sistem berkinerja tinggi dengan akses mudah ke ekosistem library yang sangat besar.



      9. Bahasa Pemrograman C

      belajar bahasa pemrograman C untuk machine learning dan data scientist


      C adalah bahasa pemrograman yang memiliki tujuan umum yang kuat. Cepat, portabel, dan tersedia di semua platform.

      Jika Anda baru dalam dunia pemrograman, maka bahasa pemrograman C adalah pilihan yang baik untuk memulai perjalanan karir pemrograman Anda.

      Ini adalah panduan komprehensif tentang cara memulai dalam bahasa pemrograman C, mengapa Anda harus mempelajarinya dan bagaimana Anda bisa mempelajarinya.



      10. Bahasa Pemrograman F#

      belajar bahasa pemrograman F# untuk machine learning dan data scientist


      F # berjalan di Linux, Mac OS X, Android, iOS, Windows, GPU, dan browser. Bahasa pemrograman F# Ini gratis untuk digunakan dan open source di bawah lisensi yang disetujui OSI.

      F # digunakan dalam berbagai bidang aplikasi dan didukung oleh komunitas terbuka yang aktif dan perusahaan industri terkemuka yang menyediakan alat profesional.

      Misi F # Software Foundation adalah untuk mempromosikan dan memajukan bahasa pemrograman F #, termasuk komunitas programmer F # yang beragam dan dalam skala internasional.



      11. Bahasa Pemrograman C++

      belajar bahasa pemrograman C++ untuk machine learning dan data scientist


      C ++ merupakan bahasa pemrograman dengan peringkat ke-4 dalam popularitas menurut spektrum IEEE peringkat Top Bahasa Pemrograman 2016. Belajar bahasa pemrograman C ++ adalah investasi yang bijaksana untuk semua programmer.

      Panduan ini menjawab semua pertanyaan Anda yang terkait dengan C ++ tentang apa itu, kapan itu digunakan, mengapa itu digunakan dan bagaimana cara Anda memulainya.

      “C ++ adalah bahasa pemrograman tingkat menengah untuk keperluan umum yang diketik secara statis, bentuk bebas, dikompilasi, multi-paradigma, tingkat menengah.”

      Dalam istilah sederhana, C ++ adalah bahasa pemrograman yang canggih, efisien dan bertujuan umum yang berdasarkan pada bahasa pemrograman C. Bahasa pemrograman Ini dikembangkan oleh Bjarne Stroustrup pada tahun 1979.

      Banyak sistem operasi saat ini, driver sistem, browser, dan game menggunakan C ++ sebagai bahasa intinya. Ini menjadikan C ++ salah satu bahasa paling populer saat ini.

      Karena ini adalah versi bahasa pemrograman C yang disempurnakan / diperluas, C dan C ++ sering dilambangkan sebagai C / C ++.


      12. Bahasa Pemrograman Javascript

      belajar bahasa pemrograman javascript untuk machine learning dan data scientist


      JavaScript adalah salah satu bahasa pemrograman paling populer di dunia. Alasan untuk ini cukup sederhana karena perannya sebagai bahasa scripting dari world wide web. Saat ini, setiap komputer pribadi di dunia memiliki penerjemah JavaScript yang terpasang di sana.

      JavaScript sangat sering disalahtafsirkan dan dikacaukan sebagai Java, karena kesamaan namanya. Namun, JavaScript tidak diartikan Java. Java diartikan Java dan JavaScript adalah bahasa yang berbeda.

      Demikian macam macam bahasa pemrograman yang sering digunakan untuk menyelesaikan permasalahan seputar machine learning dan data scientist.

      Manakah bahasa pemrograman yang membangkitkan minat anda untuk mempelajarinya ? Yang manapun bahasa perograman yang anda sukai, kesemua bahasa pemrograman tersebut tidak lah menjadi “the best” jika anda tidak menguasai logika dan algorithma dalam pemrograman.



      Refference :
      #bahasapemrograman, #belajarbahasapemrograman, #contohbahasapemrograman, #machinelearning, #machinelearningadalah, #datascientist, #macammacambahasapemrograman, #jenisbahasapemrograman

      quora[dot]com

      Industri yang berkaitan dengan machine learning dan data scientist dibanjiri dengan bahasa pemrograman yang tak terhitung banyaknya yang bertujuan untuk memilah-milah kompleksitas bisnis dan membawa inovasi teknologi. 

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist 2018

      Setiap tahun ada bahasa pemrograman, framework dan teknologi yang muncul, tetapi hanya sedikit yang bertahan dalam ujian waktu. Tahun ini juga kita bisa melihat bahasa pemrograman seperti Q# yang merupakan besutan Microsoft membuat kemajuan, yang difokuskan pada pengembangan aplikasi berbasis komputasi kuantum.

      Dengan perkembangan yang semakin meningkat, penting bagi developer untuk terus mempelajari keterampilan bahasa pemrograman baru agar tetap relevan. Tetapi jika Anda seorang pemula yang ingin memilih bahasa pemrograman terbaik untuk ditambahkan dalam keahlian Anda, tugas itu akan semakin sulit. 
      Mengingat fakta bahwa bisa saja setiap proyek dapat menuntut serangkaian tools dan fungsi yang berbeda, itu membuat jalan untuk memilih bahasa pemrograman yang tepat untuk dipelajari menjadi berat.

      BigDataDBA membawa daftar 10+ bahasa pemrograman yang dapat Anda pilih di tahun 2018 (List bahasa pemrograman ini tanpa maksud pengurutan dari yang terendah/terjelek atau tertinggi/terbaik) untuk digunakan dalam pengembangan machine learnig dan data scientist, yang telah dikuratori berdasarkan popularitas di antara perekrut, jumlah lowongan pekerjaan, bayaran yang ditawarkannya, dan yang lainnya.
      Informasi ini disadur dan dirangkum dari kdnuggets dot com dalam tulisan machine learning data visualization  deep learning tools.



      1. Bahasa Pemrograman Python

      Bahasa pemrograman python merupakan salah satu bahasa pemrograman yang paling populer, baik dalam hal pembayaran (salary) yang ditawarkan dan popularitas di antara perekrut yang mencari tenaga kerja dengan keterampilan Python. 

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist

      Dengan peningkatan teknologi seperti machine learning, artificial intelligence (kecerdasan buatan) dan analitik prediktif (predictive analytic), kebutuhan akan tenaga kerja profesional dengan pengetahuan menyeluruh tentang keterampilan bahasa pemrograman Python sangat diminati. 

      Terlepas dari tujuan umumnya digunakan untuk pengembangan web, bahasa pemrograman python banyak digunakan dalam komputasi ilmiah, data mining, dan kebutuhan lainnya.


      2. Bahasa Pemrograman Java

      Java adalah bahasa pemrograman komputer yang memiliki tujuan umum yang konkuren, berbasis class, berorientasi objek, [15] dan secara khusus dirancang untuk memiliki dependensi implementasi sesedikit mungkin. (Wikipedia)

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist

      Ini dimaksudkan agar pengembang aplikasi "cukup menulis sekali, bisa dijalankan di mana saja"  yang berarti bahwa kode Java yang dikompilasi dapat berjalan di semua platform yang mendukung Java tanpa perlu kompilasi ulang. 

      Mobil self-driving, perangkat lunak pendeteksi wajah, dan speaker yang dikendalikan suara semuanya dibangun di atas teknologi dan machine learning framework- dan ini hanyalah gelombang pertama. 

      Selama dekade berikutnya, generasi produk baru akan mengubah dunia kita, memulai pendekatan baru untuk pengembangan perangkat lunak dan aplikasi serta produk yang kita buat dan gunakan.

      Sebagai pengembang Java, Anda tentunya ingin maju dari kurva ini, saat ini juga - ketika perusahaan teknologi mulai serius berinvestasi dalam machine learning. Apa yang Anda pelajari hari ini, Anda dapat membangun selama lima tahun ke depan, tetapi Anda harus memulai dari suatu tempat dengan tepat ..

      3. Bahasa Pemrograman R

      R adalah bahasa pemrograman dan environment untuk komputasi statistik dan grafik. Ini adalah proyek GNU yang mirip dengan bahasa S dan lingkungan yang dikembangkan di Bell Laboratories (sebelumnya AT&T, sekarang Lucent Technologies) oleh John Chambers dan rekannya. R dapat dianggap sebagai implementasi yang berbeda dari S. Ada beberapa perbedaan penting, tetapi banyak kode yang ditulis untuk S berjalan tanpa ada perubahan di bawah R.

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist

      R menyediakan berbagai macam statistik (pemodelan linier dan nonlinier, uji statistik klasik, analisis deret waktu, klasifikasi, pengelompokan, dan lain sebagainya) dan teknik grafis, dan tentu saja sangat bisa diperluas. 

      Bahasa S sering menjadi wahana pilihan untuk penelitian dalam metodologi statistik, dan R menyediakan rute Open Source untuk berpartisipasi dalam aktivitas itu.

      Salah satu kekuatan R adalah kemudahan menghasilkan plot kualitas publikasi yang dirancang dengan baik, termasuk simbol dan formula matematika apabila diperlukan. Perhatian besar telah diberikan untuk pilihan desain minor dalam hal grafik, tetapi pengguna tetap memegang kendali penuh.

      R tersedia sebagai Perangkat Lunak Open Source di bawah ketentuan Lisensi Publik Umum GNU Yayasan Perangkat Lunak Free dalam bentuk kode sumber. Ini mengkompilasi dan berjalan pada berbagai platform UNIX dan sistem serupa (termasuk FreeBSD dan Linux), Windows dan MacOS.


      4. Bahasa Pemrograman Julia

      Komputasi ilmiah secara tradisional membutuhkan kinerja tertinggi, namun para pakar domain sebagian besar telah pindah ke bahasa yang lebih lambat untuk pekerjaan sehari-hari mereka. 

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist

      Dengan munculnya bahasa pemrograman yang dipercaya ada banyak alasan bagus untuk memilih bahasa dinamis untuk aplikasi ini, tentu saja tidak berharap penggunaannya berkurang. 

      Untungnya, desain bahasa pemrograman modern dan teknik penyusunannya memungkinkan untuk sebagian besar menghilangkan pelambatan kinerja dan menyediakan environment tunggal yang cukup produktif untuk pembuatan prototipe dan cukup efisien untuk menyebarkan aplikasi yang memiliki kinerja secara intensif. 

      Bahasa pemrograman Julia mengisi peran ini: Bahasa pemrograman Julia adalah bahasa dinamis yang fleksibel, sesuai untuk komputasi ilmiah dan numerik, dengan kinerja yang sebanding dengan bahasa tradisional yang diketik secara statis.

      Karena kompiler Julia berbeda dari penerjemah yang digunakan untuk bahasa seperti Python atau R, Anda mungkin mendapati bahwa kinerja Julia pada awalnya tidak intuitif. 

      Jika Anda menemukan ada sesuatu yang lambat, sangat disarankan bagi anda untuk membaca bagian Tips Kinerja sebelum mencoba yang lain. Setelah Anda memahami cara kerja Julia, cukup mudah untuk menulis kode yang hampir secepat C.

      Julia memiliki fitur pengetikan opsional, pengiriman ganda, dan kinerja yang baik, dicapai dengan menggunakan inferensi tipe dan kompilasi just-in-time (JIT), diimplementasikan menggunakan LLVM. Ini adalah multi-paradigma, menggabungkan fitur pemrograman imperatif, fungsional, dan berorientasi objek. 

      Julia memberikan kemudahan dan ekspresi untuk komputasi numerik tingkat tinggi, dengan cara yang sama seperti bahasa R, MATLAB, dan Python, tetapi juga mendukung pemrograman umum. Untuk mencapai hal ini, Julia membangun garis keturunan dari bahasa pemrograman matematika, tetapi juga meminjam banyak dari bahasa dinamis yang populer, termasuk Lisp, Perl, Python, Lua, dan Ruby.

      Keberangkatan Julia yang paling signifikan dari bahasa dinamis yang khas adalah:

      Bahasa inti nya sangat sedikit; Julia Base dan library standar ditulis dalam Julia itu sendiri, termasuk operasi primitif seperti bilangan bulat aritmatika

      Bahasa yang kaya tipe untuk membangun dan mendeskripsikan objek, yang juga dapat secara opsional digunakan untuk membuat deklarasi tipe

      Kemampuan untuk mendefinisikan perilaku fungsi di banyak kombinasi tipe argumen melalui pengiriman ganda

      Pembuatan kode khusus otomatis dan efisien untuk berbagai jenis argumen

      Performa bagus, mendekati bahasa yang dikompilasi secara statis seperti C

      Meskipun seseorang kadang-kadang berbicara tentang bahasa dinamis sebagai "tanpa ketik", jelas tidak: dikarenakan setiap objek, apakah primitif atau yang ditentukan pengguna, dipastikan memiliki tipe. 

      Kurangnya deklarasi tipe dalam kebanyakan bahasa dinamis, bagaimanapun, berarti seseorang tidak dapat menginstruksikan kompiler tentang tipe nilai, dan seringkali tidak dapat secara eksplisit berbicara tentang tipe sama sekali. 

      Dalam bahasa statis, di sisi lain, ketika seseorang memberi anotasi tipe untuk kompiler, tipe hanya ada pada waktu kompilasi dan tidak dapat dimanipulasi atau diekspresikan pada saat run time. 

      Di Julia, type sendiri adalah objek run-time, dan juga dapat digunakan untuk menyampaikan informasi kepada kompiler.

      Sementara programmer biasa tidak perlu secara eksplisit menggunakan jenis atau pengiriman ganda, karena sudah memiliki fitur pemersatu inti Julia: fungsi didefinisikan pada kombinasi yang berbeda dari jenis argumen, dan diterapkan dengan mengirimkan ke definisi pencocokan paling spesifik. 

      Model ini sangat cocok untuk pemrograman matematika, di mana tidak wajar untuk argumen pertama untuk "memiliki" operasi seperti dalam pengiriman berorientasi objek tradisional. Operator hanyalah fungsi dengan notasi khusus untuk memperluas penambahan tipe data baru yang ditentukan pengguna, Anda mendefinisikan metode baru untuk fungsi +. Kode yang ada kemudian berlaku untuk tipe data baru.

      Sebagian karena inferensi tipe run-time (ditambah dengan anotasi tipe opsional), dan sebagian karena fokus yang kuat pada kinerja sejak dimulainya proyek, efisiensi komputasi bahasa pemrograman Julia melebihi bahasa dinamis lainnya, dan bahkan bahasa pemrograman saingan yang dikompilasi secara statis. 

      Untuk masalah numerik dalam skala besar, kecepatan selalu akan menjadi sangat penting: jumlah data yang sedang diproses dengan mudah mengikuti Hukum Moore selama beberapa dekade terakhir.

      Bahasa pemrograman Julia bertujuan untuk menciptakan kombinasi yang belum pernah terjadi sebelumnya dari kemudahan penggunaan, kekuatan, dan efisiensi dalam satu bahasa pemroragraman komputer. 

      Selain hal di atas, beberapa keunggulan Julia dibandingkan sistem yang sebanding meliputi:
      • Sumber gratis dan open (berlisensi MIT)
      • Jenis yang ditentukan pengguna sama cepat dan kompaknya dengan built-in
      • Tidak perlu membuat vektor kode untuk kinerja; kode yang dikhususkan secara cepat
      • Dirancang untuk paralelisme dan perhitungan terdistribusi
      • “Green” Threading  yang ringan (coroutine)
      • Sistem tipe yang tidak mengganggu namun kuat
      • Konversi dan promosi yang elegan dan dapat diperluas untuk jenis numerik dan lainnya
      • Dukungan efisien untuk Unicode, serta tidak terbatas pada UTF-8
      • Dapat memanggil fungsi C secara langsung (tidak diperlukan pembungkus atau API khusus)
      • Kemampuan mirip shell yang kuat untuk mengelola proses lainnya
      • Macro seperti tiger dan fasilitas pemrograman meta lainnya

      5. Bahasa Pemrograman SAS

      Pemrograman SAS didasarkan pada dua blok bangunan:

      Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist

      Step DATA: Step DATA membuat kumpulan data SAS dan kemudian meneruskan data ke langkah PROC
      Step PROC: Step PROC memproses data

      Program SAS harus mengikuti aturan yang disebutkan di bawah ini:
      • Hampir setiap kode akan dimulai dengan Step DATA atau PROC
      • Setiap baris kode SAS berakhir dengan titik koma
      • Kode SAS berakhir dengan kata kunci RUN atau QUIT
      • Kode SAS tidak peka huruf besar-kecil (case sensitive)
      • Anda dapat menulis kode melintasi baris yang berbeda atau Anda dapat menulis beberapa pernyataan dalam satu baris

      Sekarang kita telah melihat beberapa terminologi dasar, mari kita lihat contoh bahasa pemrograman SAS dengan kode dasar ini:

      DATA Employee_Info;
      entry Emp_ID Emp_Name $ Emp_Vertical $;
      datalines;
      101 Mak SQL
      102 Rama SAS
      103 Priya Java
      104 Karthik Excel
      105 Mandeep SAS
      ;
      run;

      Dalam kode di atas, kita membuat kumpulan data yang disebut sebagai Employee_Info. Employee_Info memiliki tiga variabel, satu variabel numerik sebagai Emp_Id dan dua variabel karakter sebagai Emp_Name dan Emp_Verticals. Perintah run menampilkan kumpulan data di Jendela Output.


      Itulah 5 bahasa pemrograman yang banyak digunakan untuk menyelesaikan permasalahan seputar machine learning dan data scientist.

      Harusnya dalam artikel ini ada 10+ bahasa pemrograman yang digunakan untuk case machine learning dan data scientist. 

      Dikarenakan nulisnya udah kepanjangan, maka saya sambung di bagian ke 2 untuk lanjutan artikel bahasa pemrograman yang banyak digunakan untuk machine learning dan data sientist ini. Nantikan dan terus stay tune di blog big data dba.


      Bagian ke-2 :

      10+ Bahasa Pemrograman Paling di Cari Untuk Machine Learning dan Data Scientist 2018 Bag 2


      Reff :


      Tantangan Pengolahan Big Data – Big Data DBA. Tantangan big data sangat banyak: Proyek big data telah menjadi bagian normal dalam berbisnis - namun bukan berarti big data itu mudah.

      Big Data-Apa saja Tantangan Untuk Mengolahnya


      Menurut NewVantage Partners Big Data Executive Survey 2017, 95 persen pemimpin bisnis Fortune 1000 yang disurvei mengatakan bahwa perusahaan mereka telah melakukan proyek big data dalam lima tahun terakhir. Namun, kurang dari setengah (48,4 persen) yang mengatakan bahwa inisiatif big data mereka telah mencapai hasil yang terukur.

      Laporan pada bulan Oktober 2016 dari Gartner menemukan bahwa organisasi terjebak pada tahap percontohan inisiatif big data mereka. "Hanya 15 persen dari bisnis yang melaporkan penggelaran proyek big data mereka ke produksi, yang secara efektif tidak berubah dari tahun lalu (14 persen)," kata firma tersebut.

      Jelas, organisasi menghadapi beberapa tantangan utama dalam mengimplementasikan strategi big data mereka. Kenyataannya, Riset Data & Analytics IDG Enterprise menemukan bahwa 90 persen dari mereka yang disurvei melaporkan mengalami tantangan yang berkaitan dengan proyek big data mereka.

      [success title="Tantangan Pengolahan Big Data" icon="check-circle"] Jadi apa tantangannya? Dan yang lebih penting, apa yang bisa dilakukan organisasi untuk mengatasi tantangan dalam mengolah big data? [/success]

      Data apakah yang besar yang dinamakan Big Data ?

      Sebelum kita menyelidiki tantangan data yang paling umum, pertama-tama kita harus mendefinisikan "big data". Tidak ada jumlah gigabyte atau terabyte atau petabyte yang memisahkan "big data" dari "data berukuran rata-rata". Data storage terus berkembang, jadi sepertinya data seperti sekarang mungkin tampak seperti jumlah normal dalam satu atau dua tahun. Selain itu, setiap organisasi berbeda, sehingga jumlah data yang tampaknya menantang untuk sebuah toko ritel kecil mungkin tidak terlalu mirip dengan perusahaan jasa keuangan besar.

      Sebagai gantinya, kebanyakan ahli mendefinisikan big data dari tiga sisi Vs. Anda memiliki data yang besar jika data store Anda memiliki karakteristik sebagai berikut:

      Volume: Big data adalah kumpulan data yang begitu besar sehingga organisasi yang memilikinya menghadapi tantangan terkait dengan penyimpanan atau pemrosesannya. Kenyataannya, tren seperti e-niaga, mobilitas, media sosial dan Internet Hal (IoT) menghasilkan begitu banyak informasi, sehingga hampir setiap organisasi mungkin memenuhi kriteria ini.

      Velocity: Jika organisasi Anda menghasilkan data baru dengan kecepatan tinggi dan perlu merespons secara real time, Anda memiliki kecepatan yang terkait dengan big data. Sebagian besar organisasi yang terlibat dalam e-niaga, media sosial atau IoT memenuhi kriteria ini untuk big data.

      Variety: Jika data Anda berada dalam berbagai format, ragamnya memiliki data yang besar. Misalnya, penyimpanan data yang besar biasanya mencakup pesan email, dokumen pengolah kata, gambar, video dan presentasi, serta data yang berada dalam sistem pengelolaan basis data relasional yang terstruktur (RDBMSes).


      Ketiga karakteristik ini menyebabkan banyak tantangan yang dihadapi organisasi dalam inisiatif big data mereka. Beberapa tantangan big data yang paling umum adalah sebagai berikut:

      1. Berurusan dengan pertumbuhan data

      Tantangan yang paling jelas terkait dengan big data hanyalah menyimpan dan menganalisis semua informasi itu. Dalam laporan Digital Universe-nya, IDC memperkirakan bahwa jumlah informasi yang tersimpan dalam sistem TI di dunia dua kali lipat setiap dua tahun sekali. Pada 2020, jumlah totalnya akan cukup untuk mengisi setumpuk tablet yang mencapai dari bumi hingga bulan 6,6 kali. Dan perusahaan memiliki tanggung jawab atau tanggung jawab sekitar 85 persen dari informasi tersebut.

      Sebagian besar data itu tidak terstruktur, artinya tidak berada dalam database. Dokumen, foto, audio, video dan data tidak terstruktur lainnya sulit dicari dan dianalisis.

      Tidak mengherankan jika laporan IDG menemukan, "Mengelola data tidak terstruktur tumbuh sebagai tantangan - meningkat dari 31 persen di tahun 2015 menjadi 45 persen pada tahun 2016."

      Untuk mengatasi pertumbuhan data, organisasi beralih ke sejumlah teknologi yang berbeda. Ketika infrastruktur penyimpanan, konvergensi dan hyperconverged dan perangkat lunak yang didefinisikan penyimpanan dapat memudahkan perusahaan untuk mengukur perangkat keras mereka. Dan teknologi seperti kompresi, deduplikasi dan tiering dapat mengurangi jumlah ruang dan biaya yang berkaitan dengan penyimpanan data yang besar.

      Di sisi manajemen dan analisis, perusahaan menggunakan alat seperti database NoSQL, Hadoop, Spark, perangkat lunak analisis big data, aplikasi intelijen bisnis, kecerdasan buatan dan pembelajaran mesin untuk membantu mereka menyisir data store besar mereka untuk menemukan wawasan yang dibutuhkan perusahaan mereka.


      2. Menghasilkan wawasan pada waktu yang tepat

      Tentu saja, organisasi tidak hanya ingin menyimpan big data mereka - mereka ingin menggunakan big data tersebut untuk mencapai tujuan bisnis. Menurut survei NewVantage Partners, tujuan yang paling umum dikaitkan dengan proyek big data adalah sebagai berikut:

      • Mengurangi biaya melalui efisiensi biaya operasional
      • Menetapkan budaya berbasis data
      • Menciptakan jalan baru untuk inovasi dan gangguan
      • Mempercepat kecepatan dengan kemampuan dan layanan baru dikerahkan
      • Meluncurkan penawaran produk dan layanan baru


      Semua tujuan tersebut dapat membantu organisasi menjadi lebih kompetitif - tetapi hanya jika mereka dapat mengekstrak wawasan dari big data mereka dan kemudian bertindak sesuai wawasan tersebut dengan cepat. Survei Data dan Analytics Global PwC 2016 menemukan, "Semua orang ingin pengambilan keputusan menjadi lebih cepat, terutama di bidang perbankan, asuransi, dan perawatan kesehatan."

      Untuk mencapai kecepatan itu, beberapa organisasi mencari generasi baru alat ETL dan analisis yang secara dramatis mengurangi waktu yang dibutuhkan untuk menghasilkan laporan. Mereka berinvestasi dalam perangkat lunak dengan kemampuan analisis real-time yang memungkinkan mereka merespons perkembangan di pasar secara langsung.


      3. Merekrut dan mempertahankan bakat data yang besar

      Tetapi untuk mengembangkan, mengelola dan menjalankan aplikasi yang menghasilkan wawasan, organisasi membutuhkan profesional dengan keterampilan data yang besar. Hal itu mendorong permintaan ahli big data - dan gaji data yang besar telah meningkat secara dramatis.

      Panduan Gaji Gaji Robert Tahun 2017 melaporkan bahwa insinyur big data menghasilkan rata-rata antara $ 135.000 dan $ 196.000, sementara gaji ilmuwan data berkisar antara $ 116.000 sampai $ 163, 500. Bahkan, analis business intelligence dibayar dengan sangat baik, menghasilkan $ 118.000 sampai $ 138.750 per tahun.

      Untuk mengatasi kekurangan bakat, organisasi memiliki beberapa pilihan. Pertama, banyak yang meningkatkan anggaran dan upaya rekrutmen dan retensi mereka. Kedua, mereka menawarkan lebih banyak kesempatan pelatihan kepada anggota staf mereka saat ini dalam upaya mengembangkan talenta yang mereka butuhkan dari dalam. Ketiga, banyak organisasi mencari teknologi. Mereka membeli solusi analisis dengan kemampuan belajar mandiri dan / atau mesin. Dirancang untuk digunakan oleh para profesional tanpa gelar sains data, alat ini dapat membantu organisasi mencapai sasaran big data mereka walaupun mereka tidak memiliki banyak pakar big data mengenai staf.

      4. Mengintegrasikan sumber data yang berbeda

      Varietas yang terkait dengan big data mengarah pada tantangan dalam integrasi data. Big data berasal dari banyak tempat yang berbeda - aplikasi perusahaan, aliran media sosial, sistem email, dokumen buatan karyawan, dll. Menggabungkan semua data dan rekonsiliasi sehingga dapat digunakan untuk membuat laporan dapat menjadi sangat sulit. Vendor menawarkan berbagai perangkat ETL dan integrasi data yang dirancang untuk mempermudah proses pembuatannya, namun banyak perusahaan mengatakan bahwa mereka belum menyelesaikan masalah integrasi data.

      Sebagai tanggapan, banyak perusahaan beralih ke solusi teknologi baru. Dalam laporan IDG, 89 persen dari mereka yang disurvei mengatakan bahwa perusahaan mereka berencana untuk berinvestasi pada alat data baru yang besar dalam 12 sampai 18 bulan mendatang. Ketika ditanya jenis alat yang akan mereka beli, maka mereka memberitahukan sebagai teknologi integrasi.

      Demikianlah tantangan dalam mengelola big data, terutama untuk big data Indonesia dengan data yang besar dan beragam. Selanjutnya kita bisa belajar big data dengan membaca dan mempelajari artikel-artikel :


      “Serial Tutorial Big Data, Belajar Big Data Bersama Dengan Mudah”



      Apabila artikel ini cukup bermanfaat bagi anda, silahkan anda share artikel ini kepada kolega dan rekan-rekan anda. Sampai jumpa dalam artikel-artikel dan tulisan-tulisan belajar tutorial big data Indonesia selanjutnya.


      Refference :
      big data, big data adalah, big data Indonesia, belajar big data, tutorial big data, manfaat big data, karakteristik big data

      Tutorial Oracle Database Administrator – Big Data DBA. Database atau biasa disingkat hanya dengan DB merupakan koleksi informasi terorganisir dan terstruktur yang dapat diakses, diperbarui, dan dianalisis dengan efisien. Kode VB sederhana, C, excel atau notepad tidak dapat mengelola sejumlah besar pengguna dan file. Juga untuk kemudahan ekstraksi, backup dan pemulihan data tidak mungkin dengan pendekatan ini. Untuk mengatasi keterbatasan ini Oracle telah datang dengan produknya yang fenomenal yaitu database Oracle atau Oracle RDBMS.


      Tutorial Oracle Database Administrator


      Lalu Apa itu Oracle DBA?


      Ini adalah sistem manajemen basis data relasional. Tujuan utama dari hal ini adalah untuk menyimpan, mengelola dan mengambil informasi secara efisien untuk memberikan kinerja yang tinggi. Hal ini juga disebut sebagai RDBMS atau hanya Oracle.

      Oracle terdiri dari berbagai mekanisme perangkat lunak untuk mencapai concurrency data yang maksimal, kinerja tinggi untuk produktivitas maksimal bagi banyak pengguna di lingkungan database.


      Beberapa fitur utama dari Oracle DBA adalah:

      1. Administrasi database bukanlah tugas satu orang, namun ditangani oleh sekelompok spesialis di bidangnya yaitu bidang database
      2. Database Oracle merupakan Database pertama yang sesuai untuk komputasi grid perusahaan
      3. Database Oracle Bekerja pada arsitektur berbasis grid.


      Di Oracle, ada tiga kategori dasar file fisik yang digunakan untuk menyimpan informasi. Adapun file-file tersebut adalah :

      File data    :   Berisi data yang dibutuhkan untuk memulai mesin database
      File kontrol    :  Gudang metadata database yang digunakan oleh mesin Oracle
      Redo log file    :  Digunakan untuk menyimpan perubahan yang dilakukan pada database
      Parameter file :  Sebagai pengingat konfigurasi di mesin tempat server database Oracle dijalankan


      Untuk Belajar Database Oracle DBA, diperlukan pemahaman tentang terminologi dasar yang digunakan di dalamnya.

      Terminologi Dasar Oracle Database 


      Instance - Ini didefinisikan sebagai latar belakang proses dan struktur memori yang digunakan untuk mengambil data dari database.

      Proses - Juga disebut sebagai tugas atau pekerjaan, contohnya adalah request yang sedang berjalan. Ada dua jenis proses dalam sistem database Oracle yaitu proses Oracle dan proses User. Tidak perlu menggunakan perintah sistem operasi untuk berinteraksi dengan database.

      Buffer Cache - Ini adalah komponen SGA yang berfungsi seperti penyangga untuk menyimpan data yang disesuaikan atau dipertanyakan. Buffer cache menyimpan data terbaru atau sering digunakan dalam memori sehingga bisa meningkatkan kinerja. Semua proses pengguna yang terhubung ke database berbagi akses diarahkan ke sana.

      Shared Pool – Bagian ini bertugas menangkap informasi untuk dibagikan dengan pengguna. Sebagai contoh: stored Procedure, pernyataan SQL dll dapat di-cache untuk usabilitas dan akses cepat.

      Redo Log Buffer - Bagian ini menyimpan log perubahan yang dibuat dalam database. File redo log berjalan dalam gerakan melingkar dan selalu ditimpa. Jadi, untuk menjaga pemulihan database agar lebih lama, mereka diarsipkan ke dalam archieve log. Oleh karena itu, redo log membantu mengembalikan instance ketika terjadi kegagalan sistem. Hal ini akan meningkatkan kinerja dan fungsi sistem database.

      Large Pool - Ini adalah area opsional yang menawarkan alokasi memori untuk proses besar, seperti operasi restore database dan backup Oracle.

      Lock - Untuk mengendalikan akses simultan ke sumber data, lock digunakan.
      Basis data terdiri dari struktur logis dan fisik. Karena struktur ini terpisah, pengelolaan penyimpanan data secara fisik tidak mempengaruhi akses terhadap struktur logis.

      Informasi diatas diperlukan untuk mendapatkan pemahaman dasar tentang database. Kita telah mencoba untuk mencakup semua parameter penting dan istilah yang digunakan di Oracle.


      Dari pembahasan di atas sekarang diketahui bahwa:

      Proses Oracle adalah proses server yang melakukan, berkomunikasi dan bekerja untuk proses pengguna. Proses server ini menangani permintaan dari proses pengguna yang terkoneksi. Mereka berkomunikasi dengan proses pengguna dan memanggil proses lain untuk melakukan permintaan. Katakanlah, jika pengguna ingin mengakses data yang belum ada di SGA, ia memanggil sebuah proses untuk membacanya dari disk.

      Proses latar belakang adalah proses yang melakukan kerja pemeliharaan untuk server Oracle.
      Sampai di sini, mungkin anda makin penasaran dengan prinsip kerja Oracle Database dan juga bagaimana cara melakukan pengaturan Database Oracle yang di lakukan oleh Oracle DBA.

      Untuk mengetahui dan memahami apa saja yang dilakukan oleh seorang Oracle Database Administrator (Oracle DBA), maka point-point pembelajaran berikut ini patut untuk kita simak dan kita fahami.

      Wah susah dong belajarnya, kalo sendirian.. Sama, saya juga demikian, karena itu sambil belajar saya coba juga untuk dituliskan di situs blog big data dba ini. Sehingga dengan menuliskan apa yang kita pelajari, akan semakin nempel di ingatan kita semua ilmu yang sudah kita dapatkan.

      Ok, langsung saja. Ini dia point-point penting bagi seorang Database Administrator Oracle untuk dipelajari.


      Isi point-point yang Harus diketahui Database Administrator Oracle


      1. Pengantar Database Oracle


      • Ikhtisar Arsitektur Grid dari Database Oracle
      • Perbedaan antara cluster dan grid
      • Tanggung Jawab Administrator Database

      2. Membuat Database Oracle


      • Persiapan Lingkungan instalasi Oracle Database 11g
      • Persiapan Lingkungan instalasi Oracle Database 12c
      • Melakukan Instalasi Oracle 11g
      • Melakukan Instalasi Oracle 12c
      • Membuat Database Oracle 11g / 10g menggunakan perintah SQL
      • Membuat Oracle Container Database di 12c menggunakan DBCA
      • Membuat Oracle Container Database di 12c menggunakan perintah SQL

      3. Mengelola Container Database Oracle 12c 


      • Membuat Account Pengguna dan Menghubungkan ke Oracle 12c Container and Pluggable Database

      4. Mengelola Database Pluggable di Oracle Database 12c


      • Membuat Database Pluggable dari Seed
      • Melakukan Cloning Database Pluggable yang Ada
      • Cabut dan pasang (unplug dan plug) database dari satu CDB ke CDB lainnya

      5. Mengelola Tablespaces Dan Datafiles


      • Membuat tablespace baru
      • Bigfile Tablespaces (Diperkenalkan di Oracle Ver 10g)
      • Memperluas Ukuran tablespace
      • Bagaimana untuk mengurangi ukuran tablespace?
      • Mengumpulkan Tablespaces
      • Menentukan tablespace Offline atau Online
      • Membuat Tablespace Read only.
      • Mengganti Nama Tabel
      • Menghapus Tablespaces
      • Melihat Informasi tentang Tabel dan Datafile
      • Merelokasi atau Mengganti Nama Data
      • Mengganti nama atau Merelokasi Datafiles milik Tablespace Tunggal
      • Prosedur untuk Mengganti Nama dan Merelokasi Datafiles di Beberapa Tabelspace

      6. Tablespace Sementara


      • Meningkatkan atau Mengurangi ukuran tablespace sementara
      • Mengelompokkan tablespace
      • Membuat Grup Tablespace Sementara
      • Menetapkan Grup Tablespace sebagai Default Tablespace Sementara

      7. Mendiagnosis Dan Memperbaiki Masalah Tablespace yang Terkelola secara Lokal (Local Managed)


      • Skenario 1: Memperbaiki Bitmap Saat Alokasi Blokir Ditandai sebagai Free (Tanpa Tumpang Tindih)
      • Skenario 2: Menghapus Segmen yang Terkorupsi
      • Skenario 3: Memperbaiki Bitmap Bila Tumpang Tindih (overlap) Dilaporkan
      • Skenario 4: Memperbaiki Korupsi Media Blok Bitmap
      • Skenario 5: Migrasi dari Dictionary-Managed ke Tablespace yang Dikelola secara Lokal

      8. Mengangkut Tablespaces


      • Prosedur untuk mengangkut tablespace
      • Contoh Tablespace Transporting (Pengangkutan Tablespace)

      9. Mengelola REDO LOG FILE


      • Menambahkan Redo Logfile Group Baru
      • Menambahkan Anggota ke grup yang ada
      • Menghapus Anggota Redo Log dari sebuah kelompok / Group
      • Menghapus Logfile Group
      • Mengubah ukuran Logfiles
      • Mengganti nama atau Relokasi Log file
      • Membersihkan REDO LOG File
      • Melihat Informasi Tentang Log file

      10. Mengelola File Kontrol


      • File Kontrol Multiplexing
      • Mengubah Nama Database
      • Membuat File Kontrol Baru

      11. Kloning Database Oracle


      12. Mengelola TABLESPACE UNDO


      • Beralih ke Manajemen Otomatis Undo Space
      • Menghitung Kebutuhan Ruang Untuk Penyimpanan Undo
      • Mengubah Tablespace UNDO
      • Menghapus sebuah Undo Tablespace
      • Menonaktifkan Undo Tablespaces
      • Melihat Informasi tentang Undo Tablespace

      13. SQL Loader


      • STUDI KASUS (Memuat Data dari MS-ACCESS ke Oracle)
      • STUDI KASUS (Memuat Data dari file Fixed Length ke Oracle)
      • STUDI KASUS (Memuat Data dari MySQL ke Oracle)
      • Memuat Data ke dalam Beberapa Table dengan menggunakan kondisi WHEN
      • Conventional Path Load and Direct Path Load
      • Jalur Langsung (Direct Path)
      • Pembatasan Penggunaan Beban Jalur Langsung (Direct Path Load)

      14. Ekspor Dan Impor


      • Melakukan Ekspor dan Impor
      • Parameter Baris Perintah pada tool Ekspor
      • Contoh Mengekspor Full Database
      • Contoh Mengekspor Schema
      • Mengekspor Tabel Individu
      • Mengekspor Gambar Konsisten yang ada di tabel

      15. Menggunakan Utilitas Impor


      • Contoh Mengimpor Tabel Individu
      • Contoh, Mengimpor Tabel satu akun Pengguna ke akun Pengguna lain
      • Contoh Mengimpor Tabel Menggunakan Pencocokan Pola (Pattern Matching)

      16. Migrasi Database di berbagai platform yang berbeda


      17. DATA PUMP Utility


      • Menggunakan Utilitas Ekspor Data Pump
      • Contoh Mengekspor Full Database 
      • Contoh Mengekspor Schema
      • Mengekspor Tabel Individu dengan menggunakan Data Pump Export
      • Mengeluarkan dan Memasukkan Object selama Ekspor
      • Menggunakan Query untuk Memfilter Baris selama Export
      • Menangguhkan dan Melanjutkan Pekerjaan Ekspor (Melampirkan dan Melampirkan Kembali ke Pekerjaan / Job)

      18. Data Pump Import Utility


      • Mengimpor File Dump Full
      • Mengimpor Object dari Satu Schema ke Schema lain
      • Memuat Object dari satu Tablespace ke Tablespace lainnya
      • Menghasilkan File SQL yang berisi perintah DDL menggunakan Data Pump Import
      • Mengimpor object hanya Schema Khusus / Schema Schema Tertentu
      • Mengimpor Hanya Tabel Khusus / Table Table Tertentu
      • Menjalankan Utilitas Impor dalam Mode Interaktif

      19. Fitur Flash Back


      • Permintaan Flashback
      • Menggunakan Query Versi Flashback
      • Menggunakan Flashback Table untuk mengembalikan Tabel ke Waktu Yang telah Lampau
      • Menghapus Objects dari Recycle Bin
      • Flashback Drop dari Beberapa Objek Dengan Nama Asli yang Sama
      • Database Flashback: Alternatif untuk Pemulihan Point-In-Time
      • Mengaktifkan Flash Back Database
      • Untuk berapa ukuran kita harus mengatur area pemulihan flash
      • Seberapa jauh anda bisa melakukan flashback database
      • Contoh: Flashing Back Database ke titik waktu Tertentu

      20. Archieve Data Kilas Balik (Oracle Total Recall)


      • Pengantar
      • Membuat tablespace Archieve Data Flashback
      • Membuat Archieve Data Flashback
      • Melakukan Query data historis

      21. Log Miner


      • Konfigurasi LogMiner
      • Pilihan Kamus LogMiner
      • Menggunakan Katalog Online
      • Mengekstrak Kamus LogMiner ke Redo Log Files
      • Mengekstrak Kamus LogMiner ke File Flat
      • Redo Log File Options
      • Contoh: Menemukan Semua Modifikasi di Berkas Log Redo yang Sedang Berjalan
      • Contoh: Menambang File Log Redo dalam Rentang Waktu yang Diberikan


      22. Backup dan Restore


      • Membuka Database dalam Mode Archivelog
      • Membawa Database lagi dalam mode NoArchiveLog
      • Mengambil Backup Offline (DINGIN)
      • Mengambil Backup Online (HOT)
      • Memulihkan dari Hilangnya Datafile
      • Saat Database berjalan di Noarchivelog Mode
      • Saat Database berjalan di Mode Archivelog
      • Memulihkan dari hilangnya File Kontrol

      23. Recovery Manager (RMAN)


      • Melakukan Backup Offline menggunakan RMAN
      • Memulihkan Database yang berjalan dalam mode NOARCHIVELOG menggunakan RMAN
      • Melakukan Online Backup menggunakan RMAN
      • Melakukan backup tablespace atau datafiles tertentu dengan menggunakan RMAN
      • Cara melakukan Image Backup di RMAN
      • Melakukan Incremental Backup menggunakan RMAN
      • Secara bertahap memperbarui salinan cadangan untuk pemulihan cepat
      • Lihat informasi tentang backup RMAN
      • Mengkonfigurasi kebijakan Retention di Oracle RMAN
      • Konfigurasikan berbagai Pilihan di RMAN
      • Mempertahankan RMAN Repository
      • Memulihkan dari hilangnya datafiles menggunakan RMAN (mode Archivelog)
      • Memulihkan dari hilangnya datafile dengan mengubah lokasinya
      • Melakukan Pemulihan Bencana menggunakan RMAN


      Demikianlah Kumpulan Tutorial Oracle Database Administrator. Semoga artikel ini bermanfaat untuk anda. Bila anda merasa artikel ini cukup bermanfaat bagi anda, silahkan anda bagikan artikel ini pada rekan-rekan dan pembaca-pembaca yang lain.

      MKRdezign

      Contact Form

      Name

      Email *

      Message *

      Powered by Blogger.
      Javascript DisablePlease Enable Javascript To See All Widget