Arsitektur Big Data: Sebuah Pengantar

tentang Pengenalan Pengertian Big Data, jadi diwajibkan bagi anda untuk membacanya terlebih dulu saat sebelum membaca artikel Arsitektur Big Data ini
Arsitektur Big DataBig Data DBA. Pada artikel tentang big data yang lalu kita sudah mengulas tentang Apakah Big Data itu. Artikel kali ini adalah kelanjutan dari artikel yang ada sebelumnya ini, bila belum membaca tentang artikel yang mengulas tentang Pengenalan Pengertian Big Data, jadi diwajibkan bagi anda untuk membacanya terlebih dulu saat sebelum membaca artikel Arsitektur Big Data ini. 














Untuk mengerti level pada sisi arsitektur yang tinggi dari Big Data, pada awal mulanya mesti mengerti arsitektur info logis untuk data yang terstruktur. Pada gambar dibawah ini akan ditunjukkan dua sumber data yang memakai tehnik integrasi (ETL/Change Data Capture) untuk mentransfer data ke DBMS data warehouse atau operational data store, lantas cobalah untuk menyediakan beberapa macam variasi dari kekuatan analisa untuk menghadirkan data. Sebagian kekuatan analisa itu termasuk juga, ; dashboards, laporan, EPM/BI Applications, ringkasan serta query statistic, interpretasi semantic untuk data tekstual, serta alat visualisasi untuk data yang padat. Info paling utama dalam prinsip arsitektur itu termasuk juga langkah memperlakukan data juga sebagai asset lewat nilai, cost, kemungkinan, waktu, kwalitas serta akurasi data. 

Mendeskripsikan kekuatan mengolah untuk big data architecture, dibutuhkan banyak hal yang perlu untuk dilengkapi ; volume, percepatan, variasi, serta nilai sebagai tuntutan. Ada kiat technologi yang tidak sama untuk real-time serta kepentingan batch processing. Untuk real-time, menaruh data nilai kunci, seperti NoSQL, sangat mungkin untuk membuatnya memiliki performa tinggi, serta pengambilan data berdasar pada indeks. Untuk batch processing, dipakai tehnik yang di kenal juga sebagai Map Reduce, memfilter data berdasar pada data yang khusus pada kiat penemuan. Sesudah data yang difilter diketemukan, kemudian data akan dianalisis dengan cara langsung, dimasukkan ke unstructured database yang lain, diantar ke piranti mobile atau dipadukan ke lingkungan data warehouse tradisional serta berkolerasi pada data terstruktur. 

Juga sebagai penambahan untuk unstructured data yang baru, ada dua kunci ketidaksamaan untuk big data. Pertama, lantaran ukuran dari data set, raw data tidak bisa dengan cara langsung dipindahkan ke satu data warehouse. Tetapi, sesudah sistem Map Reduce ada kemungkinan bakal berlangsung reduksi hasil dalam lingkungan data warehouse hingga bisa memakai pelaporan business intelligence, statistik, semantik, serta kekuatan korelasi yang umum. Bakal jadi sangatlah ideal untuk mempunyai kekuatan analitik yang menggabungkan piranti Business Intelligence (BI) berbarengan dengan visualisasi big data serta kekuatan query. Ke-2, untuk memfasilitasi analisa dalam laingkungan Hadoop, lingkungan sandbox bisa di buat. 

Untuk sebagian masalah, big data butuh memperoleh data yang selalu beralih serta tidak bisa diprediksikan, untuk menganilisis data itu, diperlukan arsitektur yang baru. Dalam perusahaan retail, contoh yang bagus yaitu dengan menangkap jalur jalan raya dengan cara real-time dengan maksud untuk menempatkan iklan atau promosi toko ditempat strategis yang dilalui beberapa orang, mengecheck penempatan barang serta promosi, mencermati dengan cara langsung gerakan serta perilaku pelanggan. 

Dalam masalah lain, satu analisa tidak bisa dikerjakan hingga dikaitkan dengan data perusahaan serta data terstruktur yang lain. Juga sebagai misalnya, analisa perasaan pelanggan, memperoleh tanggapan positif atau negatif dari social media bakal mempunyai satu nilai, namun dengan mengasosiasikannya dengan semua jenis pelanggan (paling menguntungkan atau bahkan juga yang sekurang-kurangnya menguntungkan) bakal memberi value yang lebih bernilai. Jadi, untuk penuhi keperluan yang dibutuhkan oleh big data Business Intelligence (BI) yaitu konteks serta pemahaman. Memakai kemampuan peralatan statistikal serta semantik bakal sangatlah sangat mungkin agar bisa memprediksikan kemungkinan – kemungkinan di hari esok. 

Satu diantara tantangan yang di teliti dalam penggunaan Hadoop dalam perusahaan yaitu kurangnya integrasi dengan ekosistem Business Intelligence (BI) yang ada. Sekarang ini BI tradisional serta ekosistem big data terpisah serta mengakibatkan analis data terintegrasi mengalami kebingungan. Juga pada akhirnya, hal semacam ini tidaklah siap untuk dipakai oleh pemakai usaha serta eksekutif umum. 

Pemakai big data yang pertama kalinya coba memakai, kerapkali menulis kode special/khusus untuk memindahkan hasil big data yang sudah diolah kembali ke database untuk di buat laporan serta dianalisa. Pilihan – pilihan itu mungkin saja tak layak serta ekonomis untuk perusahaan IT. Pertama, lantaran mengakibatkan penyebaran satu diantara data serta standard yang tidak sama, hingga arsitekturnya mempengaruhi ekonomi IT. Big data dikerjakan dengan cara berdiri sendiri untuk menggerakkan kemungkinan investasi yang redundan, juga sebagai tambahannya, banyak usaha yang sekalipun tak mempunyai staff serta keterampilan yang diperlukan untuk pengembangan pekerjaan yang spesial. 

Pilihan yang paling pas yaitu memadukan hasil big data ke data warehouse. Kemampuan info ada pada kekuatan untuk asosiasi serta korelasi. Jadi yang diperlukan yaitu kekuatan untuk membawa sumber data yang berlainan, mengolah keperluan berbarengan – sama dengan cara pas waktunya serta analisa yang bernilai. 

Waktu berbagai – jenis data sudah diperoleh, data itu bisa disimpan serta diolah ke DBMS tradisional, file-file sederhana, atau system cluster terdistribusi seperti NoSQL serta Hadoop Distributed File Sistem (HDFS). 

Dengan cara arsitektur, komponen kritikal yang memecah sisi itu yaitu layer integrasi yang ada di dalam. Layer integrasi itu butuh untuk diperluas ke semua type data serta domain, serta jadi jembatan pada data penerimaan yang baru serta tradisional, serta pemrosesan framewok. Kemampuan integrasi data butuh untuk menutupi keseluruhannya spektrum dari kecepatan serta frekwensi. Hal itu dibutuhkan untuk mengatasi keperluan ekstrim serta volume yang selalu jadi bertambah banyak. Oleh karenanya dibutuhkan technologi yang sangat mungkin untuk mengintegrasikan Hadoop/Map Reduce dengan data warehouse serta data transaksi. 

Layer selanjutnya dipakai untuk Load hasil reduksi dari big data ke data warehouse untuk analisa selanjutnya. Dibutuhkan juga kekuatan untuk terhubung dengan data terstruktur seperti info profil pelanggan saat mengolah atau memproses data dalam big data untuk memperoleh pola seperti mendeteksi kesibukan yang mencurigakan.

Hasil pemrosesan data bakal dimasukkan ke ODS tradisional, data warehouse, serta data marts untuk analisa selanjutnya seperti data transaksi. Komponen penambahan dalam layer itu yaitu Complex Moment Processing untuk menganalisa arus data dengan cara real-time. Layer business intelligence bakal dilengkapi dengan analisa kelanjutan, dalam analisa database statistik, serta visualisasi kelanjutan, diaplikasikan dalam komponen tradisional seperti laporan, dashboards, serta query. Pemerintahan, keamanan, serta pengelolaan operasional juga meliputi semua spektrum data serta lanskap info pada tingkat enterprise. 

Dengan arsitektur itu, pemakai usaha tak lihat satu pemisah, bahkan juga tak sadar bakal ketidaksamaan pada data transaksi tradisional serta big data. Data serta arus analisa bakal merasa mulus tanpa ada rintangan saat dihadapkan pada berbagai – jenis data serta set info, hipotesis, pola analisa, serta membuat keputusan. 

Big Data untuk kepentingan development terkait dengan, namun tidak sama dengan 'tradisional Data development' (umpamanya data survey, statistik resmi), serta bidang swasta serta media mainstream menyebutnya 'Big Data’. 
     

Big Data untuk sumber Pengembangan biasanya mempunyai sebagian/seluruhnya feature itu : 

  • Digitally generated, data yang dihasilkan dengan cara digital (juga sebagai lawan yang didigitalkan manual), serta bisa disimpan dengan memakai rangkaian satu serta 0, serta dengan hal tersebut bisa dimanipulasi oleh komputer 
  • Passively produced, Data itu adalah data yang dihasilkan atau product dari kehidupan kita sehari-hari atau hubungan dengan layanan digital. 
  • Automatically collected, Data-data yang terbentuk dari data-data operasional serta transaksi yang dihimpun serta sudah diolah (ETL) serta di taruh kedalam data mart 
  • Geographically or temporally trackable, Data –data yang memberikan tempat atau posisi, umpamanya data tempat hp atau durasi saat panggilan 
  • Continuously analysed, info yang relevan dengan kesejahteraan manusia serta pembangunan serta bisa dianalisis dengan cara real-time 

  • IT logs Analytics, Penyimpanan Log dalam periode yang panjang, dipakai untuk analisis system system yang tengah jalan untuk menghindar serta menanggulangi kegagalan dalam system, menggunakan hasil analisis log untuk temukan serta menentukan dengan cara pasti kegagalan apa yang berlangsung di dalam system, mempersiapkan beberapa langkah pasti yang bisa dipakai juga sebagai jalan keluar permasalahan system. 
  • Fraud Detection Pattern, Banyak dipakai dalam Bagian keuangan atau dimanapun transaksi finasial ikut serta, Mengoptimalkan penggunaan data-data yang ada untuk memberi kekuatan untuk mendeteksi fraud saat transaksi tengah berlangsung 
  • The Social Media Pattern, Penggunaan Big data untuk analisis media social serta sentiment pelanggan, memberi kekuatan untuk perusahan untuk tahu hasrat customer dengan cara yang luas, memperoleh feedback dengan cara langsung, serta mengetahui segera efek sentimen pada penjualan, dan efektivitas serta penerimaan pelangan pada pemasaran yang dikerjakan. 
  • Risk : Patterns for Jenising and Management, Memberi kemampuan penggunaan data dengan cara penuh serta analisa dalam pemodelan kemungkinan serta menejemen kemungkinan untuk memberi pengetahuan bakal kemungkinan serta penanggulangannya dengan cara yang cocok serta langsung 
  • Masih tetap Banyak Lagi 

Seperti data pergudangan, toko situs atau basis TI, infrastruktur untuk data yang besar mempunyai keperluan yang unik. Dalam memperhitungkan seluruhnya komponen basis data yang besar, penting untuk diingat bahwa maksud akhir yaitu untuk dengan gampang mengintegrasikan data yang besar dengan data perusahaan Anda untuk sangat mungkin Anda untuk lakukan analisa mendalam pada set data yang terpadu. 


Step akuisisi yaitu satu diantara pergantian besar dalam infrastruktur pada hari-hari sesaat sebelum big data. Lantaran big data merujuk pada aliran data dengan kecepatan yang lebih tinggi serta macam yang beragam, infrastruktur yang dibutuhkan untuk mensupport akuisisi data yang besar mesti di sampaikan dengan cara perlahan-lahan, bisa diperkirakan baik didalam menangkap data serta dalam memprosesnya dengan cara cepat serta simpel, bisa mengatasi volume transaksi yang sangatlah tinggi, kerap dalam lingkungan terdistribusi, serta support yang fleksibel, susunan data dinamis. 

Database NoSQL kerap dipakai untuk mengambil serta menaruh big data. Mereka pas untuk susunan data dinamis serta sangatlah terarah. Data yang disimpan dalam database NoSQL umumnya dari beragam variasi/macam lantaran system ditujukan untuk cuma menangkap seluruhnya data tanpa ada mengelompokkan serta parsing data. 

Juga sebagai contoh, database NoSQL kerap dipakai untuk menghimpun serta menaruh data media sosial. Saat aplikasi yang dipakai pelanggan kerap beralih, susunan penyimpanan di buat menjadi simpel. Alih-alih membuat skema dengan jalinan antar entitas, susunan simpel kerap cuma diisi kunci paling utama untuk mengidentifikasi titik data, serta lalu wadah content memegang data yang relevan. Susunan simpel serta dinamis itu sangat memungkinkan pergantian berjalan tanpa ada reorganisasi pada susunan penyimpanan. 

Dalam arti Data pergudangan classic, pengorganisasian data dimaksud integrasi data. Lantaran ada volume/jumlah data yang sangatlah besar, ada kecenderungan untuk mengatur data pada tempat penyimpanan aslinya, hingga menghemat waktu serta duit dengan tak memindah-midahkan data dengen volume yang besar. Infrastruktur yang dibutuhkan untuk mengatur data yang besar mesti dapat memproses serta merekayasa data di tempat penyimpanan asli. Umumnya diolah di dalam batch untuk mengolah data yang besar, bermacam format, dari tak terstruktur jadi terstruktur. 

Apache Hadoop yaitu suatu tehnologi baru yang sangat mungkin mengolah volume data yang besar untuk ditata serta diolah sembari melindungi data pada cluster penyimpanan data asli. Hadoop Distributed File Sistem (HDFS) yaitu system penyimpanan periode panjang untuk log situs umpamanya. Log situs itu beralih jadi tingkah laku searching dengan menggerakkan program MapReduce di cluster serta membuahkan hasil yang dihimpun didalam cluster yang sama. Hasil itu dihimpun lalu dimuat ke system DBMS relasional. 

Lantaran data tidak selamanya bergerak sepanjang fase organisasi, analisa ini dapat juga dikerjakan dalam lingkungan terdistribusi, dimana sebagian data bakal tinggal dimana data ini awalannya disimpan serta dibuka dengan cara transparan dari suatu data warehouse. Infrastruktur yang dibutuhkan untuk mengkaji data yang besar mesti dapat mensupport analisa yang lebih dalam seperti analisa statistik serta data mining, pada data dengan type yang bermacam serta disimpan dalam system yang terpisah, memberi waktu tanggapan lebih cepat didorong oleh pergantian tingkah laku ; serta mengotomatisasi ketentuan berdasar pada jenis analityc. Yang paling utama, infrastruktur mesti dapat mengintegrasikan analisa pada gabungan data yang besar serta data perusahaan tradisional. Wawasan baru datang tidak cuma dari analisa data baru, namun dari menganalisisnya dalam konteks yang lama untuk memberi perspektif baru tentang permasalahan lama.

Dalam usaha pemakaian Big Data bisa ada banyak kendala serta tantangan, banyak hal salah satunya terkait dengan data di mana melibatkan acquisition, berbagi serta privacy data, dan dalam analisa serta pemrosesan data 

  • Privacy, Privacy adalah gosip yang paling peka, dengan rencana aktual, hukum, serta tehnologi, Privacy bisa dipahami dalam makna luas juga sebagai usaha perusahaan membuat perlindungan daya saing serta customer mereka. Data-data yang dipakai/disimpan juga sebagai big data 
  • Access serta berbagi, Akses pada data, baik data lama ataupun data baru bisa jadi kendala dalam memperoleh data untuk big data, terutama pada data lama di mana data- data tersimpan mempunyai bentuk – bentuk yang berlainan serta bermacam maupun berbentuk fisik, akses pada data baru juga memerlukan usaha yang lebih kerana diperlukannya izin serta lisensi untuk terhubung ke data-data non-public dengan cara legal. 
  • Analisa, Bekerja dengan sumber data baru membawa beberapa tantangan analityc, relevansi serta tingkat keparahan tantangan bakal beragam bergantung pada type analisa tengah dikerjakan, serta pada type ketentuan yang pada akhirnya bakal dapat diberitakan oleh data. 
  • Interpreting Data, Kekeliruan –kesalahan seperti Sampling selection bias adalah hal yang kerap diketemukan di mana data yang ada tidak bisa dipakai untuk mepresentasikan seluruhnya populasi yang ada, serta apophenia, lihat ada pola meskipun tak betul-betul ada karena jumlah data yang besar, serta kekeliruan dalam menginterpreasikan jalinan dalam data. 
  • Defining and detecting anomalies, tantangan sensitivitas pada spesifisitas pemantauan sistem. Sensitivitas merujuk pada kekuatan system pemantauan untuk mendeteksi seluruhnya masalah telah ditata untuk mendeteksi sesaat spesifisitas merujuk pada kemampuannya untuk mendeteksi cuma beberapa masalah yang relevan. kegagalan untukmencapai hasil yang paling akhir " Type I kekeliruan ketentuan ", dikenal juga juga sebagai " positif palsu " ; kegagalanuntuk meraih bekas " Tipe II error ", atau " negatif palsu. " Ke-2 kekeliruan yg tidak di idamkan saat berusaha untuk mendeteksi malfungsi atau anomali, bagaimanapun didefinisikan, untuk beragam argumen. Positif palsu mengakibatkan kerusakan kredibilitas system sesaat negatif palsu dilemparkan sangsi pada relevansinya. Namun apakah negatif palsu lebih atau kurang punya masalah dari pada positif palsu bergantung pada apa yang tengah diawasi, serta kenapa ini tengah diawasi. 

Demikianlah Sedikit Penjelasan tentang Arsitektur Big Data yang dilengkapi dengan hal-hal lain yang terkait dengan big data seperti pengembangan big data, permasalahan big data, serta lain sebagainya. Anda tertarik dengan big data? Mari kita berbagi dan sama-sama belajar big data di blog big data dba ini.