2016 | Big Data DBA

Belajar Big Data Solusi Data Management Dengan Big Data

2016

Big Data Yang Mampu Merubah DuniaBig Data DBA. Beberapa waktu yang lalu kita sudah coba cari tahu apa itu bigdata. Kali ini kita akan coba lagi untuk belajar big data dengan mengetahui macam-macam pengertian big data (big data definition) dan kita coba untuk belajar big data lebih lanjut.




Big Data Definition


Berikut ini beberapa definisi big data yang big data dba coba kumpulkan dari beberapa sumber :


1 OED (Oxford English Dictionary) : 

OED mendefinisikan big data sebagai data yang memiliki ukuran yang sangat besar, biasanya sejauh itu manipulasi dan manajemen menghadirkan tantangan logistik yang signifikan.



2 Wikipedia :

Menurut wikipedia big data merupakan istilah yang mencakup segala sesuatu untuk setiap pengumpulan data set yang begitu besar dan kompleks sehingga menjadi sulit untuk memproses menggunakan tool data management ataupun menggunakan aplikasi pengolahan data tradisional.



3 McKinsey :

Pengertian big data menurut McKinsey adalah "Dataset yang ukurannya di luar kemampuan perangkat lunak database yang khas untuk menangkap, menyimpan, mengelola, dan menganalisis," para peneliti McKinsey mengakui bahwa "definisi ini sengaja subjektif dan menggabungkan definisi bergerak dari seberapa besar dataset diperlukan dalam rangka mempertimbangkan big data. "



4 Viktor Mayer-Schönberger and Kenneth Cukier’s book :

Pengertian big data yang satu ini disimpulkan sebagai "Kemampuan masyarakat untuk memanfaatkan informasi dengan cara baru untuk menghasilkan wawasan yang berguna atau barang dan jasa dari nilai yang signifikan" dan "... hal yang bisa dilakukan pada skala besar yang tidak dapat dilakukan pada yang lebih kecil, untuk mengekstrak wawasan baru atau membuat yang baru menjadi bernilai. "



5 Tom Davenport (Bigdata @Work):

Rom Davenport mendefinisikan big data sebagai "berbagai jenis data baru dan besar yang telah muncul selama dekade terakhir atau lebih."



6 Tool-tool baru yang membantu kita menemukan data yang relevan dan menganalisis implikasinya.



7 Konvergensi perusahaan dan konsumen IT.



8 Pergeseran (untuk perusahaan) dari pengolahan data internal untuk data mining eksternal.



9 Pergeseran (untuk individu) dari mengkonsumsi data ke menciptakan data.



10 Penggabungan Madame Olympe Maxime dan Komandan Letnan Data.



11 Keyakinan bahwa semakin banyak data Anda, maka akan memiliki lebih banyak wawasan dan jawaban akan naik secara otomatis dari rangkaian satu dan nol.



12 Sikap baru yang tercipta dari bisnis, baik non-profit, instansi pemerintah, dan individu yang menggabungkan data dari berbagai sumber serta dapat menyebabkan keputusan yang lebih baik.



Dari pengertian pengertian big data di atas maka dapat di tarik suatu kesimpulan bahwa big data adalah data dengan ciri berukuran sangat besar, sangat variatif, sangat cepat pertumbuhannya dan mungkin tidak terstruktur yang perlu diolah khusus dengan teknologi inovatif sehingga mendapatkan informasi yang mendalam dan dapat membantu pengambilan keputusan yang lebih baik. (Apa Itu Big Data )




Big Data Yang Merubah Dunia


Anda mungkin tidak begitu peduli tentang ide hidup di kota pintar tapi saya yakin Anda akan senang untuk tinggal di salah satu kota yang bahagia itu.

Data sudah dapat digunakan untuk mengukur tingkat kebahagiaan dari kota yang kita tempati. Setiap hari bahkan setiap jam bisa jadi saya, anda dan kita semua yang tinggal di kota melakukan update status di twitter dan atau juga berbagi status dan kondisi di facebook.

Dan pada akhirnya dengan semakin banyaknya data yang ditangkap dan dianalisis dari social media dapat digunakan untuk mengukur kesehatan dan kebahagiaan suatu bangsa.

Sebagai contoh, kita bisa melihat proyek Hedonometer yang merupakan proyek yang ditetapkan untuk memetakan tingkat kebahagiaan di kota-kota di seluruh AS menggunakan data dari Twitter.

Menggunakan 37 juta tweet geolocated dari lebih dari 180.000 orang di AS, tim dari Advanced Computing Centre di University of Vermont telah melakukan penilaian terhadap kata-kata baik senang atau sedih. Terbayang kan, seberapa besar datanya. Untuk melakukan big data processing ini diperlukan big data tool yang sesuai.

Big data processing ini termasuk juga dapat menemukan kondisi agak depresi, bahwa orang-orang yang paling bahagia ketika mereka jauh dari rumah, penelitian mendapatkan beberapa fakta menarik tentang bagaimana tingkat kesehatan mereka.

Dari penelitian ini ditemukan kata-kata seperti "kelaparan" dan "mulas" ditulis jauh lebih sering di kota-kota dengan persentase yang tinggi daripada warga yang obesitas.

Data tersebut bisa sangat berguna bagi pemerintah kota, untuk menginformasikan mereka tentang apa kebijakan yang diperlukan di setiap daerah tertentu.

"Kota-kota mencari data untuk memahami perubahan perilaku warga negara mereka, misalnya untuk mencari iklan untuk program kesehatan masyarakat, dapat melihat ke media sosial untuk informasi secara real-time," kata Chris Danforth, salah satu pemimpin proyek.


Dan pada faktanya :


1 Setiap mesin jet dalam penerbangan dari London ke New York menghasilkan 10TB data setiap 30 menit.

2 Pada tahun 2013 kita melihat Data internet, sebagian besar kontribusi pengguna, telah mencapai 1.000 exabyte. Satuan exabyte adalah satuan informasi yang sama dengan satu triliun byte

3 Data cuaca terbuka yang dikumpulkan oleh Asosiasi Kelautan dan Atmosfer Nasional memiliki nilai estimasi tahunan $ 10 miliar

4 Setiap hari kita membuat 2,5 triliun byte data

5 90% dari data di dunia saat ini telah dibuat dalam dua tahun terakhir

6 Setiap menit, 100.000 tweet yang dikirim secara global

7 Google menerima dua juta permintaan pencarian setiap menitnya


Jadi, anda bisa bayangkan dengan besaran data data tersebut, bagaimana kita bisa menggali informasi yang kita inginkan dari big data. Yang menjadi tantangan berikutnya adalah bagaimana kita bisa melakukan big data processing ini ? Dengan demikian ke depan sangat penting untuk belajar big data. Dengan masuknya kita ke dalam era big data maka mau tidak mau kita pun harus belajar apa itu big data dengan pertama tama harus mengerti big data architecture.



Refference :

big data, belajar big data, pengertian big data, big data analytics pdf, big data hadoop, big data processing, big data tools, big data ppt, big data architecture, penjelasan tentang big data, manfaat big data, apa yang dimaksud big data, sejarah big data, konsep big data, istilah big data, artikel tentang big data

18 Tool untuk Hadoop – RelatedBigdata DBA. Big data sangat membantu kita untuk menyelesaikan process data yang cukup besar. Ketika kita akan bekerja dengan tool-tool untuk Big Data, solusi open source yang secara umum dan Apache Hadoop khususnya akan kita lihat mendominasi hampir semua pembahasan big data di internet. Forrester Analis Mike Gualtieri meramalkan bahwa "100 persen perusahaan besar" akan mengadopsi Hadoop selama beberapa tahun. Sebuah laporan dari Riset Pasar memperkirakan bahwa pasar Hadoop akan tumbuh pada tingkat pertumbuhan tahunan gabungan (CAGR) lebih dari 58 persen pada 2022 dan bahwa hal itu akan bernilai lebih dari $ 1 miliar pada tahun 2020. Dan IBM percaya begitu kuat tool Big Data adalah di open source, maka perusahaan tersebut menugaskan 3.500 peneliti untuk bekerja pada Apache Spark, tool yang merupakan bagian dari ekosistem Hadoop.

Open Source Tools Untuk Big Data


Kali ini, kita telah memperbarui daftar open source tool Big Data di atas dengan peluncuran banyak proyek baru. Banyak proyek yang paling penting dikelola oleh Apache Foundation dan berhubungan erat dengan Hadoop.

Harap dicatat bahwa ini bukan peringkat; sebaliknya, proyek yang diselenggarakan berdasarkan kategori. Dan seperti biasa, jika Anda tahu tambahan dari open source big data dan / atau tool Hadoop yang harus di tambahkan pada daftar artikel ini, jangan ragu untuk dicatat dalam bagian Komentar di bawah ini.

Kumpulan Tool Big Data yang Terkait dengan Hadoop


1 Hadoop

2 Ambari

3 Avro

4 Cascading

5 Chukwa

6 Flume

7 HBase

8 Hadoop Distributed File System

9 Hive

10 Hivemall

11 Mahout

12 MapReduce

13 Oozie

14 Pig

15 Sqoop

16 Spark

17 Tez

18 Zookeeper


Kumpulan Tool yang Terkait dengan Hadoop


#1. Hadoop

Open Source Tools Untuk Big Data
Hadoop


Pada bahasan pertama mengenai tool big data adalah proyek Apache Hadoop yang saat ini sudah menjadi identik dengan Big Data. Hal ini telah berkembang menjadi sebuah ekosistem seluruh tool open source untuk menyelesaikan masalah komputasi terdistribusi dengan sangat scalable. Sistem operasi yang mendukung Apache Hadoop: Windows, Linux, OS X.

#2. Ambari

Open Source Tools Untuk Big Data
Ambari


Bagian dari ekosistem Hadoop, proyek Apache ini menawarkan antarmuka berbasis Web intuitif untuk provisioning, pengelolaan, dan pemantauan cluster Hadoop. Tool Ambari ini juga menyediakan API RESTful untuk pengembang yang ingin mengintegrasikan kemampuan Ambari ke dalam aplikasi mereka sendiri. Sistem operasi yang mendukung Ambari: Windows, Linux, OS X.

#3. Avro

Open Source Tools Untuk Big Data
Avro


Proyek Apache ini menyediakan sistem data serialisasi dengan struktur data yang kaya dan memiliki format yang kompak. Skema didefinisikan dengan JSON dan terintegrasi dengan mudah dengan bahasa yang dinamis. Sistem operasi yang mendukung Avro: OS Independen alias bebas menggunakan OS apa saja.

#4. Cascading

Open Source Tools Untuk Big Data
Cascading


Cascading adalah sebuah platform pengembangan aplikasi berdasarkan Hadoop. Cascading memiliki dukungan komersial dan pelatihan yang telah tersedia. Sistem operasi yang mendukung Cascading : OS Independen.

#5. Chukwa

Open Source Tools Untuk Big Data
Chukwa


Bekerja berdasarkan Hadoop, Chukwa mengumpulkan data dari sistem terdistribusi dengan skala besar untuk tujuan monitoring. Penggunaan chukwa ini juga mencakup alat untuk menganalisis dan menampilkan data. Sistem operasi yang mendukung tool Chukwa: Linux, OS X.

#6. Flume

Open Source Tools Untuk Big Data
Flume


Flume mengumpulkan data log dari aplikasi lain dan mengirimkannya ke Hadoop. Di dalam website resminya menawarkan, " It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms." Sistem operasi yang mendukung Flume : Linux, OS X.

#7. HBase

Open Source Tools Untuk Big Data
HBase


Dirancang untuk tabel yang sangat besar dengan miliaran baris dan jutaan kolom, HBase adalah database terdistribusi yang menyediakan random akses real-time baca / tulis data besar. Hal ini agak mirip dengan Google Bigtable, tapi dibangun di atas Hadoop dan HDFS. Sistem operasi yang mendukung HBase : OS Independen.

#8. Hadoop Distributed File System

Open Source Tools Untuk Big Data


HDFS adalah sistem file untuk Hadoop, tetapi juga dapat digunakan sebagai standalone distributed file system. HDFS berbasis Java, fault-toleran, sangat scalable dan sangat dapat dikonfigurasi. Sistem operasi yang mendukung HDFS: Windows, Linux, OS X.

#9. Hive

Open Source Tools Untuk Big Data
HiveLogo


Apache Hive adalah data warehouse untuk ekosistem Hadoop. Hal ini memungkinkan pengguna untuk query dan mengelola big data menggunakan HiveQL, bahasa yang mirip dengan SQL. Sistem operasi yang mendukung Hive : OS Independen.

#10. Hivemall

Hivemall adalah kumpulan algoritma machine learning untuk Hive. Ini mencakup algoritma yang sangat terukur untuk klasifikasi, regresi, rekomendasi, k-nearest neighbor, deteksi anomali dan fitur hashing. Sistem operasi yang mendukung tool Hivemall : OS Independen.

#11. Mahout

Open Source Tools Untuk Big Data
Mahout Logo


Menurut website-nya, tujuan proyek Mahout adalah "untuk membangun lingkungan untuk secara cepat mampu membuat scalable performance pada aplikasi machine learning." Ini mencakup berbagai algoritma untuk melakukan data mining pada Hadoop MapReduce, serta beberapa algoritma baru untuk lingkungan Scala dan Spark. Sistem operasi yang mendukung : OS Independen.

#12. MapReduce

Merupakan bagian integral dari Hadoop, MapReduce merupakan model pemrograman yang menyediakan cara untuk memproses dataset terdistribusi dengan ukuran yang besar. Ini pada awalnya dikembangkan oleh Google, dan juga digunakan oleh beberapa tool big data lainnya di daftar ini, termasuk CouchDB, MongoDB dan Riak. Sistem operasi yang mendukung : OS Independen.

#13. Oozie

Open Source Tools Untuk Big Data
Oozie Logo


Scheduler alur kerja ini dirancang khusus untuk mengelola pekerjaan Hadoop. Hal ini dapat memicu job oleh waktu atau oleh ketersediaan data, dan terintegrasi dengan MapReduce, Pig, Hive, Sqoop dan banyak tool lainnya yang terkait. Sistem operasi yang mendukung Oozie : Linux, OS X.

#14. Pig

Open Source Tools Untuk Big Data
Pig Logo


Apache Pig adalah platform untuk analisis big data yang terdistribusi. Hal ini bergantung pada bahasa pemrograman yang disebut Pig Latin, yang menawarkan pemrograman parallel yang disederhanakan, optimasi dan diperpanjang. Sistem operasi yang mendukung Pig: OS Independen.

#15. Sqoop

Open Source Tools Untuk Big Data
Sqoop Architecture


Pada skala enterprise sering kali perlu untuk mentransfer data antara database relasional dan Hadoop, dan Sqoop adalah merupakan salah satu tool yang dapat melakukan pekerjaan tersebut. Dalam hal ini dapat mengimpor data ke Hive atau HBase dan ekspor dari Hadoop ke RDBMS. Sistem operasi yang mendukung sqoop: OS Independen.

#16. Spark

Open Source Tools Untuk Big Data
Spark Logo


Sebuah alternatif untuk MapReduce, Spark adalah mesin pengolahan data. Spark mengklaim sampai 100 kali lebih cepat dari MapReduce bila digunakan dalam memori atau 10 kali lebih cepat bila digunakan pada disk. Tool ini dapat digunakan bersama Hadoop, dengan Apache Mesos, atau digunakan secara sendiri. Sistem operasi yang mendukung spark: Windows, Linux, OS X.

#17. Tez

Open Source Tools Untuk Big Data


Dibangun di atas Apache Hadoop YARN, Tez adalah "sebuah kerangka aplikasi yang memungkinkan untuk tugas yang kompleks directed-acyclic-graph untuk pengolahan data." Hal ini memungkinkan Hive dan Pig untuk menyederhanakan pekerjaan rumit lainnya yang akan mengambil beberapa langkah. Sistem operasi yang mendukung Tez: Windows, Linux, OS X.

#18. Zookeeper

Open Source Tools Untuk Big Data
Zookeeper Logo


Tool big data ini secara adminstratif menggambarkan dirinya sebagai "layanan terpusat untuk mempertahankan informasi konfigurasi, penamaan, menyediakan sinkronisasi terdistribusi, dan menyediakan layanan kelompok." Hal ini memungkinkan node dalam cluster Hadoop untuk saling berkoordinasi. Sistem operasi yang mendukung zookeper: Linux, Windows (pengembangan saja), OS X (pembangunan saja).

Demikianlah tadi daftar 18 tool big data yang terkait dengan hadoop. Apabila anda mengetahui masih ada tool lain yang terkait dengan big data, anda dapat menambahkan dengan menuliskannya di dalam komentar di bawah.

60 Top Open Source Tools Untuk Big Data: Tool Untuk Platform Big Data AnalyticBig Data DBA.  Setiap kali analis atau wartawan membuat daftar tren untuk tahun 2016 ini, "big data" hampir pasti selalu berada di dalam daftar. Sementara slogannya yang cukup baru, di satu sisi, big data adalah tidak benar-benar konsep yang baru. Komputer selalu bekerja dengan sekumpulan besar data dan terus berkembang, dan disimpan dalam database serta data warehouse selama bertahun tahun.

Apa yang baru adalah berapa banyak data yang lebih besar, seberapa cepat tumbuh dan bagaimana rumit data itu. Usaha memahami bahwa data dalam sistem mereka merupakan tambang emas wawasan yang dapat membantu mereka meningkatkan proses dan kinerja mereka. Tapi mereka membutuhkan alat yang akan memungkinkan mereka untuk mengumpulkan dan menganalisis data tersebut sehingga dinamakan tool big data analytic.

60 Top Open Source Tools Untuk Big Data

Tidak mengherankan, data pasar yang besar berkembang sangat cepat dalam menanggapi permintaan dari perusahaan. Menurut IDC, pasar untuk produk dan layanan big data adalah senilai $ 3,2 milyar 2010, dan mereka pada saat itu memprediksi pasar akan tumbuh hingga menpai $ 16,900,000,000 pada tahun 2015. Peningkatan tersebut berada pada tingkat pertumbuhan tahunan sebesar 39,4 persen, yang merupakan tujuh kali lebih tinggi dari tingkat pertumbuhan IDC untuk pasar TI secara keseluruhan.

Menariknya, banyak dari yang terbaik dan paling terkenal dari tool untuk big data yang tersedia adalah proyek open source. Yang paling terkenal saat ini adalah Hadoop, yang pengembangan seluruh industri jasa dan produk terkait dengan produk hadoop ini. Kali ini, profil kita Hadoop, serta 59 proyek Big data lainnya. Di sini Anda akan menemukan banyak proyek Apache yang berkaitan dengan Hadoop, serta open source database NoSQL, tool business intelligence, tool development dan masih banyak lagi.

Menariknya, banyak dari yang terbaik dan paling terkenal dari tool untuk big data yang tersedia adalah proyek open source. Yang paling terkenal saat ini adalah Hadoop, yang pengembangan seluruh industri jasa dan produk terkait dengan produk hadoop ini.

Di bagian pertama ini, kita akan membahas 8 Tool untuk Platform Big Data Analytic sebagai bagian dari 60 top open source tool untuk big data.

Tool untuk Platform Big Data Analytic


1 Hadoop

Tool untuk Platform Big Data Analytic


Anda tidak dapat berbicara tentang data yang besar tanpa menyebutkan Hadoop. Perangkat lunak pengolahan data Apache terdistribusi begitu meresap yang sering disebut dengan istilah "Hadoop" dan "big data" digunakan secara sinonim. Apache Foundation juga mensponsori sejumlah proyek terkait yang memperluas kemampuan Hadoop, dan banyak dari mereka yang disebutkan di bawah ini. Selain itu, banyak vendor menawarkan versi Hadoop dan teknologi terkait yang didukung. Sistem operasi: Windows, Linux, OS X.

2 MapReduce


Awalnya dikembangkan oleh Google, website MapReduce menggambarkannya sebagai "model pemrograman dan kerangka kerja perangkat lunak untuk menulis aplikasi yang cepat dalam memproses data dalam jumlah besar secara paralel pada kelompok besar dari node komputasi." Ini digunakan oleh Hadoop, serta banyak aplikasi pengolahan data lainnya. Sistem operasi: OS Independen.

3 GridGain

Tool untuk Platform Big Data Analytic

GridGrain menawarkan alternatif untuk MapReduce Hadoop yang kompatibel dengan File System Hadoop Distributed. Menawarkan pengolahan di memori untuk analisis cepat dengan menggunakan data real-time. Anda dapat men-download versi open source dari GitHub atau membeli versi komersial didukung dari link di atas. Sistem operasi: Windows, Linux, OS X.

4 HPCC

Tool untuk Platform Big Data Analytic

Dikembangkan oleh LexisNexis Solusi Risiko, HPCC adalah singkatan dari " high performance computing cluster (kinerja tinggi cluster komputasi)." Ini klaim untuk menawarkan kinerja yang unggul untuk Hadoop. Kedua versi komunitas gratis dan versi enterprise yang merupakan versi berbayar tersedia. Sistem operasi: Linux.

5 Disco

Tool untuk Platform Big Data Analytic

Awalnya dikembangkan oleh Nokia, Disco adalah kerangka komputasi terdistribusi yang, seperti Hadoop, didasarkan pada MapReduce. Ini termasuk filesystem yang terdistribusi dan database yang mendukung miliaran kunci dan nilai-nilai. Sistem operasi: Linux, OS X.

6 Lumify

Tool untuk Platform Big Data Analytic

Dimiliki oleh Altamira, yang dikenal untuk teknologi keamanan nasional, Lumify merupakan open source integrasi big data, analisis dan platform visualisasi. Anda bisa melihatnya dalam tindakan dengan mencoba demo di Try.Lumify.io. Sistem operasi: Linux.

7 Pandas

Tool untuk Platform Big Data Analytic

Proyek Pandas meliputi struktur data dan tool analisis data berdasarkan bahasa pemrograman Python. Hal ini memungkinkan organisasi untuk menggunakan Python sebagai alternatif untuk R untuk proyek-proyek analisis data yang besar. Sistem operasi: Windows, Linux, OS X.

8 Storm

Tool untuk Platform Big Data Analytic

Sekarang proyek Apache, Storm menawarkan pemrosesan real-time big data (tidak seperti Hadoop, yang hanya menyediakan batch processing). Pengguna Storm termasuk Twitter, The Weather Channel, WebMD, Alibaba, Yelp, Yahoo! Jepang, Spotify, Group, Flipboard dan banyak perusahaan lainnya. Ini sangat scalable, kuat, toleran terhadap kesalahan dan bekerja dengan hampir semua bahasa pemrograman. Sistem operasi: Linux.

Demikian untuk 8 Tool untuk Platform Big Data Analytic, mungkin anda tertarik untuk mempelajari salah satunya. Untuk tool lainnya yang berguna dalam penanganan proses big data bisa anda baca pada artikel-artikel selanjutnya di blog big data dba.


Infrastruktur Big Data itu Seperti Apa - Big Data DBA. Saat mengulas Big Data tentu kita bakal tersadar pada keperluan infrastruktur untuk menyokong teknologi Big Data itu. Dalam infrastruktur teknologi Big Data sendiri mempunyai karakteristik yang tidak sama dengan traditional data, yakni : 

Infrastruktur Big Data itu Seperti Apa










Infrastruktur Big Data itu Seperti Apa

#1.  Sekilas Sejarah Tentang Big Data

Awal mulanya th. 1970-2000 data yang di bangun merupakan data dengan jenis terstruktur serta adalah relational database seperti MySQL, oracle, dan sebagainya. Lantas pada th. 1995 selanjutnya mulai di bangun satu business intelligence yang memakai structured serta relational database dengan sistem seperti cognos, pentaho dan sebagainya. Pada 2010 sampai saat ini di bangun satu sistem yang mempunyai maksud 3V (volume, velocity, varity) atau 4V (ditambah value), serta dengan berbagai teknologinya seperti map reduce, high performance computers cluster dan sebagainya. 

Berarti kegunaan Big Data adalah sisi dari intelijen usaha, Big Data bisa dipakai untuk membuat satu usaha yang mempunyai intelijen manfaat mensupport pengambilan keputusan. Tetapi dalam hal semacam ini ada banyak hal yang tidak sama dari sisi volume yang tidak cuma jumlah data yang banyak, tetapi perkembangan data yang sangatlah cepat hingga dalam rentang waktu yang pendek data bisa bertumbuh dengan amat cepat serta besar (velocity), serta data yang ada mempunyai variasi yang sangatlah banyak (variety) tentu dalam big data sendiri terlebih dalam pembentukan data warehouse telah banyak dikerjakan ekstraksi transform load (ETL) untuk menanggulanggi varietas dari data itu hingga data bisa jadi standard baik dibikin bersih dari beragam noise juga dikerjakan transformasi hingga data tambah lebih sesuai dengan sistem usaha yang ada atau yang tengah jalan untuk organisasi spesifik. 

Business Intelligence yang didalamnya ada pemakaian big data juga memerlukan satu teknologi yang bisa mensupport sistem usaha yang ada di dalam intelijen usaha tersebut, hingga bisa jalan sesuai sama yang diinginkan. Hingga butuh di bangun satu infrastruktur yang pas serta bisa menangani keperluan big data yakni satu diantaranya yaitu sistem pemrosesan data yang amat cepat meskipun diwaktu yang sama data memiliki ukuran besar serta tumbuh dengan cepat. 

Sebagai permasalahan serta tantangan yaitu akusisi data, recording data, ekstraksi, cleaning, anotasi, integrasi, agregasi, representasi, analisa, jenising, interpretasi, serta visualisasi. Big data sendiri mempunyai aplikasi serta fungsi untuk beragam bagian seperti yang telah dijelaskan di atas pada awal mula artikel ini. 

#2. Macam Teknologi Big Data

Ada dua teknologi dalam infrastruktur dalam Big data yakni : 

  1. High Performance Computing Cluster (HPCC) atau bisa dikatakan sebagai Data Analytics Supercomputer (DAS) 
  2. Hadoop Basis (Map Reduced-Based Basis) 

Dari ke-2 pendekatan teknologi itu ada ketidaksamaan yang cukup penting (dari sisi manfaat) serta ada kemiripan dalam sistem yang jalan didalamnya. Kemiripan dari dua teknologi itu yaitu keduanya sama memakai kurang lebih satu computer dalam melakukan sistem penarikan info maupun pemrosesan beragam info atau bahkan juga bisa tampak keduanya memakai rancangan cluster pada arsitektur teknologi yang dipakai. Pada intinya keduanya juga bisa diintegrasikan dengan baik manfaatnya sama-sama mensupport keduanya. 

High Performance Computing Clusters (HPCC) itu sendiri pada intinya dibangun sebagai satu super computer yang terbagi dalam kurang lebih satu computer dengan spesifikasi spesifik (umumnya sama) untuk sama-sama menolong, menyokong, atau membagi pekerjaan keduanya hingga berbarengan bisa lakukan processing pada satu data, terlebih dalam soal pencarian data. Sistem besar yang umumnya jalan sendiri yaitu seperti, Ekstrak, Transform, serta Load, lantas kemudian dikerjakan analisa untuk memperoleh info yang lebih sesuai sama kebuthan usaha organisasi itu. 

Infrastruktur Big Data itu Seperti Apa

Sedang Hadoop Berbasis sendiri adalah satu project teknologi yang di kembangkan oleh apache dalam mengelola data besar hingga tambah lebih efisien serta efektif. Dalam hadoop sendiri terbagi dalam beragam komponen, bahkan juga sampai hadoop sendiri mempunyai distributed file sistem sendiri yang disebut dengan (HDFS). Keunggulan dari dari HDFS itu sendiri yaitu : 


  • Fault tolerance, serta di-deploy untuk low biaya hardware 
  • Write Once, Read many, adalah koherensi simpel, serta ditambah lagi frame-work yang di bangun dalam hadoop saat kita bakal memakai hadoop, memakai teknologi java. 
  • Memindahkan komputasi/sistem lebih cepat dari memindahkan data. 
  • Serupa Google File Sistem, namun HDFS membagi file jadi block dalam cluster node yang terdistribusi. 
  • Core component : master vs slave, name node vs data node, job tracker vs task tracker. 

#3.  Arsitektur Hadoop dan Integrasi antara HPCC dan Hadoop

Berikut ini adalah gambaran dari hadoop Basis : 

Infrastruktur Big Data itu Seperti Apa


Dibawah ini merupakan satu diantara arsitektur integrasi pada HPCC serta Hadoop basis : 

Infrastruktur Big Data itu Seperti Apa


Pada saat itu ada ketidaksamaan System manajemen Basis Data, yang pada intinya basis data mempunyai korelasi antar data yag umumnya kita sebut dengan data yang telah terstruktur atau terorganisasi, serta piranti sistem manajemen basis datanya yang disebut piranti lunak yang bisa dipakai untuk mengelola basis data seperti MySQL, Oracle, PostgreSQL dan sebagainya. Ketika ini ada keperluan lain dari manajemen basis data karenanya ada big data atau jadi System Manajemen Big Data. Berikut yaitu pemicu mengapa ada keperluan Manajemen Big Data itu : 

#4.  DBMS Konvensional Tidak Cukup Untuk Big Data

Tak seluruhnya masalah pemrosesan data bisa dikerjakan lewat cara paling baik memakai traditional relational DBMS. 

DBMS konvensional kurang untuk big data lantaran :
  • Kecepatan akses (gosip volume) 
  • Kesederhanaan set up 
  • Keperluan representasi struktu/skema yang lebih longgar (gosip variety) 
  • Keperluan pengelolaan data yang tidak sama (ACID tak seutuhnya dibutuhkan), missal connectedness. 
  • Keperluan arsitektur terdistribusi (scale out). 


Hingga di bangun beragam piranti lunak yang bisa menangani keperluan itu tetapi masingmasing teknologi mempunyai karakteristik dalam sistem pemrosesan yang tidak sama, tersebut misalnya : 

Column Oriented

  • Big table (google), Hbase, Cassandra (Facebook)

Document Oriented

  • CouchDB, MongoDB

Graph-Oriented

  • Neo4j, Virtuoso

Key-value Oriented

  • DynamoDB (Amazon), Riak



#5.  Perbedaan DBMS Untuk Big Data

Dari sebagian contoh DBMS di atas itu tampak bahwa ada ketidaksamaan mendasar pada masing DBMS untuk big data itu yaitu pada tujuan dari masing-masing database management sistem. Umumnya sistem untuk manajemen basis data untuk Big Data yang dipakai yaitu NoSQL yang pada awalanya ditujukan oleh beberapa komune yg tidak suka pada pemakaikan SQL juga sebagai “tidak memakai SQL” tetapi saat ini lantaran kesadaran ternyta kita tak bias seutuhnya terlepas pada SQL itu, dirubah jadi “Not Only SQL” (NoSQL). NoSql itu adalah DBMS yang dijelaskan pada awal mulanya (4 point diatas). NoSQL mempunyai ketidaksamaan yaitu database yg tidak berelasi, lantaran tak ada keperluan connectedness yang telah dijelaskan pada awal mulanya, serta umumnya berbentuk terdistribusi serta scale out (dengan cara horizontal). Tidak ada skema spesial hingga lebih longgar pada skema, serta pemakaikan Application Programming Interface yang lebih simpel dalam pemakaian manipulasi atau processing data. Juga mengaplikasikan perinsip BASE, buka ACID. 

Yang paling populer sendiri untuk teknologi NoSQL itu yaitu Hadoop dengan map reducenya yang pada versus 1.0 serta 2.0 nya mempunyai ketidaksamaan yang cukup penting terlebih dalam jenis frameworknya, yang ke-2 yaitu Document Oriented yang mempunyai rencana hirarki dalam dokumen satu data, serta umumnya dokumen di enkapsulasi serta encoding dalam format standard XML, JSON, YAML, dan sebagainya. Sedang Graph oriented adalah DBMS yang memrepresentasikan jenis data graph, yang menunjukkan keterhubungan antar tiap-tiap data. 

Dalam sistem mining (datamining) karenanya ada big data itu sendiri cukup menguntungkan lantaran datamining memerlukan data yang banyak hingga membuahkan jenis yang tambah lebih general tetapi mempunyai akurasi yang tinggi. Tetapi karenanya ada big data itu sendiri datamining diwajibkan terima tantangan bagaimanakah lakukan datamining dengan taraf yang sangatlah besar serta terdistribusi dengan juga variety data yang sangatlah variatif. 

Hingga diinginkan dengan pemakaian infrastruktur teknologi dari Big Data yang pas manfaatnya dan bisa mensupport sistem usaha yang ada jadi tambah lebih baik terlebih dalam sistem pengambilan info, knowledge serta wisdom manfaat mensupport dalam pengambil keputusan disuatu organisasi spesifik baik ini keuntungan / profit ataupun non-profit, baik ini swasta ataupun pemerintah.

Arsitektur Big DataBig Data DBA. Pada artikel tentang big data yang lalu kita sudah mengulas tentang Apakah Big Data itu. Artikel kali ini adalah kelanjutan dari artikel yang ada sebelumnya ini, bila belum membaca tentang artikel yang mengulas tentang Pengenalan Pengertian Big Data, jadi diwajibkan bagi anda untuk membacanya terlebih dulu saat sebelum membaca artikel Arsitektur Big Data ini. 














Untuk mengerti level pada sisi arsitektur yang tinggi dari Big Data, pada awal mulanya mesti mengerti arsitektur info logis untuk data yang terstruktur. Pada gambar dibawah ini akan ditunjukkan dua sumber data yang memakai tehnik integrasi (ETL/Change Data Capture) untuk mentransfer data ke DBMS data warehouse atau operational data store, lantas cobalah untuk menyediakan beberapa macam variasi dari kekuatan analisa untuk menghadirkan data. Sebagian kekuatan analisa itu termasuk juga, ; dashboards, laporan, EPM/BI Applications, ringkasan serta query statistic, interpretasi semantic untuk data tekstual, serta alat visualisasi untuk data yang padat. Info paling utama dalam prinsip arsitektur itu termasuk juga langkah memperlakukan data juga sebagai asset lewat nilai, cost, kemungkinan, waktu, kwalitas serta akurasi data. 

Mendeskripsikan kekuatan mengolah untuk big data architecture, dibutuhkan banyak hal yang perlu untuk dilengkapi ; volume, percepatan, variasi, serta nilai sebagai tuntutan. Ada kiat technologi yang tidak sama untuk real-time serta kepentingan batch processing. Untuk real-time, menaruh data nilai kunci, seperti NoSQL, sangat mungkin untuk membuatnya memiliki performa tinggi, serta pengambilan data berdasar pada indeks. Untuk batch processing, dipakai tehnik yang di kenal juga sebagai Map Reduce, memfilter data berdasar pada data yang khusus pada kiat penemuan. Sesudah data yang difilter diketemukan, kemudian data akan dianalisis dengan cara langsung, dimasukkan ke unstructured database yang lain, diantar ke piranti mobile atau dipadukan ke lingkungan data warehouse tradisional serta berkolerasi pada data terstruktur. 

Juga sebagai penambahan untuk unstructured data yang baru, ada dua kunci ketidaksamaan untuk big data. Pertama, lantaran ukuran dari data set, raw data tidak bisa dengan cara langsung dipindahkan ke satu data warehouse. Tetapi, sesudah sistem Map Reduce ada kemungkinan bakal berlangsung reduksi hasil dalam lingkungan data warehouse hingga bisa memakai pelaporan business intelligence, statistik, semantik, serta kekuatan korelasi yang umum. Bakal jadi sangatlah ideal untuk mempunyai kekuatan analitik yang menggabungkan piranti Business Intelligence (BI) berbarengan dengan visualisasi big data serta kekuatan query. Ke-2, untuk memfasilitasi analisa dalam laingkungan Hadoop, lingkungan sandbox bisa di buat. 

Untuk sebagian masalah, big data butuh memperoleh data yang selalu beralih serta tidak bisa diprediksikan, untuk menganilisis data itu, diperlukan arsitektur yang baru. Dalam perusahaan retail, contoh yang bagus yaitu dengan menangkap jalur jalan raya dengan cara real-time dengan maksud untuk menempatkan iklan atau promosi toko ditempat strategis yang dilalui beberapa orang, mengecheck penempatan barang serta promosi, mencermati dengan cara langsung gerakan serta perilaku pelanggan. 

Dalam masalah lain, satu analisa tidak bisa dikerjakan hingga dikaitkan dengan data perusahaan serta data terstruktur yang lain. Juga sebagai misalnya, analisa perasaan pelanggan, memperoleh tanggapan positif atau negatif dari social media bakal mempunyai satu nilai, namun dengan mengasosiasikannya dengan semua jenis pelanggan (paling menguntungkan atau bahkan juga yang sekurang-kurangnya menguntungkan) bakal memberi value yang lebih bernilai. Jadi, untuk penuhi keperluan yang dibutuhkan oleh big data Business Intelligence (BI) yaitu konteks serta pemahaman. Memakai kemampuan peralatan statistikal serta semantik bakal sangatlah sangat mungkin agar bisa memprediksikan kemungkinan – kemungkinan di hari esok. 

Satu diantara tantangan yang di teliti dalam penggunaan Hadoop dalam perusahaan yaitu kurangnya integrasi dengan ekosistem Business Intelligence (BI) yang ada. Sekarang ini BI tradisional serta ekosistem big data terpisah serta mengakibatkan analis data terintegrasi mengalami kebingungan. Juga pada akhirnya, hal semacam ini tidaklah siap untuk dipakai oleh pemakai usaha serta eksekutif umum. 

Pemakai big data yang pertama kalinya coba memakai, kerapkali menulis kode special/khusus untuk memindahkan hasil big data yang sudah diolah kembali ke database untuk di buat laporan serta dianalisa. Pilihan – pilihan itu mungkin saja tak layak serta ekonomis untuk perusahaan IT. Pertama, lantaran mengakibatkan penyebaran satu diantara data serta standard yang tidak sama, hingga arsitekturnya mempengaruhi ekonomi IT. Big data dikerjakan dengan cara berdiri sendiri untuk menggerakkan kemungkinan investasi yang redundan, juga sebagai tambahannya, banyak usaha yang sekalipun tak mempunyai staff serta keterampilan yang diperlukan untuk pengembangan pekerjaan yang spesial. 

Pilihan yang paling pas yaitu memadukan hasil big data ke data warehouse. Kemampuan info ada pada kekuatan untuk asosiasi serta korelasi. Jadi yang diperlukan yaitu kekuatan untuk membawa sumber data yang berlainan, mengolah keperluan berbarengan – sama dengan cara pas waktunya serta analisa yang bernilai. 

Waktu berbagai – jenis data sudah diperoleh, data itu bisa disimpan serta diolah ke DBMS tradisional, file-file sederhana, atau system cluster terdistribusi seperti NoSQL serta Hadoop Distributed File Sistem (HDFS). 

Dengan cara arsitektur, komponen kritikal yang memecah sisi itu yaitu layer integrasi yang ada di dalam. Layer integrasi itu butuh untuk diperluas ke semua type data serta domain, serta jadi jembatan pada data penerimaan yang baru serta tradisional, serta pemrosesan framewok. Kemampuan integrasi data butuh untuk menutupi keseluruhannya spektrum dari kecepatan serta frekwensi. Hal itu dibutuhkan untuk mengatasi keperluan ekstrim serta volume yang selalu jadi bertambah banyak. Oleh karenanya dibutuhkan technologi yang sangat mungkin untuk mengintegrasikan Hadoop/Map Reduce dengan data warehouse serta data transaksi. 

Layer selanjutnya dipakai untuk Load hasil reduksi dari big data ke data warehouse untuk analisa selanjutnya. Dibutuhkan juga kekuatan untuk terhubung dengan data terstruktur seperti info profil pelanggan saat mengolah atau memproses data dalam big data untuk memperoleh pola seperti mendeteksi kesibukan yang mencurigakan.

Hasil pemrosesan data bakal dimasukkan ke ODS tradisional, data warehouse, serta data marts untuk analisa selanjutnya seperti data transaksi. Komponen penambahan dalam layer itu yaitu Complex Moment Processing untuk menganalisa arus data dengan cara real-time. Layer business intelligence bakal dilengkapi dengan analisa kelanjutan, dalam analisa database statistik, serta visualisasi kelanjutan, diaplikasikan dalam komponen tradisional seperti laporan, dashboards, serta query. Pemerintahan, keamanan, serta pengelolaan operasional juga meliputi semua spektrum data serta lanskap info pada tingkat enterprise. 

Dengan arsitektur itu, pemakai usaha tak lihat satu pemisah, bahkan juga tak sadar bakal ketidaksamaan pada data transaksi tradisional serta big data. Data serta arus analisa bakal merasa mulus tanpa ada rintangan saat dihadapkan pada berbagai – jenis data serta set info, hipotesis, pola analisa, serta membuat keputusan. 

Big Data untuk kepentingan development terkait dengan, namun tidak sama dengan 'tradisional Data development' (umpamanya data survey, statistik resmi), serta bidang swasta serta media mainstream menyebutnya 'Big Data’. 
     

Big Data untuk sumber Pengembangan biasanya mempunyai sebagian/seluruhnya feature itu : 

  • Digitally generated, data yang dihasilkan dengan cara digital (juga sebagai lawan yang didigitalkan manual), serta bisa disimpan dengan memakai rangkaian satu serta 0, serta dengan hal tersebut bisa dimanipulasi oleh komputer 
  • Passively produced, Data itu adalah data yang dihasilkan atau product dari kehidupan kita sehari-hari atau hubungan dengan layanan digital. 
  • Automatically collected, Data-data yang terbentuk dari data-data operasional serta transaksi yang dihimpun serta sudah diolah (ETL) serta di taruh kedalam data mart 
  • Geographically or temporally trackable, Data –data yang memberikan tempat atau posisi, umpamanya data tempat hp atau durasi saat panggilan 
  • Continuously analysed, info yang relevan dengan kesejahteraan manusia serta pembangunan serta bisa dianalisis dengan cara real-time 

  • IT logs Analytics, Penyimpanan Log dalam periode yang panjang, dipakai untuk analisis system system yang tengah jalan untuk menghindar serta menanggulangi kegagalan dalam system, menggunakan hasil analisis log untuk temukan serta menentukan dengan cara pasti kegagalan apa yang berlangsung di dalam system, mempersiapkan beberapa langkah pasti yang bisa dipakai juga sebagai jalan keluar permasalahan system. 
  • Fraud Detection Pattern, Banyak dipakai dalam Bagian keuangan atau dimanapun transaksi finasial ikut serta, Mengoptimalkan penggunaan data-data yang ada untuk memberi kekuatan untuk mendeteksi fraud saat transaksi tengah berlangsung 
  • The Social Media Pattern, Penggunaan Big data untuk analisis media social serta sentiment pelanggan, memberi kekuatan untuk perusahan untuk tahu hasrat customer dengan cara yang luas, memperoleh feedback dengan cara langsung, serta mengetahui segera efek sentimen pada penjualan, dan efektivitas serta penerimaan pelangan pada pemasaran yang dikerjakan. 
  • Risk : Patterns for Jenising and Management, Memberi kemampuan penggunaan data dengan cara penuh serta analisa dalam pemodelan kemungkinan serta menejemen kemungkinan untuk memberi pengetahuan bakal kemungkinan serta penanggulangannya dengan cara yang cocok serta langsung 
  • Masih tetap Banyak Lagi 

Seperti data pergudangan, toko situs atau basis TI, infrastruktur untuk data yang besar mempunyai keperluan yang unik. Dalam memperhitungkan seluruhnya komponen basis data yang besar, penting untuk diingat bahwa maksud akhir yaitu untuk dengan gampang mengintegrasikan data yang besar dengan data perusahaan Anda untuk sangat mungkin Anda untuk lakukan analisa mendalam pada set data yang terpadu. 


Step akuisisi yaitu satu diantara pergantian besar dalam infrastruktur pada hari-hari sesaat sebelum big data. Lantaran big data merujuk pada aliran data dengan kecepatan yang lebih tinggi serta macam yang beragam, infrastruktur yang dibutuhkan untuk mensupport akuisisi data yang besar mesti di sampaikan dengan cara perlahan-lahan, bisa diperkirakan baik didalam menangkap data serta dalam memprosesnya dengan cara cepat serta simpel, bisa mengatasi volume transaksi yang sangatlah tinggi, kerap dalam lingkungan terdistribusi, serta support yang fleksibel, susunan data dinamis. 

Database NoSQL kerap dipakai untuk mengambil serta menaruh big data. Mereka pas untuk susunan data dinamis serta sangatlah terarah. Data yang disimpan dalam database NoSQL umumnya dari beragam variasi/macam lantaran system ditujukan untuk cuma menangkap seluruhnya data tanpa ada mengelompokkan serta parsing data. 

Juga sebagai contoh, database NoSQL kerap dipakai untuk menghimpun serta menaruh data media sosial. Saat aplikasi yang dipakai pelanggan kerap beralih, susunan penyimpanan di buat menjadi simpel. Alih-alih membuat skema dengan jalinan antar entitas, susunan simpel kerap cuma diisi kunci paling utama untuk mengidentifikasi titik data, serta lalu wadah content memegang data yang relevan. Susunan simpel serta dinamis itu sangat memungkinkan pergantian berjalan tanpa ada reorganisasi pada susunan penyimpanan. 

Dalam arti Data pergudangan classic, pengorganisasian data dimaksud integrasi data. Lantaran ada volume/jumlah data yang sangatlah besar, ada kecenderungan untuk mengatur data pada tempat penyimpanan aslinya, hingga menghemat waktu serta duit dengan tak memindah-midahkan data dengen volume yang besar. Infrastruktur yang dibutuhkan untuk mengatur data yang besar mesti dapat memproses serta merekayasa data di tempat penyimpanan asli. Umumnya diolah di dalam batch untuk mengolah data yang besar, bermacam format, dari tak terstruktur jadi terstruktur. 

Apache Hadoop yaitu suatu tehnologi baru yang sangat mungkin mengolah volume data yang besar untuk ditata serta diolah sembari melindungi data pada cluster penyimpanan data asli. Hadoop Distributed File Sistem (HDFS) yaitu system penyimpanan periode panjang untuk log situs umpamanya. Log situs itu beralih jadi tingkah laku searching dengan menggerakkan program MapReduce di cluster serta membuahkan hasil yang dihimpun didalam cluster yang sama. Hasil itu dihimpun lalu dimuat ke system DBMS relasional. 

Lantaran data tidak selamanya bergerak sepanjang fase organisasi, analisa ini dapat juga dikerjakan dalam lingkungan terdistribusi, dimana sebagian data bakal tinggal dimana data ini awalannya disimpan serta dibuka dengan cara transparan dari suatu data warehouse. Infrastruktur yang dibutuhkan untuk mengkaji data yang besar mesti dapat mensupport analisa yang lebih dalam seperti analisa statistik serta data mining, pada data dengan type yang bermacam serta disimpan dalam system yang terpisah, memberi waktu tanggapan lebih cepat didorong oleh pergantian tingkah laku ; serta mengotomatisasi ketentuan berdasar pada jenis analityc. Yang paling utama, infrastruktur mesti dapat mengintegrasikan analisa pada gabungan data yang besar serta data perusahaan tradisional. Wawasan baru datang tidak cuma dari analisa data baru, namun dari menganalisisnya dalam konteks yang lama untuk memberi perspektif baru tentang permasalahan lama.

Dalam usaha pemakaian Big Data bisa ada banyak kendala serta tantangan, banyak hal salah satunya terkait dengan data di mana melibatkan acquisition, berbagi serta privacy data, dan dalam analisa serta pemrosesan data 

  • Privacy, Privacy adalah gosip yang paling peka, dengan rencana aktual, hukum, serta tehnologi, Privacy bisa dipahami dalam makna luas juga sebagai usaha perusahaan membuat perlindungan daya saing serta customer mereka. Data-data yang dipakai/disimpan juga sebagai big data 
  • Access serta berbagi, Akses pada data, baik data lama ataupun data baru bisa jadi kendala dalam memperoleh data untuk big data, terutama pada data lama di mana data- data tersimpan mempunyai bentuk – bentuk yang berlainan serta bermacam maupun berbentuk fisik, akses pada data baru juga memerlukan usaha yang lebih kerana diperlukannya izin serta lisensi untuk terhubung ke data-data non-public dengan cara legal. 
  • Analisa, Bekerja dengan sumber data baru membawa beberapa tantangan analityc, relevansi serta tingkat keparahan tantangan bakal beragam bergantung pada type analisa tengah dikerjakan, serta pada type ketentuan yang pada akhirnya bakal dapat diberitakan oleh data. 
  • Interpreting Data, Kekeliruan –kesalahan seperti Sampling selection bias adalah hal yang kerap diketemukan di mana data yang ada tidak bisa dipakai untuk mepresentasikan seluruhnya populasi yang ada, serta apophenia, lihat ada pola meskipun tak betul-betul ada karena jumlah data yang besar, serta kekeliruan dalam menginterpreasikan jalinan dalam data. 
  • Defining and detecting anomalies, tantangan sensitivitas pada spesifisitas pemantauan sistem. Sensitivitas merujuk pada kekuatan system pemantauan untuk mendeteksi seluruhnya masalah telah ditata untuk mendeteksi sesaat spesifisitas merujuk pada kemampuannya untuk mendeteksi cuma beberapa masalah yang relevan. kegagalan untukmencapai hasil yang paling akhir " Type I kekeliruan ketentuan ", dikenal juga juga sebagai " positif palsu " ; kegagalanuntuk meraih bekas " Tipe II error ", atau " negatif palsu. " Ke-2 kekeliruan yg tidak di idamkan saat berusaha untuk mendeteksi malfungsi atau anomali, bagaimanapun didefinisikan, untuk beragam argumen. Positif palsu mengakibatkan kerusakan kredibilitas system sesaat negatif palsu dilemparkan sangsi pada relevansinya. Namun apakah negatif palsu lebih atau kurang punya masalah dari pada positif palsu bergantung pada apa yang tengah diawasi, serta kenapa ini tengah diawasi. 

Demikianlah Sedikit Penjelasan tentang Arsitektur Big Data yang dilengkapi dengan hal-hal lain yang terkait dengan big data seperti pengembangan big data, permasalahan big data, serta lain sebagainya. Anda tertarik dengan big data? Mari kita berbagi dan sama-sama belajar big data di blog big data dba ini.

Mengenal Apa Itu Big DataBig Data DBA. Big Data adalah kata kunci, atau menangkap-frase, yang digunakan untuk menggambarkan volume besar baik data terstruktur dan tidak terstruktur yang memiliki ukuran begitu besar, sulit untuk memproses menggunakan teknik database dan perangkat lunak tradisional. Dalam skenario yang paling enterprise di perusahaan, big data termasuk ke dalam volume data yang terlalu besar atau bergerak terlalu cepat atau melebihi kapasitas pengolahan data saat ini. Meskipun adanya masalah ini, bagaimana data yang besar memiliki potensi untuk membantu perusahaan meningkatkan operasi dan membuat lebih cepat, serta memberikan keputusan yang lebih cerdas.

Mengenal Apa Itu Big Data

Big Data: Volume atau Teknologi itu?

Sementara istilah mungkin tampak untuk referensi volume data, yang tidak selalu terjadi. Ukuran Big Data, terutama bila digunakan oleh vendor, mungkin merujuk pada teknologi (yang termasuk alat dan proses) bahwa suatu organisasi membutuhkan untuk menangani sejumlah besar data dan fasilitas penyimpanan. Istilah data yang besar diyakini berasal dan berhubungan dengan perusahaan pencarian Web yang dibutuhkan untuk query agregasi yang didistribusikan dalam ukuran sangat besar pada data longgar-terstruktur (loosely-structured data).

Big Data dapat dicirikan oleh 3Vs: volume ekstrim data, berbagai jenis data dan kecepatan di mana data harus harus diproses. Meskipun Big Data tidak mengacu pada jumlah tertentu, istilah ini sering digunakan ketika berbicara tentang petabyte dan exabyte data, banyak yang tidak dapat diintegrasikan dengan mudah.

Mengenal Apa Itu Big Data


Karena data yang besar membutuhkan waktu terlalu banyak dan biaya terlalu banyak uang untuk memuat ke dalam database tradisional relasional untuk analisis, pendekatan baru untuk menyimpan dan menganalisis data telah muncul yang kurang mengandalkan data yang memiliki skema dan kualitas data. Sebaliknya, data mentah dengan metadata diperpanjang dikumpulkan dalam penyimpanan data dan mesin belajar dan program kecerdasan buatan (AI) dengan menggunakan algoritma kompleks untuk mencari pola berulang.

Analisis data yang besar sering dikaitkan dengan komputasi awan karena analisis data set besar dalam real-time membutuhkan platform seperti Hadoop untuk menyimpan kumpulan Big Data di cluster yang di distribusikan dan MapReduce untuk mengkoordinasikan, menggabungkan dan mengolah data dari berbagai sumber.

Contoh Big Data

Contoh Big Data mungkin petabyte (1.024 terabyte) atau exabyte (1024 petabyte) data yang terdiri dari miliaran triliunan catatan jutaan orang-semua dari berbagai sumber (misalnya Web, penjualan, pusat kontak pelanggan, media sosial, ponsel data dan sebagainya). Data tersebut biasanya data longgar terstruktur yang sering tidak lengkap dan tidak dapat diakses.

Big Data dan Jenis Datasets Bisnis

Ketika berhadapan dengan dataset yang lebih besar, organisasi menghadapi kesulitan untuk dapat membuat, memanipulasi, dan mengelola data yang besar. Big Data ini terutama menjadi masalah dalam business analytics karena alat dan prosedur standar tidak dirancang untuk mencari dan menganalisis dataset yang besar.

Sebagai penelitian dari perusahaan induk Webopedia QuinStreet menunjukkan, inisiatif big data yang siap untuk pertumbuhan eksplosif. QuinStreet disurvei 540 perusahaan pembuat keputusan yang terlibat dalam Big Data dan menemukan dataset yang menarik bagi banyak bisnis saat ini termasuk database inventory tradisional terstruktur, order, dan informasi pelanggan, serta data tidak terstruktur dari Web, situs jejaring sosial, dan perangkat cerdas .

Data ini, ketika ditangkap, diformat, dimanipulasi, disimpan, dan dianalisis dapat membantu perusahaan untuk mendapatkan wawasan yang berguna untuk meningkatkan pendapatan, mendapatkan atau mempertahankan pelanggan, dan meningkatkan operasi.
Big Data juga dapat disebut sebagai data perusahaan besar.

MKRdezign

Contact Form

Name

Email *

Message *

Powered by Blogger.
Javascript DisablePlease Enable Javascript To See All Widget