60 Top Open Source Tools Untuk Big Data : 18 Tool untuk Hadoop-Related

Big data sangat membantu kita untuk menyelesaikan process data yang cukup besar. Ketika kita akan bekerja dengan tool-tool
18 Tool untuk Hadoop – RelatedBigdata DBA. Big data sangat membantu kita untuk menyelesaikan process data yang cukup besar. Ketika kita akan bekerja dengan tool-tool untuk Big Data, solusi open source yang secara umum dan Apache Hadoop khususnya akan kita lihat mendominasi hampir semua pembahasan big data di internet. Forrester Analis Mike Gualtieri meramalkan bahwa "100 persen perusahaan besar" akan mengadopsi Hadoop selama beberapa tahun. Sebuah laporan dari Riset Pasar memperkirakan bahwa pasar Hadoop akan tumbuh pada tingkat pertumbuhan tahunan gabungan (CAGR) lebih dari 58 persen pada 2022 dan bahwa hal itu akan bernilai lebih dari $ 1 miliar pada tahun 2020. Dan IBM percaya begitu kuat tool Big Data adalah di open source, maka perusahaan tersebut menugaskan 3.500 peneliti untuk bekerja pada Apache Spark, tool yang merupakan bagian dari ekosistem Hadoop.

Open Source Tools Untuk Big Data


Kali ini, kita telah memperbarui daftar open source tool Big Data di atas dengan peluncuran banyak proyek baru. Banyak proyek yang paling penting dikelola oleh Apache Foundation dan berhubungan erat dengan Hadoop.

Harap dicatat bahwa ini bukan peringkat; sebaliknya, proyek yang diselenggarakan berdasarkan kategori. Dan seperti biasa, jika Anda tahu tambahan dari open source big data dan / atau tool Hadoop yang harus di tambahkan pada daftar artikel ini, jangan ragu untuk dicatat dalam bagian Komentar di bawah ini.

Kumpulan Tool Big Data yang Terkait dengan Hadoop


1 Hadoop

2 Ambari

3 Avro

4 Cascading

5 Chukwa

6 Flume

7 HBase

8 Hadoop Distributed File System

9 Hive

10 Hivemall

11 Mahout

12 MapReduce

13 Oozie

14 Pig

15 Sqoop

16 Spark

17 Tez

18 Zookeeper


Kumpulan Tool yang Terkait dengan Hadoop


#1. Hadoop

Open Source Tools Untuk Big Data
Hadoop


Pada bahasan pertama mengenai tool big data adalah proyek Apache Hadoop yang saat ini sudah menjadi identik dengan Big Data. Hal ini telah berkembang menjadi sebuah ekosistem seluruh tool open source untuk menyelesaikan masalah komputasi terdistribusi dengan sangat scalable. Sistem operasi yang mendukung Apache Hadoop: Windows, Linux, OS X.

#2. Ambari

Open Source Tools Untuk Big Data
Ambari


Bagian dari ekosistem Hadoop, proyek Apache ini menawarkan antarmuka berbasis Web intuitif untuk provisioning, pengelolaan, dan pemantauan cluster Hadoop. Tool Ambari ini juga menyediakan API RESTful untuk pengembang yang ingin mengintegrasikan kemampuan Ambari ke dalam aplikasi mereka sendiri. Sistem operasi yang mendukung Ambari: Windows, Linux, OS X.

#3. Avro

Open Source Tools Untuk Big Data
Avro


Proyek Apache ini menyediakan sistem data serialisasi dengan struktur data yang kaya dan memiliki format yang kompak. Skema didefinisikan dengan JSON dan terintegrasi dengan mudah dengan bahasa yang dinamis. Sistem operasi yang mendukung Avro: OS Independen alias bebas menggunakan OS apa saja.

#4. Cascading

Open Source Tools Untuk Big Data
Cascading


Cascading adalah sebuah platform pengembangan aplikasi berdasarkan Hadoop. Cascading memiliki dukungan komersial dan pelatihan yang telah tersedia. Sistem operasi yang mendukung Cascading : OS Independen.

#5. Chukwa

Open Source Tools Untuk Big Data
Chukwa


Bekerja berdasarkan Hadoop, Chukwa mengumpulkan data dari sistem terdistribusi dengan skala besar untuk tujuan monitoring. Penggunaan chukwa ini juga mencakup alat untuk menganalisis dan menampilkan data. Sistem operasi yang mendukung tool Chukwa: Linux, OS X.

#6. Flume

Open Source Tools Untuk Big Data
Flume


Flume mengumpulkan data log dari aplikasi lain dan mengirimkannya ke Hadoop. Di dalam website resminya menawarkan, " It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms." Sistem operasi yang mendukung Flume : Linux, OS X.

#7. HBase

Open Source Tools Untuk Big Data
HBase


Dirancang untuk tabel yang sangat besar dengan miliaran baris dan jutaan kolom, HBase adalah database terdistribusi yang menyediakan random akses real-time baca / tulis data besar. Hal ini agak mirip dengan Google Bigtable, tapi dibangun di atas Hadoop dan HDFS. Sistem operasi yang mendukung HBase : OS Independen.

#8. Hadoop Distributed File System

Open Source Tools Untuk Big Data


HDFS adalah sistem file untuk Hadoop, tetapi juga dapat digunakan sebagai standalone distributed file system. HDFS berbasis Java, fault-toleran, sangat scalable dan sangat dapat dikonfigurasi. Sistem operasi yang mendukung HDFS: Windows, Linux, OS X.

#9. Hive

Open Source Tools Untuk Big Data
HiveLogo


Apache Hive adalah data warehouse untuk ekosistem Hadoop. Hal ini memungkinkan pengguna untuk query dan mengelola big data menggunakan HiveQL, bahasa yang mirip dengan SQL. Sistem operasi yang mendukung Hive : OS Independen.

#10. Hivemall

Hivemall adalah kumpulan algoritma machine learning untuk Hive. Ini mencakup algoritma yang sangat terukur untuk klasifikasi, regresi, rekomendasi, k-nearest neighbor, deteksi anomali dan fitur hashing. Sistem operasi yang mendukung tool Hivemall : OS Independen.

#11. Mahout

Open Source Tools Untuk Big Data
Mahout Logo


Menurut website-nya, tujuan proyek Mahout adalah "untuk membangun lingkungan untuk secara cepat mampu membuat scalable performance pada aplikasi machine learning." Ini mencakup berbagai algoritma untuk melakukan data mining pada Hadoop MapReduce, serta beberapa algoritma baru untuk lingkungan Scala dan Spark. Sistem operasi yang mendukung : OS Independen.

#12. MapReduce

Merupakan bagian integral dari Hadoop, MapReduce merupakan model pemrograman yang menyediakan cara untuk memproses dataset terdistribusi dengan ukuran yang besar. Ini pada awalnya dikembangkan oleh Google, dan juga digunakan oleh beberapa tool big data lainnya di daftar ini, termasuk CouchDB, MongoDB dan Riak. Sistem operasi yang mendukung : OS Independen.

#13. Oozie

Open Source Tools Untuk Big Data
Oozie Logo


Scheduler alur kerja ini dirancang khusus untuk mengelola pekerjaan Hadoop. Hal ini dapat memicu job oleh waktu atau oleh ketersediaan data, dan terintegrasi dengan MapReduce, Pig, Hive, Sqoop dan banyak tool lainnya yang terkait. Sistem operasi yang mendukung Oozie : Linux, OS X.

#14. Pig

Open Source Tools Untuk Big Data
Pig Logo


Apache Pig adalah platform untuk analisis big data yang terdistribusi. Hal ini bergantung pada bahasa pemrograman yang disebut Pig Latin, yang menawarkan pemrograman parallel yang disederhanakan, optimasi dan diperpanjang. Sistem operasi yang mendukung Pig: OS Independen.

#15. Sqoop

Open Source Tools Untuk Big Data
Sqoop Architecture


Pada skala enterprise sering kali perlu untuk mentransfer data antara database relasional dan Hadoop, dan Sqoop adalah merupakan salah satu tool yang dapat melakukan pekerjaan tersebut. Dalam hal ini dapat mengimpor data ke Hive atau HBase dan ekspor dari Hadoop ke RDBMS. Sistem operasi yang mendukung sqoop: OS Independen.

#16. Spark

Open Source Tools Untuk Big Data
Spark Logo


Sebuah alternatif untuk MapReduce, Spark adalah mesin pengolahan data. Spark mengklaim sampai 100 kali lebih cepat dari MapReduce bila digunakan dalam memori atau 10 kali lebih cepat bila digunakan pada disk. Tool ini dapat digunakan bersama Hadoop, dengan Apache Mesos, atau digunakan secara sendiri. Sistem operasi yang mendukung spark: Windows, Linux, OS X.

#17. Tez

Open Source Tools Untuk Big Data


Dibangun di atas Apache Hadoop YARN, Tez adalah "sebuah kerangka aplikasi yang memungkinkan untuk tugas yang kompleks directed-acyclic-graph untuk pengolahan data." Hal ini memungkinkan Hive dan Pig untuk menyederhanakan pekerjaan rumit lainnya yang akan mengambil beberapa langkah. Sistem operasi yang mendukung Tez: Windows, Linux, OS X.

#18. Zookeeper

Open Source Tools Untuk Big Data
Zookeeper Logo


Tool big data ini secara adminstratif menggambarkan dirinya sebagai "layanan terpusat untuk mempertahankan informasi konfigurasi, penamaan, menyediakan sinkronisasi terdistribusi, dan menyediakan layanan kelompok." Hal ini memungkinkan node dalam cluster Hadoop untuk saling berkoordinasi. Sistem operasi yang mendukung zookeper: Linux, Windows (pengembangan saja), OS X (pembangunan saja).

Demikianlah tadi daftar 18 tool big data yang terkait dengan hadoop. Apabila anda mengetahui masih ada tool lain yang terkait dengan big data, anda dapat menambahkan dengan menuliskannya di dalam komentar di bawah.