Gambaran Keseluruhan Ringkas Apache Hadoop Framework

Hadoop, yang sekarang dikenal sebagai Apache Hadoop, dinamai gajah mainan milik anak pengasas Doug Cutting. Doug memilih nama untuk projek sumber terbuka kerana senang mengeja, menyebut, dan mencari di hasil carian. Gajah boneka kuning asli yang mengilhami nama itu muncul di logo Hadoop.

Apa itu Apache Hadoop?

Perpustakaan perisian Apache Hadoop adalah kerangka yang memungkinkan untuk memproses pengagihan set data besar di kelompok komputer menggunakan model pengaturcaraan sederhana. Ia dirancang untuk meningkatkan dari pelayan tunggal hingga ribuan mesin, masing-masing menawarkan pengiraan dan penyimpanan tempatan. Daripada bergantung pada perkakasan untuk memberikan ketersediaan tinggi, perpustakaan itu sendiri dirancang untuk mengesan dan menangani kegagalan pada lapisan aplikasi, sehingga memberikan perkhidmatan yang sangat tersedia di atas sekumpulan komputer, yang masing-masing mungkin terdedah kepada kegagalan.

Sumber: Apache Hadoop

Pada tahun 2003 Google mengeluarkan kertas mereka di Sistem Fail Google (GFS). Ia memperincikan sistem fail diedarkan proprietari yang bertujuan untuk menyediakan akses yang efisien ke sejumlah besar data menggunakan perkakasan komoditi. Setahun kemudian, Google mengeluarkan makalah lain yang berjudul "MapReduce: Simplified Data Processing on Large Clusters." Pada masa itu, Doug bekerja di Yahoo. Makalah ini menjadi inspirasi untuk projek sumber terbuka miliknya Apache Nutch. Pada tahun 2006, komponen projek yang kemudian dikenali sebagai Hadoop keluar dari Apache Nutch dan dibebaskan.

Mengapa Hadoop berguna?

Setiap hari, berbilion gigabait data dibuat dalam pelbagai bentuk. Beberapa contoh data yang sering dibuat adalah:

  • Metadata dari penggunaan telefon
  • Log laman web
  • Urus niaga pembelian kad kredit
  • Siaran media sosial
  • Video
  • Maklumat yang dikumpulkan dari alat perubatan

"Big data" merujuk pada kumpulan data yang terlalu besar atau kompleks untuk diproses menggunakan aplikasi perisian tradisional. Faktor yang menyumbang kepada kerumitan data adalah ukuran set data, kelajuan pemproses yang tersedia, dan format data.

Pada saat dilancarkan, Hadoop mampu memproses data pada skala yang lebih besar daripada perisian tradisional.

Teras Hadoop

Data disimpan dalam Sistem Fail Terdistribusi Hadoop (HDFS). Dengan pengurangan peta, Hadoop memproses data dalam bahagian selari (memproses beberapa bahagian pada masa yang sama) dan bukannya dalam satu barisan. Ini mengurangkan masa yang diperlukan untuk memproses kumpulan data yang besar.

HDFS berfungsi dengan menyimpan fail besar yang dibahagikan kepada beberapa bahagian, dan menirunya di banyak pelayan. Memiliki banyak salinan fail akan menyebabkan kelebihan, yang melindungi daripada kehilangan data.

Ekosistem Hadoop

Banyak pakej perisian lain ada untuk melengkapkan Hadoop. Program-program ini merangkumi Ekosistem Hadoop. Beberapa program memudahkan memuat data ke dalam kluster Hadoop, sementara yang lain menjadikan Hadoop lebih mudah digunakan.

Ekosistem Hadoop merangkumi:

  • Sarang Apache
  • Babi Apache
  • Apache HBase
  • Apache Phoenix
  • Apache Spark
  • Penjaga Kebun Binatang Apache
  • Cloudera Impala
  • Bulu Apache
  • Apache Sqoop
  • Apache Oozie

Maklumat lanjut:

  • Apache Hadoop