Ini adalah sumber data terbuka percuma yang boleh digunakan oleh sesiapa sahaja

Apa itu Data Terbuka?

Secara ringkas, Open Data bermaksud jenis data yang terbuka untuk siapa saja dan semua orang untuk akses, pengubahsuaian, penggunaan semula, dan perkongsian.

Data Terbuka berasal dari pelbagai "pergerakan terbuka" seperti sumber terbuka, perkakasan terbuka, pemerintahan terbuka, sains terbuka dll.

Kerajaan, organisasi bebas, dan agensi telah tampil untuk membuka pintu data untuk membuat lebih banyak dan lebih banyak data terbuka untuk akses percuma dan mudah.

Mengapa Data Terbuka Penting?

Data terbuka adalah mustahak kerana dunia semakin berkembang berdasarkan data. Tetapi jika ada batasan pada akses dan penggunaan data, idea perniagaan dan tadbir urus berdasarkan data tidak akan terwujud.

Oleh itu, data terbuka mempunyai tempatnya yang tersendiri. Ini dapat memungkinkan pemahaman yang lebih lengkap mengenai masalah global dan masalah universal. Ini dapat memberi dorongan besar kepada perniagaan. Ini boleh menjadi dorongan untuk pembelajaran mesin. Ia dapat membantu memerangi masalah global seperti penyakit atau jenayah atau kelaparan. Data terbuka dapat memperkasakan rakyat dan dengan itu dapat memperkukuhkan demokrasi. Ia dapat melancarkan proses dan sistem yang telah dibina oleh masyarakat dan pemerintah. Ini dapat membantu mengubah cara kita memahami dan terlibat dengan dunia.

Jadi inilah senarai 15 sumber Data Terbuka yang hebat:

1. Data Terbuka Bank Dunia

Sebagai repositori data paling komprehensif di dunia mengenai apa yang berlaku di berbagai negara di seluruh dunia, Data Terbuka Bank Dunia merupakan sumber penting bagi Data Terbuka. Ini juga menyediakan akses ke set data lain yang disebutkan dalam katalog data.

Data Terbuka Bank Dunia sangat besar kerana ia mempunyai 3000 set data dan 14000 indikator yang merangkumi mikrodata, statistik siri masa, dan data geospasial.

Mengakses dan menemui data yang anda mahukan juga cukup mudah. Yang perlu anda lakukan ialah menentukan nama penunjuk, negara atau topik dan ia akan membuka harta karun Data Terbuka untuk anda. Ini juga membolehkan anda memuat turun data dalam format yang berbeza seperti CSV, Excel, dan XML.

Sekiranya anda seorang wartawan atau akademik, anda akan terpesona dengan pelbagai alat yang tersedia untuk anda. Anda boleh mendapatkan akses ke alat analisis dan visualisasi yang dapat meningkatkan penyelidikan anda. Ia dapat memberi pemahaman yang lebih mendalam dan lebih baik mengenai masalah global.

Anda boleh mendapatkan akses ke API yang dapat membantu anda membuat visualisasi data yang anda perlukan, kombinasi langsung dengan sumber data lain dan banyak lagi ciri seperti itu.

Oleh itu, tidak hairanlah Data Terbuka Bank Dunia mendahului senarai sumber Open Data!

2. WHO (Pertubuhan Kesihatan Sedunia) - Buka penyimpanan data

Repositori Data Terbuka WHO adalah bagaimana WHO memantau statistik khusus kesihatan dari 194 Negara Anggota.

Repositori memastikan data disusun secara sistematik. Ia dapat diakses sesuai dengan keperluan yang berbeza. Sebagai contoh, sama ada kematian atau beban penyakit, seseorang dapat mengakses data yang diklasifikasikan di bawah 100 atau lebih kategori seperti Matlamat Pembangunan Milenium (pemakanan anak, kesihatan anak, kesihatan ibu dan pembiakan, imunisasi, HIV / AIDS, batuk kering, malaria, penyakit yang diabaikan, air dan sanitasi), penyakit tidak berjangkit dan faktor risiko, penyakit rawan wabak, sistem kesihatan, kesihatan persekitaran, keganasan dan kecederaan, ekuiti dll.

Untuk keperluan khusus anda, anda dapat melalui set data mengikut tema, kategori, indikator, dan negara.

Perkara yang baik adalah mungkin untuk memuat turun data yang anda perlukan dalam Format Excel. Anda juga dapat memantau dan menganalisis data dengan menggunakan portal datanya.

API untuk kandungan data dan statistik Organisasi Kesihatan Sedunia juga tersedia.

3. Penjelajah Data Awam Google

Dilancarkan pada tahun 2010, Penjelajah Data Awam Google dapat membantu anda meneroka sejumlah besar kumpulan data kepentingan awam. Anda dapat memvisualisasikan dan menyampaikan data untuk kegunaan masing-masing.

Ia menjadikan data dari pelbagai agensi dan sumber tersedia. Contohnya, anda dapat mengakses data dari Bank Dunia, Biro Statistik Tenaga Kerja AS dan Biro AS, OECD, IMF, dan lain-lain.

Pemangku kepentingan yang berbeza mengakses data ini untuk pelbagai tujuan. Sama ada anda pelajar atau wartawan, sama ada anda pembuat dasar atau akademik, anda boleh memanfaatkan alat ini untuk membuat visualisasi data awam.

Anda boleh menggunakan pelbagai cara untuk mewakili data seperti grafik garis, grafik bar, peta dan carta gelembung dengan bantuan Data Explorer.

Bahagian yang terbaik ialah anda dapat melihat visualisasi ini cukup dinamik. Ini bermaksud bahawa anda akan melihat mereka berubah dari masa ke masa. Anda boleh menukar topik, fokus pada entri yang berbeza dan mengubah skala.

Ia juga mudah dikongsi. Sebaik sahaja anda menyiapkan carta, anda boleh memasukkannya ke laman web atau blog anda atau hanya berkongsi pautan dengan rakan anda.

4. Pendaftaran Data Terbuka di AWS (RODA)

Ini adalah repositori yang mengandungi set data awam. Ini adalah data yang tersedia dari sumber AWS.

Mengenai RODA, anda boleh menemui dan berkongsi data yang tersedia untuk umum.

Di RODA, anda boleh menggunakan kata kunci dan tag untuk jenis data biasa seperti genomik, citra satelit dan pengangkutan untuk mencari data apa pun yang anda cari. Semua ini boleh dilakukan di antara muka web yang mudah.

Untuk setiap set data, anda akan menemui halaman terperinci, contoh penggunaan, maklumat lesen dan tutorial atau aplikasi yang menggunakan data ini.

Dengan menggunakan pelbagai produk analisis data dan data, anda dapat menganalisis data terbuka dan membina perkhidmatan apa sahaja yang anda mahukan.

Walaupun data yang anda akses tersedia melalui sumber AWS, anda harus ingat bahawa data tersebut tidak disediakan oleh AWS. Data ini dimiliki oleh pelbagai agensi, organisasi kerajaan, penyelidik, perniagaan dan individu.

5. Portal Data Terbuka Kesatuan Eropah

Anda boleh mengakses apa sahaja data terbuka yang diterbitkan oleh institusi, agensi, dan organisasi EU dalam satu platform iaitu European Data Open Portal.

Portal Data Terbuka EU adalah tempat bagi data terbuka penting yang berkaitan dengan domain dasar EU. Domain kebijakan ini merangkumi ekonomi, pekerjaan, sains, persekitaran, dan pendidikan.

Kira-kira 70 institusi, organisasi atau jabatan EU seperti Eurostat, Agensi Alam Sekitar Eropah, Pusat Penyelidikan Bersama dan Direktorat Jeneral Suruhanjaya Eropah dan Agensi EU yang lain telah menjadikan kumpulan data mereka umum dan membenarkan akses. Set data ini telah melebihi jumlah 11700 hingga kini.

Portal ini membolehkan akses mudah. Anda boleh mencari, meneroka, memaut, memuat turun dan menggunakan semula data dengan mudah melalui katalog metadata biasa. Anda boleh melakukannya untuk tujuan khusus anda. Ini boleh menjadi tujuan komersial atau bukan komersial.

Anda boleh mencari katalog metadata melalui enjin carian interaktif (tab Data) dan pertanyaan SPARQL (tab Data terpaut).

Dengan menggunakan katalog ini, anda dapat memperoleh akses ke data yang tersimpan di laman web institusi, agensi dan organisasi EU yang berbeza.

6. FiveThirtyEight

Ini adalah laman web yang bagus untuk kewartawanan berdasarkan data dan bercerita.

Ia menyediakan pelbagai sumber data untuk pelbagai sektor seperti politik, sukan, sains, ekonomi dan lain-lain. Anda juga boleh memuat turun data.

Apabila anda mengakses data, anda akan mendapat penjelasan ringkas mengenai setiap set data berkenaan dengan sumbernya. Anda juga akan mengetahui apa maksudnya dan cara menggunakannya.

Untuk menjadikan data ini mesra pengguna, data menyediakan set data dalam format yang sederhana dan bukan proprietari seperti fail CSV. Tidak perlu dikatakan, format ini dapat diakses dan diproses dengan mudah oleh manusia dan juga mesin.

Dengan bantuan set data ini, anda dapat membuat cerita dan visualisasi mengikut kehendak dan pilihan anda sendiri.

7. Biro Banci AS

Biro Banci AS adalah agensi statistik terbesar kerajaan persekutuan. Ia menyimpan dan memberikan fakta dan data yang boleh dipercayai mengenai orang, tempat, dan ekonomi Amerika.

Biro Banci menganggap misi mulia untuk memperluas perkhidmatannya sebagai penyedia data berkualiti yang paling dipercayai.

Sama ada kerajaan persekutuan, negeri, tempatan atau suku, semuanya menggunakan data banci untuk pelbagai tujuan. Pemerintah-pemerintah ini menggunakan data ini untuk menentukan lokasi perumahan dan kemudahan awam baru. Mereka juga menggunakannya pada saat memeriksa ciri-ciri demografi masyarakat, negara bagian, dan AS.

Data ini juga digunakan dalam perencanaan sistem pengangkutan dan jalan raya. Ketika memutuskan untuk menentukan kuota dan membuat kawasan polis dan bomba, data ini sangat berguna. Apabila pemerintah membuat kawasan pilihan raya, sekolah, utiliti dll yang dilokalkan, mereka menggunakan data ini. Ini adalah praktik untuk mengumpulkan maklumat penduduk sekali dalam satu dekad dan data ini cukup berguna untuk mencapai yang sama.

Terdapat pelbagai alat seperti American Fact Finder, Census Data Explorer dan Quick Facts yang berguna sekiranya anda ingin mencari, menyesuaikan dan memvisualisasikan data.

Sebagai contoh, Quick Facts sahaja mengandungi statistik untuk semua negeri, daerah, bandar dan juga bandar dengan jumlah penduduk 5000 atau lebih.

Begitu juga, American Fact Finder dapat membantu anda menemui fakta-fakta popular seperti populasi, pendapatan dan lain-lain. Ia memberikan maklumat yang sering diminta.

Perkara yang baik ialah anda dapat mencari, berinteraksi dengan data, mengenal statistik popular dan melihat carta yang berkaitan melalui Census Data Explorer. Selain itu, anda juga dapat menggunakan alat visual untuk menyesuaikan data pada pengalaman peta interaktif.

8. Data.gov

Data.gov adalah harta karun data terbuka pemerintah AS. Baru-baru ini keputusan dibuat untuk membuat semua data kerajaan tersedia secara percuma.

Ketika dilancarkan, hanya ada 47. Kini terdapat 180,000 set data.

Mengapa Data.gov merupakan sumber yang hebat kerana anda dapat mencari data, alat, dan sumber yang dapat anda gunakan untuk pelbagai tujuan. Anda boleh menjalankan penyelidikan, mengembangkan aplikasi web dan mudah alih anda dan bahkan merancang visualisasi data.

Yang perlu anda lakukan ialah memasukkan kata kunci di kotak carian dan melihat-lihat jenis, tag, format, kumpulan, jenis organisasi, organisasi, dan kategori. Ini akan memudahkan akses ke data atau set data yang anda perlukan.

Data.gov mengikuti Skema Data Terbuka Projek - sekumpulan bidang yang diperlukan (Tajuk, Keterangan, Teg, Kemas kini Terakhir, Penerbit, Nama Perhubungan, dll.) Untuk setiap set data yang dipaparkan di Data.gov.

9. DBpedia

Seperti yang anda ketahui, Wikipedia adalah sumber maklumat yang hebat. DBpedia bertujuan untuk mendapatkan kandungan berstruktur dari maklumat berharga yang dibuat oleh Wikipedia.

Dengan DBpedia, anda boleh mencari dan meneroka secara semantik hubungan dan sifat sumber Wikipedia. Ini merangkumi pautan ke set data lain yang berkaitan.

Terdapat kira-kira 4.58 juta entiti dalam set data DBpedia. 4.22 juta diklasifikasikan dalam ontologi, termasuk 1.445.000 orang, 735.000 tempat, 123.000 album muzik, 87.000 filem, 19.000 permainan video, 241.000 organisasi, 251.000 spesies dan 6.000 penyakit.

Terdapat label dan abstrak untuk entiti ini dalam sekitar 125 bahasa. Terdapat 25.2 juta pautan ke gambar. Terdapat 29.8 juta pautan ke laman web luaran.

Yang perlu anda lakukan untuk menggunakan DBpedia ialah menulis pertanyaan SPARQL terhadap titik akhir atau dengan memuat turun lambakan mereka.

DBpedia telah menguntungkan beberapa syarikat, seperti Apple (melalui Siri), Google (melalui Freebase dan Graf Pengetahuan Google), dan IBM (melalui Watson), dan khususnya projek berprestij masing-masing yang berkaitan dengan kecerdasan buatan.

10. data OpenCodeCamp Open

Ia adalah komuniti sumber terbuka. Mengapa penting adalah kerana ia membolehkan anda membuat kod, membina projek pro bono selepas organisasi bukan untung dan mendapatkan pekerjaan sebagai pembangun.

Untuk mewujudkannya, komuniti freeCodeCamp.org menyediakan sejumlah besar data setiap bulan. Mereka telah mengubahnya menjadi data terbuka.

Anda akan menemui pelbagai perkara di repositori ini. Anda boleh mencari set data, analisis projek yang sama dan demo berdasarkan data freeCodeCamp. Anda juga boleh mencari pautan ke projek luaran yang melibatkan data freeCodeCamp.

Ini dapat membantu anda dengan pelbagai projek dan tugas yang mungkin anda fikirkan. Sama ada analisis web, analisis media sosial, analisis rangkaian sosial, analisis pendidikan, visualisasi data, pengembangan web berdasarkan data atau bot, data yang ditawarkan oleh komuniti ini sangat berguna dan berkesan.

11. Set Data Terbuka Yelp

Set data Yelp pada dasarnya adalah sebahagian daripada perniagaan, ulasan dan data pengguna kita sendiri untuk digunakan dalam usaha peribadi, pendidikan dan akademik.

Terdapat 5,996,996 ulasan, 188,593 perniagaan, 280,991 gambar dan 10 kawasan metropolitan yang termasuk dalam Yelp Open Datasets.

Anda boleh menggunakannya untuk tujuan yang berbeza. Oleh kerana ia tersedia sebagai fail JSON, anda boleh menggunakannya untuk mengajar pelajar mengenai pangkalan data. Anda boleh menggunakannya untuk belajar NLP atau untuk sampel data pengeluaran semasa anda memahami cara merancang aplikasi mudah alih.

Dalam set data ini, anda akan menemui setiap fail yang terdiri daripada satu jenis objek, satu objek JSON setiap baris.

12. Set Data UNICEF

Oleh kerana UNICEF menangani pelbagai masalah kritikal, ia telah mengumpulkan data yang relevan mengenai pendidikan, pekerja anak, kecacatan anak, kematian anak, kematian ibu, air dan sanitasi, berat lahir rendah, perawatan antenatal, radang paru-paru, malaria, kekurangan yodium gangguan, pemutihan / pemotongan genital wanita, dan remaja.

Set data terbuka UNICEF yang diterbitkan di Pendaftaran IATI: //www.iatiregistry.org/publisher/unicef ​​telah diekstrak secara langsung dari sistem operasi UNICEF (VISION) dan sistem data lain, dan ia mencerminkan input yang dibuat oleh setiap pejabat UNICEF.

Perkara yang baik ialah terdapat kemas kini berkala mengenai set data ini. Setiap bulan, data dikemas kini agar lebih komprehensif, boleh dipercayai dan tepat.

Anda boleh mengakses data ini dengan bebas dan mudah. Untuk melakukannya, anda boleh memuat turun data ini dalam format CSV. Anda juga dapat melihat data sampel sebelum memuat turunnya.

Walaupun ada yang dapat meneroka dan memvisualisasikan kumpulan data UNICEF, terdapat tiga penerbit utama:

PORTAL TRANSPARENSI AID UNICEF: Anda boleh mengakses set data dengan lebih mudah jika anda menggunakan portal ini. Ini juga merangkumi perincian untuk setiap negara tempat UNICEF bekerja.

Penerbit d-portal: Pada masa ini, ia berada di BETA. Dengan ini, portal, anda dapat meneroka data IATI.

Anda boleh mencari maklumat yang berkaitan dengan aktiviti pembangunan, anggaran dan lain-lain. Anda boleh meneroka maklumat ini mengikut negara.

Platform data penerbit: Di platform ini, anda dapat mengakses statistik, carta, dan metrik dengan mudah pada data yang diakses melalui Pendaftaran IATI. Sekiranya anda mengklik tajuk, anda juga boleh menyusun banyak jadual yang anda lihat di platform. Anda juga akan menemui banyak set data dalam platform dalam format JSON yang boleh dibaca mesin.

13. Kaggle

Kaggle sangat bagus kerana mempromosikan penggunaan format penerbitan set data yang berbeza. Walau bagaimanapun, bahagian yang lebih baik ialah sangat mengesyorkan agar penerbit set data berkongsi data mereka dalam format yang tidak dapat diakses dan bukan hak milik.

Platform ini menyokong format data terbuka dan mudah diakses. Penting bukan hanya untuk akses tetapi juga untuk apa sahaja yang anda mahu lakukan dengan data ini. Oleh itu, Kaggle Dataset dengan jelas menentukan format fail yang disyorkan semasa berkongsi data.

Perkara unik mengenai set data Kaggle adalah bahawa ia bukan hanya repositori data. Setiap set data bermaksud komuniti yang membolehkan anda membincangkan data, mengetahui kod dan teknik awam, dan konsep projek anda sendiri di Kernels.

CSV, JSON, SQLite, Archive, Big Query dll adalah jenis fail yang disokong oleh Kaggle. Anda boleh mencari pelbagai sumber untuk mula mengerjakan projek data terbuka anda.

Bahagian terbaiknya ialah Kaggle membolehkan anda menerbitkan dan berkongsi set data secara peribadi atau awam.

14. LODUM

Ini adalah inisiatif Data Terbuka University of Münster. Di bawah inisiatif ini, semua orang boleh mengakses maklumat umum mengenai universiti dalam format yang boleh dibaca mesin. Anda boleh mengakses dan menggunakannya kembali dengan mudah mengikut keperluan anda.

Data terbuka mengenai artifak saintifik dan dikodkan sebagai data terpaut disediakan di bawah projek ini.

Dengan bantuan Data Terpaut, dapat berkongsi dan menggunakan data, ontologi dan pelbagai standard metadata. Faktanya, ini adalah standar yang dapat diterima untuk menyediakan metadata, dan data itu sendiri di Web.

Pasukan LODUM telah memulakan LinkedUniversities.org dan LinkedScience.org.

Anda boleh menggunakan editor SPARQL atau paket SPARQL R untuk menganalisis data.

Pakej SPARQL memungkinkan untuk menyambung ke titik akhir SPARQL melalui HTTP, mengemukakan pertanyaan SELECT atau pertanyaan kemas kini (LOAD, INSERT, DELETE).

15. Repositori Pembelajaran Mesin UCI

Ia berfungsi sebagai repositori komprehensif pangkalan data, teori domain, dan penjana data yang digunakan oleh komuniti pembelajaran mesin untuk analisis empirik algoritma pembelajaran mesin.

Di repositori ini, terdapat, saat ini, 463 set data sebagai perkhidmatan kepada komuniti pembelajaran mesin.

Pusat Pembelajaran Mesin dan Sistem Pintar di University of California, Irvine menjadi tuan rumah dan mengekalkannya. David Aha pada asalnya membuatnya sebagai pelajar siswazah di UC Irvine.

Sejak itu, pelajar, pendidik, dan penyelidik di seluruh dunia menggunakannya sebagai sumber set data pembelajaran mesin yang boleh dipercayai.

Cara kerjanya ialah setiap set data mempunyai laman webnya yang tersendiri yang merangkumi semua butiran yang diketahui termasuk setiap penerbitan yang relevan yang menyelidiki. Anda boleh memuat turun set data ini sebagai fail ASCII, selalunya format CSV yang berguna.

Perincian set data diringkaskan oleh aspek seperti jenis atribut, jumlah kejadian, jumlah atribut dan tahun diterbitkan yang dapat disusun dan dicari.

Buka Portal Data dan Mesin Pencari:

Walaupun terdapat banyak set data yang diterbitkan oleh banyak agensi setiap tahun, sangat sedikit kumpulan data yang dikenali dan ditetapkan.

Alasan mengapa sangat sedikit kumpulan data seperti sumber yang berguna adalah bahawa adalah suatu cabaran untuk mengembangkan, mengurus dan menyediakan data dengan cara yang orang dan organisasi menganggapnya berguna dan mudah digunakan.

Walau bagaimanapun, sila dapatkan di bawah senarai beberapa portal dan platform data terbuka penting lain yang membolehkan pengguna mengakses data terbuka dengan mudah, mengkaji kesan dan mengumpulkan pandangan berharga.

  1. Pencarian set data Google
  2. Berbagai data
  3. Buka Kit Data
  4. Ckan
  5. Buka Monitor Data
  6. Plenar.io
  7. Buka Peta Kesan Data

Kesimpulannya

Data terbuka adalah susunan hari. Dunia secara beransur-ansur mula bergerak menuju sistem terbuka dan data terbuka betul-betul selaras dengan itu.

Perniagaan dan organisasi yang memanfaatkan data terbuka akan memperoleh daya saing dan dapat menguasai masa depan.