ADS Codex menerjemahkan data biner menjadi nukleotida yang dapat diurutkan dalam molekul sebagai file untuk penyimpanan data, membawa potensi penghematan biaya dan penyimpanan dingin yang ringkas.
Konsep Penyimpanan Data DNA
DNA menawarkan cara ringkas untuk menyimpan data dalam jumlah besar dengan hemat biaya. Los Alamos National Laboratory telah mengembangkan ADS Codex untuk menerjemahkan 0 dan 1 file komputer digital ke dalam kode empat huruf DNA.
ADS Codex menerjemahkan data biner menjadi nukleotida yang dapat diurutkan dalam molekul sebagai file untuk pengambilan nanti, membawa potensi penghematan biaya dan penyimpanan dingin yang ringkas.
Untuk mendukung proyek kolaboratif besar untuk menyimpan sejumlah besar data dalam molekul DNA , tim yang dipimpin Laboratorium Nasional Los Alamos telah mengembangkan teknologi kunci yang memungkinkan yang menerjemahkan file biner digital ke dalam alfabet genetik empat huruf yang diperlukan untuk penyimpanan molekul.
“Perangkat lunak kami, Adaptive DNA Storage Codec (ADS Codex), menerjemahkan file data dari apa yang dipahami komputer menjadi apa yang dipahami biologi,” kata Latchesar Ionkov, ilmuwan komputer di Los Alamos dan peneliti utama proyek tersebut. “Ini seperti menerjemahkan dari bahasa Inggris ke bahasa Mandarin, hanya saja lebih sulit.”
“Perangkat lunak kami, Adaptive DNA Storage Codec (ADS Codex), menerjemahkan file data dari apa yang dipahami komputer menjadi apa yang dipahami biologi.” — Latchesar Ionkov sebagaimana dikutif dari Los Alamos National labotory (1/4/2021)
Pekerjaan ini merupakan bagian penting dari program Intelligence Advanced Research Projects Activity (IARPA) Molecular Information Storage (MIST) untuk menghadirkan penyimpanan yang lebih murah, lebih besar, dan tahan lama untuk operasi data besar di pemerintahan dan sektor swasta. Tujuan jangka pendek MIST adalah menulis 1 terabyte—satu triliun byte—dan membaca 10 terabyte dalam 24 jam seharga $1.000. Tim lain sedang menyempurnakan komponen penulisan (sintesis DNA) dan pengambilan (pengurutan DNA) dari inisiatif tersebut, sementara Los Alamos mengerjakan pengkodean dan penguraian kode.
“DNA menawarkan solusi yang menjanjikan dibandingkan dengan pita, metode penyimpanan dingin yang berlaku, yang merupakan teknologi yang berasal dari tahun 1951,” kata Bradley Settlemyer, peneliti sistem penyimpanan dan pemrogram sistem yang berspesialisasi dalam komputasi kinerja tinggi di Los Alamos. “Penyimpanan DNA dapat mengganggu cara kita berpikir tentang penyimpanan arsip, karena penyimpanan data sangat lama dan kepadatan data sangat tinggi. Anda dapat menyimpan semua YouTube di lemari es Anda, bukan di pusat data berhektar-hektar. Tetapi para peneliti pertama-tama harus menyelesaikan beberapa rintangan teknologi yang menakutkan terkait dengan mengintegrasikan teknologi yang berbeda.”
Tidak hilang dalam terjemahan
Dibandingkan dengan metode penyimpanan jangka panjang tradisional yang menggunakan gulungan pita magnetik seukuran pizza, penyimpanan DNA berpotensi lebih murah, jauh lebih kompak secara fisik, lebih hemat energi, dan lebih tahan lama—DNA bertahan selama ratusan tahun dan tidak memerlukan pemeliharaan. File yang disimpan dalam DNA juga dapat dengan mudah disalin dengan biaya yang dapat diabaikan.
Kepadatan penyimpanan DNA sangat mengejutkan. Pertimbangkan ini: umat manusia akan menghasilkan sekitar 33 zettabytes pada tahun 2025—yaitu 3,3 diikuti oleh 22 nol. Semua informasi itu akan masuk ke dalam bola pingpong, dengan ruang kosong. Perpustakaan Kongres memiliki sekitar 74 terabyte, atau 74 juta juta byte, informasi—6.000 perpustakaan semacam itu akan muat dalam arsip DNA seukuran biji poppy. Facebook 300 petabyte (300.000 terabyte) dapat disimpan dalam setengah biji poppy.
Pengkodean file biner menjadi molekul dilakukan dengan sintesis DNA. Sebuah teknologi yang cukup dipahami dengan baik, sintesis mengatur blok bangunan DNA ke dalam berbagai pengaturan, yang ditunjukkan oleh urutan huruf A, C, G, dan T. Mereka adalah dasar dari semua kode DNA, memberikan instruksi untuk membangun setiap makhluk hidup. hal di bumi.
Codex ADS tim Los Alamos memberi tahu dengan tepat bagaimana menerjemahkan data biner—semua 0 dan 1—ke dalam urutan empat kombinasi huruf A, C, G, dan T. Codex juga menangani decoding kembali ke biner. DNA dapat disintesis dengan beberapa metode, dan ADS Codex dapat mengakomodasi semuanya. Tim Los Alamos telah menyelesaikan ADS Codex versi 1.0 dan pada November 2021 berencana menggunakannya untuk mengevaluasi sistem penyimpanan dan pengambilan yang dikembangkan oleh tim MIST lainnya.
Sayangnya, sintesis DNA terkadang membuat kesalahan dalam pengkodean, sehingga ADS Codex mengatasi dua kendala besar untuk membuat file data DNA.
Pertama, dibandingkan dengan sistem digital tradisional, tingkat kesalahan saat menulis ke penyimpanan molekuler sangat tinggi, sehingga tim harus mencari strategi baru untuk koreksi kesalahan. Kedua, kesalahan dalam penyimpanan DNA muncul dari sumber yang berbeda dari yang terjadi di dunia digital, membuat kesalahan lebih sulit untuk diperbaiki.
“Pada hard disk digital, kesalahan biner terjadi ketika 0 membalik ke 1, atau sebaliknya, tetapi dengan DNA, Anda memiliki lebih banyak masalah yang berasal dari kesalahan penyisipan dan penghapusan,” kata Ionkov. “Kamu sedang menulis A, C, G, dan T, tetapi terkadang kamu mencoba menulis A, dan tidak ada yang muncul, sehingga urutan hurufnya bergeser ke kiri, atau mengetik AAA. Kode koreksi kesalahan normal tidak bekerja dengan baik dengan itu.”
ADS Codex menambahkan informasi tambahan yang disebut kode deteksi kesalahan yang dapat digunakan untuk memvalidasi data. Ketika perangkat lunak mengubah data kembali ke biner, ia menguji apakah kodenya cocok. Jika tidak, ACOMA mencoba menghapus atau menambahkan nukleotida hingga verifikasi berhasil.
Peningkatan pintar
Gudang besar berisi pusat data terbesar saat ini, dengan penyimpanan dalam skala exabyte—yaitu satu triliun juta byte atau lebih. Dengan biaya miliaran untuk membangun, memberi daya, dan menjalankan, jenis pusat data berbasis digital ini mungkin bukan pilihan terbaik karena kebutuhan akan penyimpanan data terus tumbuh secara eksponensial.
Penyimpanan jangka panjang dengan media yang lebih murah penting untuk misi keamanan nasional Los Alamos dan lainnya. “Di Los Alamos, kami memiliki beberapa data digital tertua dan penyimpanan data terbesar, mulai dari tahun 1940-an,” kata Settlemyer. “Ini masih memiliki nilai yang luar biasa. Karena kami menyimpan data selamanya, kami telah berada di ujung tombak untuk waktu yang lama dalam hal menemukan solusi penyimpanan dingin.”
Settlemyer mengatakan penyimpanan DNA berpotensi menjadi teknologi yang mengganggu karena melintasi bidang yang matang dengan inovasi. Proyek MIST merangsang koalisi baru di antara vendor penyimpanan lama yang membuat pita, perusahaan sintesis DNA, perusahaan pengurutan DNA, dan organisasi komputasi berkinerja tinggi seperti Los Alamos yang mendorong komputer ke rezim simulasi berbasis sains skala besar yang menghasilkan jumlah data yang membingungkan yang harus dianalisis.
Mengetahui lebih dalam tentang DNA
Ketika kebanyakan orang memikirkan DNA, mereka memikirkan kehidupan, bukan komputer. Tetapi DNA itu sendiri adalah kode empat huruf untuk menyampaikan informasi tentang suatu organisme. Molekul DNA terbuat dari empat jenis basa, atau nukleotida, masing-masing diidentifikasi dengan huruf: adenin (A), timin (T), guanin (G), dan sitosin (C).
Basa-basa ini membungkus rantai bengkok di sekitar satu sama lain — heliks ganda yang sudah dikenal — untuk membentuk molekul. Susunan huruf-huruf ini menjadi urutan menciptakan kode yang memberi tahu organisme bagaimana membentuknya. Kumpulan lengkap molekul DNA membentuk genom—cetak biru tubuh Anda.
Dengan mensintesis molekul DNA—membuatnya dari awal—para peneliti telah menemukan bahwa mereka dapat menentukan, atau menulis, string panjang dari huruf A, C, G, dan T dan kemudian membaca urutan itu kembali. Prosesnya analog dengan bagaimana komputer menyimpan informasi menggunakan 0s dan 1s. Metode ini telah terbukti berhasil, tetapi membaca dan menulis file yang disandikan DNA saat ini membutuhkan waktu lama, kata Ionkov.
“Menambahkan satu nukleotida ke DNA sangat lambat. Butuh satu menit, ”kata Ionkov. “Bayangkan menulis file ke hard drive membutuhkan waktu lebih dari satu dekade. Jadi masalah itu diselesaikan dengan paralel secara masif. Anda menulis puluhan juta molekul secara bersamaan untuk mempercepatnya.”
Sementara berbagai perusahaan sedang mengerjakan berbagai cara mensintesis untuk mengatasi masalah ini, ADS Codex dapat disesuaikan dengan setiap pendekatan.
Pendanaan untuk ADS Codex disediakan oleh Intelligence Advanced Research Projects Activity (IARPA), sebuah lembaga penelitian di dalam Kantor Direktur Intelijen Nasional.
Tentang Laboratorium Nasional Los Alamos
Los Alamos National Laboratory, sebuah lembaga penelitian multidisiplin yang terlibat dalam ilmu strategis atas nama keamanan nasional, dikelola oleh Triad, organisasi ilmu keamanan nasional berorientasi layanan publik yang dimiliki oleh tiga anggota pendirinya: Battelle Memorial Institute (Battelle), Texas Sistem Universitas A&M (TAMUS), dan Bupati Universitas California (UC) untuk Administrasi Keamanan Nuklir Nasional Departemen Energi.
Los Alamos meningkatkan keamanan nasional dengan memastikan keselamatan dan keandalan cadangan nuklir AS, mengembangkan teknologi untuk mengurangi ancaman dari senjata pemusnah massal, dan memecahkan masalah yang berkaitan dengan energi, lingkungan, infrastruktur, kesehatan, dan masalah keamanan global.