В разных странах мира продолжается активная работа над технологиями хранения данных на основе ДНК. Сочетание цифровых данных и биологических механизмов открывает новые перспективы, однако широкое внедрение этой технологии в индустрию пока затруднено рядом технических сложностей.
Использование ДНК для хранения информации уже несколько лет называют будущим индустрии хранения данных. Природа нашла способ эффективно кодировать информацию миллиарды лет назад, и ученые стремятся перенять этот опыт. Это особенно актуально в условиях стремительного роста объема данных – к концу 2025 года ожидается, что их общий объем достигнет 180 зеттабайт (180 миллиардов терабайт).
Израильские ученые из Техниона (Израильский технологический институт) разработали способ значительно ускорить процесс извлечения данных из ДНК, который является одним из ключевых вызовов для данной технологии. Исследовательская группа использовала специально обученную модель искусственного интеллекта, которая позволила ускорить процесс восстановления данных в 3 200 раз. Тем не менее, пока эта технология все еще уступает по скорости современным цифровым хранилищам.
Разработанный ИИ получил название DNAformer. Это трансформерная модель, обученная на синтетических данных, созданных в лаборатории Техниона. DNAformer способен восстанавливать точные последовательности ДНК даже из искаженных копий, а встроенный алгоритм исправления ошибок помогает повысить надежность хранения данных.
В сравнении с предыдущими методами, DNAformer обеспечивает гораздо более быструю обработку данных. Он способен считывать 100 мегабайт информации в 3 200 раз быстрее, чем наиболее точные из существующих подходов, при этом не теряя данных. Точность технологии также возросла на 40%, что дополнительно сокращает общее время восстановления информации.
Исследователи протестировали DNAformer на небольшом наборе данных объемом 3,1 мегабайта, включавшем цветное изображение, 24-секундный аудиофайл, текстовый документ о хранении данных в ДНК и случайные данные. Последний элемент позволил проверить работу алгоритма с зашифрованными и сжатыми файлами. В ходе эксперимента была достигнута скорость чтения 1,6 бита на одну ДНК-основу даже в условиях высокого уровня шума, а время восстановления данных сократилось с нескольких дней до 10 минут.
Команда исследователей планирует развивать DNAformer, адаптируя его к различным сценариям хранения информации. По их словам, технология легко масштабируется и обладает большим потенциалом для применения. Уже сейчас ученые учитывают возможные рыночные требования и перспективы развития ДНК-секвенирования, чтобы улучшить свою разработку.