大游中国股份有限公司-BG大游官方网站-DNA存储纠错编码技术专家

一种基于DNA存储的计算机架构pdf

作者:小编 日期:Oct.19.2025 点击数:  

  

一种基于DNA存储的计算机架构pdf(图1)

  本发明适用于信息存储技术改进领域,提供了一种基于DNA存储的计算机架构,包括处理器、随机存储模块、磁盘存储模块及DNA存储模块,所述处理器双向通信连接所述随机存储模块,所述随机存储模块双向通信连接所述磁盘存储模块,所述磁盘存储模块双向通信连接所述DNA存储模块,所述DNA存储模块包括DNA合成单元及DNA测序单元,所述DNA测序单元的输出端连接所述随机存储模块的输入端。对于大容量数据,且长时间不会访问的,能够合理利用DNA存储的优势,能够有效节省物理空间,降低功耗,减少数据的维护成本。

  (19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114896217 A (43)申请公布日 2022.08.12 (21)申请号 9.7 (22)申请日 2022.05.30 (71)申请人 深圳市鼎泰富科技有限公司 地址 518000 广东省深圳市坪山区龙田街 道大工业园聚龙山三号路长方工业园 C1栋第六层与第八层 (72)发明人 林志强赖映青 (74)专利代理机构 深圳市科吉华烽知识产权事 务所(普通合伙) 44248 专利代理师 胡吉科 (51)Int.Cl. G06F 16/172 (2019.01) G06F 16/13 (2019.01) G06F 3/06 (2006.01) 权利要求书1页 说明书6页 附图2页 (54)发明名称 一种基于DNA存储的计算机架构 (57)摘要 本发明适用于信息存储技术改进领域,提供 了一种基于DNA存储的计算机架构,包括处理器、 随机存储模块、磁盘存储模块及DNA存储模块,所 述处理器双向通信连接所述随机存储模块,所述 随机存储模块双向通信连接所述磁盘存储模块, 所述磁盘存储模块双向通信连接所述DNA存储模 块,所述DNA存储模块包括DNA合成单元及DNA测 序单元,所述DNA测序单元的输出端连接所述随 机存储模块的输入端。对于大容量数BG大游官方网站据,且长时 间不会访问的,能够合理利用DNA存储的优势,能 够有效节省物理空间,降低功耗,减少数据的维 护成本。 A 7 1 2 6 9 8 4 1 1 N C CN 114896217 A 权利要求书 1/1页 1.一种基于DNA存储的计算机架构,其特征在于,所述基于DNA存储的计算机架构包括 处理器、随机存储模块、磁盘存储模块及DNA存储模块,所述处理器双向通信连接所述随机 存储模块,所述随机存储模块双向通信连接所述磁盘存储模块,所述磁盘存储模块双向通 信连接所述DNA存储模块,所述DNA存储模块包括DNA合成单元及DNA测序单元,所述DNA测序 单元的输出端连接所述随机存储模块的输入端。 2.根据权利要求1所述的基于DNA存储的计算机架构,其特征在于,所述基于DNA存储的 计算机架构中在文件写入磁盘存储模块时,由文件系统判断磁盘存储模块的可用空间,在 文件系统里的相关字段记录该文件的大小和访问时间戳。 3.根据权利要求2所述的基于DNA存储的计算机架构,其特征在于,在判断磁盘存储模 块中,当磁盘存储空间充足,使用率低于设定阈值,文件直接存入磁盘,并记录文件的访问 时间及文件大小,不需要对链表进行操作。 4.根据权利要求3所述的基于DNA存储的计算机架构,其特征在于,在判断磁盘存储模 块中,当磁盘存储模块使用率高于设定阈值时,文件存入磁盘存储模块,同时需要把链表头 指向的文件获取其文件数据转存到DNA存储模块,DNA存储模块返回文件存放的地址码,在 文件系统中标识该文件在DNA存储模块上并记录地址码,对链表表头节点进行删除释放空 间,HEAD指向下一个节点,链表长度减1。 5.根据权利要求4所述的基于DNA存储的计算机架构,其特征在于,所述DNA存储模块存 储的调出策略根据时间和文件大小结合做判断的改进LRU算法。 6.根据权利要求5所述的基于DNA存储的计算机架构,其特征在于,所述改进LRU算法包 括以下步骤: S1、间隔设定周期计算文件访问时间到当前时间的差值,根据差值乘以文件大小获得 结果作为该文件的特征值; S2、在文件系统中维护一张链表,该链表中记录各个文件的索引ID和特征值,并按照特 征值大小进行排序; S3、在磁盘存储模块使用率高于设定阈值时,从特征表里选择一个表象对应的文件索 引找到该文件,调用DNA存储模块进行编码; S4、文件系统根据DNA存储模块返回对应的地址码,标识该文件不在磁盘存储上,释放 该文件存储空间,并记录该文件的DNA存储的地址码; S5、删除特征表中该文件表项,并在文件系统中搜索特征值最大对应的文件插入特征 表中。 7.根据权利要求6所述的基于DNA存储的计算机架构,其特征在于,所述基于DNA存储的 计算机架构中,在有数据访问读出时,文件系统根据存储标识判断文件是否在磁盘存储上, 若在,则按照记录地址获取数据并更新文件访问时间属性;若不在,则获取文件对应DNA存 储地址码,将地址码给到DNA存储模块,触发其进行DNA测序,解码出需要的数据写回硬盘, 更新文件的访问时间属性。 8.根据权利要求7所述的基于DNA存储的计算机架构,其特征在于,所述DNA测序单元将 解码出的数据直接同步送入随机存储模块中。 2 2 CN 114896217 A 说明书 1/6页 一种基于DNA存储的计算机架构 技术领域 [0001] 本发明属于信息存储技术改进领域,尤其涉及一种基于DNA存储的计算机架构。 背景技术 [0002] DNA存储技术是利用DNA作为存储介质,将文件数字化后的二进制编码转化成由4 个碱基构成的DNA编码,从而制成相应的DNA序列,获得储存有数据信息的DNA片段。DNA作为 存储介质,具有存储密度高、存储时间长、功耗低以及易获取且免维护的优点。 [0003] 比如1000万块硬盘的数据用50克DNA就可以存下来,随身带走,全世界44个ZB(1TB  x 2^30)的数据200公斤DNA就可以存下来。传统硬盘的存储寿命一般是10年,超过期限,数 据就可能损坏,而DNA的存储寿命可以达到上百年甚至更长时间,只要存储的温度等环境合 适。但目前DNA存储要普及还存在不小的挑战,读写速度和成本等都有待提高。尽管如此,这 仍然是一个前景非常明朗的技术。 [0004] 对于影视公司,档案存储单位或者云厂商等BG大游官方网站企业或者机构,都可能面临着存储数 据巨大的问题,其中有些数据可能很长时间都不会用到,但也不能丢弃。对于个人硬盘存储 的数据,基本满足二八定律,即20%的硬盘文件会经常访问,而有80%的文件却很少访问。有 些甚至好几年才访问1次,但却很重要,不能删除,比如图片和视频等。也因此,个人网盘才 得以流行。随着DNA存储技术的成熟,后续这么多的数据完全可以由DNA来存储。 [0005] 因为此技术的应用前景广阔,而且带来的是颠覆性的变化,目前有很多研究是针 对DNA存储的可靠性。读写速度和成本因素短期内尚不能达到跟硬盘或者闪存同等的级别。 发明内容 [0006] 本发明的目的在于提供一种基于DNA存储的计算机架构及存储方法,旨在解决上 述的技术问题。 [0007] 本发明是这样实现的,一种基于DNA存储的计算机架构,所述基于DNA存储的计算 机架构包括处理器、随机存储模块、磁盘存储模块及DNA存储模块,所述处理器双向通信连 接所述随机存储模块,所述随机存储模块双向通信连接所述磁盘存储模块,所述磁盘存储 模块双向通信连接所述DNA存储模块,所述DNA存储模块包括DNA合成单元及DNA测序单元, 所述DNA测序单元的输出端连接所述随机存储模块的输入端。 [0008] 本发明的进一步技术方案是:所述基于DNA存储的计算机架构中,在文件写入磁盘 存储模块时,由文件系统判断磁盘存储模块的可用空间,在文件系统里的相关字段记录该 文件的大小和访问时间戳。 [0009] 本发明的进一步技术方案是:在判断磁盘存储模块中,当磁盘存储空间充足,使用 率低于设定阈值,文件直接存入磁盘,并记录文件的访问时间及文件大小,不需要对链表进 行操作。 [0010] 本发明的进一步技术方案是:在判断磁盘存储模块中当磁盘存储模块使用率高于 设定阈值时,文件存入磁盘存储模块,同时需要把链表头指向的文件获取其文件数据转存 3 3 CN 114896217 A 说明书 2/6页 到DNA存储模块,DNA存储模块返回文件存放的地址码,在文件系统中标识该文件在DNA存储 模块上并记录地址码,对链表表头节点进行删除释放空间,HEAD指向下一个节点,链表长度 减1。 [0011] 本发明的进一步技术方案是:所述DNA存储模块存储的调出策略根据时间和文件 大小结合做判断的改进LRU算法。 [0012] 本发明的进一步技术方案是:所述改进LRU算法包括以下步骤: S1、间隔设定周期计算文件访问时间到当前时间的差值,根据差值乘以文件大小 获得结果作为该文件的特征值; S2、在文件系统中维护一张链表,该链表中记录各个文件的索引ID和特征值,并按 照特征值大小进行排序; S3、在磁盘存储模块使用率高于设定阈值时,从特征表里选择一个表象对应的文 件索引找到该文件,调用DNA存储模块进行编码; S4、文件系统根据DNA存储模块返回对应的地址码,标识该文件不在磁盘存储上, 释放该文件存储空间并记录该文件的DNA存储的地址码; S5、删除特征表中该文件表项,并在文件系统中搜索特征值最大对应的文件插入 特征表中。 [0013] 本发明的进一步技术方案是:所述基于DNA存储的计算机架构中在有数据访问读 出时,文件系统根据存储标识判断文件是否在磁盘存储上,若在,则按照记录地址获取数据 并更新文件访问时间属性,若不在,则获取文件对应DNA存储地址码,将地址码给到DNA存储 模块,触发其进行DNA测序,解码出需要的数据写回硬盘,更新文件的访问时间属性。 [0014] 本发明的进一步技术方案是:所述DNA测序单元将解码出的数据直接同步送入随 机存储模块中。 [0015] 本发明的有益效果是:对现有计算机架构模型的有效扩展,对于经常访问的文件 或数据,其读写速度和成本不会有损失;基本兼容现有的计算机操作系统或者文件系统,改 动较小。对于大容量数据,且长时间不会访问的,能够合理利用DNA存储的优势,即能够有效 节省物理空间,降低功耗,以及减少数据的维护成本等。 附图说明 [0016] 图1是本发明实施例提供的基于DNA存储的计算机架构的示意图。 [0017] 图2是本发明实施例提供的表1文件遍历到第2个文件时的链表结构的示意图; 图3是本发明实施例提供的表1文件遍历到第3个文件时,节点插入链表中的示意 图。 [0018] 图4是本发明实施例提供的表1文件遍历到第6个文件时,需要把末尾的文件2删除 的示意图。 [0019] 图5是本发明实施例提供的表1文件遍历完成后形成的链表结构的示意图。 [0020] 图6是本发明实施例提供的文件系统中记录文件的存储地址的示意图。 具体实施方式 [0021] 如图1‑6所示,本发明提供的基于DNA存储的计算机架构,所述基于DNA存储的计算 4 4 CN 114896217 A 说明书 3/6页 机架构包括处理器、随机存储模块、磁盘存储模块及DNA存储模块,所述处理器双向通信连 接所述随机存储模块,所述随机存储模块双向通信连接所述磁盘存储模块,所述磁盘存储 模块双向通信连接所述DNA存储模块,所述DNA存储模块包括DNA合成单元及DNA测序单元, 所述DNA测序单元的输出端连接所述随机存储模块的输入端。 [0022] 所述基于DNA存储的计算机架构中在文件写入磁盘存储模块时,由文件系统判断 磁盘存储模块的可用空间,在文件系统里的相关字段记录该文件的大小和访问时间戳。 [0023] 在判断磁盘存储模块中,当磁盘存储空间充足,使用率低于设定阈值,文件直接存 入磁盘,并记录文件的访问时间及文件大小,不需要对链表进行操作。 [0024] 在判断磁盘存储模块中,当磁盘存储模块使用率高于设定阈值时,文件存入磁盘 存储模块,同时需要把链表头指向的文件获取其文件数据转存到DNA存储模块,DNA存储模 块返回文件存放的地址码,在文件系统中标识该文件在DNA存储模块上并记录地址码,对链 表表头节点进行删除释放空间,HEAD指向下一个节点,链表长度减1。 [0025] 所述DNA存储模块存储的调出策略根据时间和文件大小结合做判断的改进LRU算 法。 [0026] 所述改进LRU算法包括以下步骤: S1、间隔设定周期计算文件访问时间到当前时间的差值,根据差值乘以文件大小 获得结果作为该文件的特征值; S2、在文件系统中维护一张链表,该链表中记录各个文件的索引ID和特征值并按 照特征值大小进行排序; S3、在磁盘存储模块使用率高于设定阈值时,从特征表里选择一个表象对应的文 件索引找到该文件,调用DNA存储模块进行编码; S4、文件系统根据DNA存储模块返回对应的地址码,标识该文件不在磁盘存储上释 放该文件存储空间,并记录该文件的DNA存储的地址码; S5、删除特征表中该文件表项,并在文件系统中搜索特征值最大对应的文件插入 特征表中。 [0027] 所述基于DNA存储的计算机架构中在有数据访问读出时,文件系统根据存储标识 判断文件是否在磁盘存储上,若在,则按照记录地址获取数据并更新文件访问时间属性,若 不在,则获取文件对应DNA存储地址码,将地址码给到DNA存储模块,触发其进行DNA测序,解 码出需要的数据写回硬盘,更新文件的访问时间属性。 [0028] 所述DNA测序单元将解码出的数据直接同步送入随机存储模块中。 [0029] DNA存储  的计算机架构是在传统的计算机模型的末端,即硬盘后面再增加一级 DNA存储  ,如图1所示,这样可以把大量长时间未访问的数据存放于此。因为目前依靠DNA存 储技术的基因合成和测序速度还比较慢,成本也很高,所以上一级的传统硬盘存储还不能 省略。平常相对比较频繁访问的数据可以存储在硬盘上。而当硬盘空间不够,可以将长时间 未访问的数据调出到最末端的DNA存储。 [0030] DNA有四种碱基A、T、C和G。一段DNA就包含了由各种碱基组成的系列。可以规定A表 示二进制00,T表示二进制01,C表示二进制10,而G就表示二进制11。这样一条DNA就相当于 存储了一串二进制数据。 [0031] 因为增加了最后一级存储,所以现有的硬盘文件系统无法使用,需要增加字段标 5 5 CN 114896217 A 说明书 4/6页 识某个数据块是否在硬盘上。如果在,记录其位置;如果不在,则需要给出地址索引,触发后 端DNA存储模块进行测序,读出数据。 [0032] 1当有文件需要写入磁盘时,由文件系统判断磁盘的可用空间。 [0033] 1.1  当可用空间充足,使用率低于某个设定阈值时,将文件正常写入磁盘,修改并 记录文件的访问时间、文件大小。 [0034] 1.2  当磁盘使用率高于设定阈值时,同样进行1.1操作,但是同时需要将某些文件 调出到DNA存储。调出到DNA存储采用改进的LRU(Least Recent Used)算法  ,因为调出策略  是根据时间和文件大小结合做判断的,所以称为改进的LRU算法。具体如下。 [0035] 1.3 每隔一定周期,假设半年,计算文件访问时间到当前时间点的差值,由此差值 乘以文件大小得到的结果也存储下来,作为文件的一个属性值,这里为了后文描述方便,暂 且称为特征值。 [0036] 假设文件系统中有10个文件,当前时间为2022.2年,访问时间和文件大小如表1所 示。 文件索引 访问时间(单位:年) 距离当前时间(单位:年)文件大小(单位:MB)特征值 1 2020.0 2.2 50 110 2 2022.1 0.1 70 7 3 2018.5 3.7 20 74 4 2019.2 3 300 900 5 2020.3 1.9 350 665 6 2021.7 0.5 100 50 7 2022.0 0.2 50 10 8 2018.8 3.4 200 680 9 2019.7 2.5 70 175 10 2021.0 1.2 230 276 [0037] 表1 文件特征值计算。 [0038] 1.4 文件系统需要专门维护一张表,表中记录了各文件的索引ID和特征值,并且 按照特征值从大到小排序。为了节省空间,并不需要每个文件都记录一个表项,这里记录了 前5个文件,如表2所示。 文件索引 特征值 4 900 8 680 5 665 10 276 9 175 [0039] 表2 按照文件特征值排序 1.5  当满足1.2时,从特征表里选择第一个表项对应的文件索引,找到该文件,调 用DNA存储模块,进行编码。 [0040] 1.6 DNA存储模块返回对应的地址码,文件系统获取到地址码后,标识该文件不在 磁盘上,释放这部分空间,并记录此文件对应的DNA存储所在的地址码。 [0041] 1.7 删除特征表中此表项。在文件系统里搜索特征值最大对应的文件,将其插入 6 6 CN 114896217 A 说明书 5/6页 特征表中。 [0042] 2.  当有数据需要访问读出时,文件系统根据存储标识判断文件是否在硬盘上。 [0043] 2.1 如果在,按照记录的地址获取数据,更新文件的访问时间属性。 [0044] 2.2 如果不在,获取文件对应DNA存储的地址码。将地址码给到DNA存储模块,触发 其进行DNA测序,解码出需要的数据写回硬盘,更新文件的访问时间属性。 [0045] 2.3  同时考虑到如果写入硬盘,再从硬盘读出到RAM的速度太慢,可以由DNA测序 直接将数据同步送给RAM。 [0046] 对现有计算机架构模型的有效扩展,对于经常访问的文件或数据,其读写速度和 成本不会有损失;基本兼容现有的计算机操作系统或者文件系统,改动较小。对于大容量数 据,且长时间不会访问的,能够合理利用DNA存储的优势,即能够有效节省物理空间,降低功 耗,以及减少数据的维护成本等。 [0047] 1.  当有文件写请求时,首先将文件写入磁盘。在文件系统里面的相关字段记录该 文件的大小和访问时间戳。 [0048] 2.  间隔半年周期对磁盘中的文件进行遍历。 [0049] 2.1  如果文件大小大于20MB(20MB为预设的阈值,可以调整,太小的文件,调出到 DNA存储的意义不大,因此可以忽略),则对其统计跟踪; 2.2 对跟踪的文件,由系统当前时间减去文件的访问时间得出文件未活跃的时间 t[id],其中id为对应的文件索引。 [0050] 2.3 计算文件的特征值E[id]=t[id]*s[id];其中s[id]为文件的大小,单位MB。 [0051] 2.4  用链表结构存储特征表,定义链表的长度,即节点数L,针对特征表2,L就为 5。构造链表。 [0052] 2.5 创建链表节点,存储文件的索引id值以及链接到下一个节点的指针。使得构 造的链表对应的文件特征值是从大到小顺序排列的,其中链表头HEAD始终指向文件特征值 最大的文件,链表尾TAIL始终指向文件特征值最小的文件。如图2为根据表1文件列表,遍历 到第2个文件时的链表架构。 [0053] 2.6  当有新的文件需要加入链表时,从链表头遍历整个链表,比较当前链表节点 对应的特征值和当前文件的特征值,如果当前文件的特征值大,则新的文件需要插在前面, 如果当前文件的特征值小,则进行下一个链接节点的比较,直到链表尾。如图3为根据表1文 件列表,遍历到第3个文件时,因为文件3的特征值为74,超过文件2的特征值7,因此需要插 在两个节点之间。 [0054] 2.7 每插入一个节点,链表现有长度增1。 [0055] 当链表长度超过L时,需要把最末尾的节点删除,让TAIL重新指向。如图4所示。 [0056] 2.8 遍历完所有文件,最终形成的链表如图5所示。 [0057] 3.  当磁盘空间充足,使用率低于某个设定阈值,如80%时,文件直接存入磁盘,不 需要对链表进行操作。 [0058] 4.  当磁盘空间不足,文件存入磁盘。 [0059] 4.1  同时需要把链表头指向的文件,获取其文件数据,转储到DNA。DNA存储模块返 回文件存放的地址码,文件系统中标识该文件在DNA存储模块上,并记录地址码。 [0060] 4.2 对链表表头节点进行删除,释放空间,HEAD指向下一个节点。链表长度减1。 7 7 CN 114896217 A 说明书 6/6页 [0061] 5.  当有文件读取请求时,通过文件系统判断文件是否在磁盘上。如图6所示。 [0062] 5.1  当标识字段为1时,文件在磁盘上,通过文件索引ID找到文件,读取出来。 [0063] 5.2  当标识字段为0时,文件在DNA存储模块上,通过DNA存储地址码,给到DNA存储 模块,由后者返回数据。 [0064] 5.3 更新此文件的访问时间戳,并重新计算特征值。 [0065] 5.4 遍历链表中的节点,如果存在此文件索引,则删除此链表节点。链表长度减1。 [0066] DNA存储技术是利用人工合成的脱氧核糖核酸(DNA)作为存储介质,能够存储文 本、图片、声音和视频等各类数据,随后完整读取的技术。 [0067] LRU(Least Recent Used)即最近最少使用算法,它会将最近最久未使用的数据予 以淘汰。与本发明结合,可理解成,哪些数据最久没有访问,就会被调出到DNA存储装置中, 从而腾出磁盘空间。 [0068] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。 8 8 CN 114896217 A 说明书附图 1/2页 图1 图2 图3 9 9 CN 114896217 A 说明书附图 2/2页 图4 图5 图6 10 10

  2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。

  3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

  4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

  提供农业、铸造、给排水、测量、发电等专利信息的免费检索和下载;后续我们还将提供提供专利申请、专利复审、专利交易、专利年费缴纳、专利权恢复等更多专利服务。并持续更新最新专利内容,完善相关专利服务,助您在专利查询、专利应用、专利学习查找、专利申请等方面用得开心、用得满意!

  智能睡眠健康守护:2025年可穿戴设备技术创新在女性健康管理中的应用.docx

  广东省广州市增城区2024-2025学年八年级下学期期末考试数学试卷(含详解).pdf

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者