技术背景:起源信息描述了非结构化数据怎样产生(How)、被什么工具产生(Who)、有什么输入数据(What)、以及产生时的环境信息(Where)。
技术特点:
(1) 完整记录数据从产生到消亡整个生命周期中,每一次数据的访问、修改的所有环境信息。包括访问该数据的时间、进程、应用软件,用户等所有元数据信息(可以按用户要求进行过滤,只保留用户感兴趣的元数据)。
(2) 完整记录数据从产生到消亡整个生命周期中,每一次数据添加、修改、删减的所有变更数据,以及每一次数据变更时对应的所有环境信息(可以按用户要求进行过滤,只保留用户感兴趣的元数据)。
(3) 基于内核态堆栈式文件系统开发,兼顾系统性能、高可移植性、高可扩展性。使其不需要修改操作系统和分布式文件系统重要组件的代码,就能运行在不同的分布式文件系统之上。适用于任意支持POSIX标准的分布式文件系统,且具有在用户态收集起源信息所不可比拟的低性能开销。
(4) 当原始数据丢失或者损毁,可以利用起源系统存储的起源信息来完整恢复人一个时刻点的数据版本及其相应的环境信息。
(5) 研发了一种任务提取算法,通过把具有相同目的的进程提取成任务,以便清晰地描述分布式文件系统中的起源关系。将数据起源信息存储到高性能键值数据库中,提供多个起源记录查询接口,使得收集的起源信息具有易用性。
创新性:
(1) 该系统不同于传统的日志方法。日志只能粗粒度记录部分对数据的访问行为,无法真实记录所有的环境信息。无法记录所有增加、删减的数据,也无法记录每一次数据变化详细的环境信息。
该系统不同于传统的备份系统。数据备份只是备份某个特定时刻的数据的最终版及其相应的环境,无法记录备份数据每一次访问及变更的信息变化及相应的环境信息。如果原始数据丢失,利用该系统,可以通过起源信息完全重构原始数据及其所有的元数据信息。
a
已经开发有原型系统。
(1)该系统可以用于财务数据、医疗数据、档案数据等。利用起源信息来保障数据的可靠性、可读性和权威性。真正做到任何一次数据的访问和变更,100%有据可查。
(2)在安全领域中,利用起源信息,可以核实病毒是怎样在系统中传播的。
(3)在大数据领域中,通过利用起源信息,我们可以更准确地表达数据的特征,进一步挖掘数据的价值,充分提升对于大数据存储系统中复杂数据的分析和应用。
可以利用起源信息来重现重要实验,以及辨别两次实验的非常细微的变化。
具体沟通。
面谈。