同方物联网应用产业本部大数据产业研发与工程中心数据资源应用事业部总经理孙哲
封闭系统 保证数据质量
数据质量是企业和政府普遍关心的问题,数据数量的高低决定数据的可信度。目前我国出现一种现象就是,我们总是被平均,被就业,被住房。这导致很多人对国际统计出来的数据进行怀疑,这种现象就是数据质量造成的。数据为什么会存在偏差,当然大量的数据里面肯定会有水分存在,但更多的是统计口径和统计平台的不同造成的。怎么解决数据质量的问题?有多年政府信息化工作专长的同方提出了解决路径,即元数据的收集和分析,用元数据这种技术架构把数据从源头质量上进行控制。具体做法是,尽可能的用技术手段去保证数据质量。比如在数据填报的时候有一些审核工具,就用一些技术手段确保数据的填报过程,同时在描述数据的时候,尽可能的把一组数据脱离系统。由于数据本身很难作假,作假都是人为因素造成的,同方的数据统计平台可以让数据一进到系统之后就不被人为干扰,这是统计平台的一个优势和亮点。
重视知识产权 保护数据安全
数据安全的背后关系到国家的安全。“棱镜门”事件引起各国对信息安全的重视。信息来源于数据,数据安全怎么保证?根源上还是要用国家自主知识产权的产品。尤其是在涉及到数据中心等数据资源上,各行各业的数据都是如此,掌握在自己手里的数据才是最安全的。
技术上怎样保证数据的安全?
对此,孙哲指出两点措施:
第一是建立具有自主知识产权的数据录入交换体系。这就需要我国相关部门来设定体系标准,建立自主知识产权的数据库。数据库其实是造成数据孤岛的罪魁祸首,所以同方在进行《北京市宏观经济与社会发展基础数据库》的设计时采用了数据资源体系的方法,即“数据资源化,资源体系化”,体系更多的是应用,即被使用、被调用、被共用,资源更多的是盘活、描述和相关性,就是让数据本身在收集的时候就能自己解释自己,带有生命力的汇聚、整合过程,及自描述、自定义过程,让数据能脱离仓库、报表自己存在,让数据真实反应业务的相关性,那么我们认为这样的数据就能成为一种资源。另外,数据在采集时还要有特定的主题,使主题更容易去支撑数据间的相关性。当然,有些相关性并不能单纯的依靠主题来支撑,但它一定比孤立的把数据汇集起来,堆在数据仓库中会显得更好一些,更灵活一些,更可扩展一些。
第二是指标体系的建立。指标体系里很重要的一个数据描述就是时间,同方将其称为指标时间序列。基于指标时间序列所对应的数据,按照这种分类方式采集到的数据即便被拿走也不能被利用,因为它有一套独特的元数据规则,不明白这个规则的人是没办法读取数据的。比如说我们数据的编排方式和存放方式是按照国外厂商例如微软数据库的架构进行的,我们将数据提取出来,然后按照甲骨文的数据仓库存储方式存放进去,任何一个熟悉甲骨文厂商的技术人员随随便便就可以使用和调取,但如果我们用自己独有的指标时间序列方式进行存放,不懂我们指标体系的人就无法使用。所以,要把整套系统全部用指标时间序列的方式存放的话,在数据安全和可控性上就能够得到保证,永远只服务于它的组织机构,而指标时间序列只是指标体系中的一种,不同的指标序列可以将数据的安全性提升到更高水平。
去IOE 自主品牌崛起之愿景
无论是政府部门还是企业,国内在搭建数据中心的时候,软件方面基本采用IBM、甲骨文的产品,自主品牌最多起辅助作用,根源上无法保证我国的数据安全。在诸多信息安全事件发生后,从政府至行业企业,都越来越重视信息安全问题。对于数据中心的选用尤为谨慎。对于主做政府信息化的同方来说,数据安全是一大挑战,也是尤为重视的问题。在问到同方在数据安全这一块的发展上时,孙哲举例表示,从2009年开始,同方在《北京市宏观经济与社会发展基础数据库》项目进行中就很注意安全问题,为保证国产数据安全,到2011年项目截止,只有个别采用甲骨文的软件,剩下的全部都是用同方自己的数据资源体系,没有外采数据库,此外也包括后续很多项目,都是用自己的数据资源体系,很少去用国外厂商的产品。同方在自主知识产权这一块的愿景是去IOE——去IBM、Oracle和EMC。虽然目前还没有这样的实例,但孙哲坚信,这是我国企业的共同愿景。在问及选用的标准时,孙哲笑谈,不用国外产品的初衷很简单,我们为保证国产数据安全,能不用就不用。
来源:赛迪网