大数据技术包含哪些结构层次

  大数据领域每年都会涌现出大量新的技术,大数据技术可以挖掘出大规模数据中隐藏的信息和知识,为人类社会经济活动提供依据,提高各领域的运行效率,甚至提高整个社会经济的集约化程度。那么大数据计算包含哪些结构层次

 

  (1)统一数据基础层

 

  我们通过各种方式采集到的丰富数据,在清洗、结构化后进入统一的ODS数据基础层。

 

  其主要功能包括:

 

  -同步:结构化数据增量或全量同步到数据中台

 

  -结构化:非结构化(日志)结构化处理并存储到数据中台

 

  累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗

 

  在权责方面,所有数据应该在源头统一,统一所有的数据基础层,并由一个团队负责和管控,其他团队无权复制数据基础层的数据。

 

  (2)数据中间层

 

  我们进行数据建模研发,并处理不因业务特别是组织架构变动而轻易转移的数据中间层。包括DWD明细数据中间层和DWS汇总数据中间层。

 

  其主要功能包括:

 

  -组合相关和相似数据:采用明细宽表,复用关联计算,减少数据扫描。

 

  -公共指标统一加工:基于OneData体系构建命名规范、口径一致和算法统一的统计指标,为上层数据产-品、应用和服务提供公共指标;建立逻辑汇总宽表;

 

  -建立一致性维度:建立一致数据分析维度表,降低数据计算口径、算法不统一的风险。

 

  在权责方面,面向业务提供服务之前&#x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据的存储管理技术 作者:欧艳鹏 来源:《电子技术与软件工程》2017年第21期 摘 要云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,如 图片、音频、视频信息等。为充分发挥信息应用价值,有效存储已经成为人们关注的热 点。为了有效应对现实世界中复杂多样性的大数据处理需求,需要针对不同的大数据应 用特征,从多个角度、多个层次对大数据进行存储和管理。本文主要分析了大数据面临 的存储管理问题以及简述了存储管理关键技术。 【关键词】大数据 分布式文件系统 分布式数据库 NoSQL数据库 云数据库 1 大数据面临的存储管理问题 1.1 存储规模大 大数据的一个显著特征就是数据量大,起始计算量单位至少是PB,甚至会采用 更大的单位EB或ZB,导致存储规模相当大。 1.2 种类和来源多样化,存储管理复杂 随着互联网、物联网、移动互联技术的发展,以电子商务(如京东、天猫、阿 里巴巴等)、社交网络(微信、微博等)为代表的新型web2.0 应用迅速普及,大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线 服务、个人数据业务、地理信息数据、传统企业、公共机构等领域,因此数据呈现方法 众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满 足数据时代的需求,还导致存储管理更加复杂。 1.3 对数据服务的种类和水平要求高 大数据的价值密度相对较低,以及数据增长速度快、处理速度快、时效性要求 也高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚 的数据中,挖掘其更深层次的数据价值呢,需要亟待解决。 大规模的数据资源蕴含着巨大的社会价值,有效管理数据,对国家治理、社会 管理、企业决策和个人生活、学习将带来巨大的作用和影响,因此在大数据时代,必须 解决海量数据的高效存储问题。 2 大数据存储管理的关键技术分析 2.1 分布式文件系统 分布式文件系统是一种通过计算机网络实现在多台机器上进行分布式存储的文 件系统,它把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集 群,设计一般所采用的是"客户机/服务器"模式。分布式文件系统的设计需要重点考虑可 扩展性、可靠性、性能优化、易用性及高效元数据管理等关键技术。 当前大数据领域中,分布式文件系统的使用主要以Hadoop HDFS为主。HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度,除此 之外,HDFS还具有兼容的廉价设备、流数据读写、大数据集、简单的数据模型、强大的 跨平台兼容性等特点。但HDFS也存在着自身的不足,比如不适合低延迟数据访问、无法 高效存储大量小文件和不支持多用户写入及任意修改文件等。 2.2 分布式数据库 分布式数据库HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库, 是谷歌BigTable的开源实现,主要用来存储半结构化和非结构化数据。HBase可以支持N ative Java API、HBase Shell等多种访问接口,可以根据具体应用场合选择相应的访问方式,而且相对于传统的 关系数据库来说,HBase采用了更加简单的数据模型,把数据存储为未经解释的字符串, 用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中,除 此之外在数据操作、存储模式、数据索引、数据维护和可伸缩性等方面都有了更易于实 现的方式。但HBase也存在着不支持事务等限制。 2.3 NoSQL数据库 对于NoSQL,当前比较流行的解释是"Not Only SQL",它所采用的数据模型并非传统关系数据库的关系模型,而是类似键值、列族、文 档等非关系模型。NoSQL数据库没有固定的表结构,一般也不会存在连接操作,也没有严 格遵守事务的原子性、一致性、隔离性和持久性。因此与传统关系数据库相比,NoSQL具 有灵活的可扩展性、灵活的数据模型、与云计算紧密融合和支持海量数据存储等特点。 但NoSQL数据库也存在很难实现数据的完整性、NoSQL的应用还不是很广泛、成熟度不高 、风险较大、缺乏难以体现业务的实际情况、增加了对于数据库设计与维护的难度等问 题。 目前NoSQL数据库数量很多,典型的NoSQL数据库通常包括键值数据库、列族数 据库、文档数据库和图数据库。键值数据库系统的典型代表包括BigTable、 Dynamo、Redis、Cassandra等。列族数据库系统的典型代表包括HadoopDB、GreenPlum等 。文档数据库系统的代表包括MongoDB、Coudibase等。图数据数据库系统的代表是Neo4 J、GraphDB等。 2.4 云数据库 云数据库技术是云计算的一项重要分支,是对云计算的具体运用。云数据库是 部署和虚拟化在云计算环境中的数据库。它极大地增强了数据库

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值