数据仓库
我看了下目前的答案,大家从理论层面把数据库和数据仓库的本质区别解释的很全面了。 数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 我尝试着再补充些具体的事例来说明,这样更可以帮助大家更好理解一些。 举个最常见的例子,拿电商行业…
末日仓库
一觉醒来,我重生了,重生在末日开始前的7天 上一世,因为丧尸病毒爆发,往日繁华的城市沦为的了废墟 我虽然没有死在丧尸手里,确实在了自己人手里 人类真的比丧尸更可怕 ————————————— 1.“江瑶瑶!你怎么能这样!快放我进去!”我声嘶力竭地嘶吼着,外面到处都是丧尸 ♂️,我虽然有自保能力,但也敌不过那些丧尸 江瑶瑶是我10几年的好姐妹,我从来没想过,她居然会这样对我 江瑶瑶从屋里透过缝隙冷冷地看了我…
数据库 Database (Oracle, Mysql, PostgreSQL)主要用于 事务处理,数据仓库 Datawarehouse (Amazon Redshift, Hive)主要用于数据分析。用途上的不同决定了这两种架构的特点不同。 数据库(Database)的特点是: 相对复杂的表格结构,存储结构相对紧致,少冗余数据。读和写都有优化。相对简单的read/write query,单次作用于相对的少量数据。数据仓库(Datawarehouse)的特点是: 相对简单的(Denormalized)表格结构,存储结构相对松散…
一味的解释数据仓库概念可能没意思,我们从不同角色出发吧 老板 :我是一家手机公司的老板,今天要向去董事局汇报,我要准备一份介绍过去三年的用户增长、用户留存、用户活跃度、手机里面每个APP使用率等情况的报表,假如下面没我下面没有BI,那我肯定就蒙逼了。。 BI : 我是一名非技术BI,我天天看竞品的分析报告,看双十一销量,看各种评论,知道自己的产品有哪些短板有哪些长处,我分析南北地域差异,国内外客户喜好,总之我…
谢邀。咱们已经有好多非常专业的回答了,我把正经的答案放在后面,咱聊点稍微轻松点的解释,争取我妈能看懂。 数仓这个概念由来已久,从互联网业务开始,很多数据就需要“结构化”地存起来。年纪大一点的朋友们可能还记得账本:某年某月某日,进账多少,出账多少,经手人是谁,余额多少,等等。家里面自己做个账本,我们可以直接用Excel:搞张表。大规模的数据仓库也是一样的,一堆这样的表格,仔仔细细地记下来,每行是啥,每列…
Snowflake的三个技术宅合伙人从大公司出来的时候,应该没想到在数据仓库(OLAP)这个大家不觉得是个好生意的领域,会做成一家千亿美金市值的公司。而在解禁前的最高点,曾经一度超过Zoom成为全球第三大SaaS企业,位列之前的是Salesforce和Shopify。 [图片] 昨天是Snowflake解禁的第一天,面临流通股1.5倍的解禁股,公司意外地收复了开盘后的所有失地,市场对于这家全市场最贵的SaaS公司仍然非常有热情。 1.从16年的Snowflake论文开始Snow…
数据仓库&面试总结
一、数据仓库分为几层?负责什么职责?为什么要分层? 1、数据仓库分为4层: ODS层 (原始数据层) DWD层 (明细数据层) DWS层 (服务数据层)ADS层 (数据应用层) 2、主要负责职责,如下: ODS层(原始数据层):存放原始数据,直接加载原始日志、数据,数据保存原貌不做处理。 DWD层(明细数据层):结构与粒度原始表保持一致,对ODS层数据进行清洗(去除空值、脏数据、超过极限范围的数据) DWS层 (服务数据层):以DWD为…
数据中台不是一套系统,也不是一套产品,而是一种机制。在传统IT架构中,不同部门,不同业务系统和不同的数据中心会产生大量数据。这些数据如果烟囱一样是垂直划分的,彼此之间无法连接,我们也把这种数据叫做数据孤岛。分散在各个孤岛上的数据彼此独立,无法很好的支撑企业的经营决策,也无法很好地应对快速变化的前端业务。因此,我们需要一套机制,利用这一套机制整合这些分散在各个孤岛上的数据,为企业经营决策、精细化运营…
什么是数据湖从前,数据少的时候,人们拿脑子记就可以了,大不了采用结绳记事: [图片] 后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足 快速的增删改查,应对联机事务。 [图片] 比如你用银卡消费了,后台数据库就要快速记下这笔交易,更新你的卡余额。 日子久了,人们发现,库里的数据越来越多了,不光要支持联机业务,还有分析的价值。 但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据为特征的分析…
在定义他们的关系之前,先简单看看他们的定义。 OLTP(on-line transaction processing)翻译为联机事务处理, OLAP(On-Line Analytical Processing)翻译为联机分析处理,从字面上来看OLTP是做事务处理,OLAP是做分析处理。从对数据库操作来看,OLTP主要是对数据的增删改,OLAP是对数据的查询。 再从应用上来看看OLTP与OLAP的区别。 OLTP主要用来记录某类业务事件的发生,如购买行为,当行为产生后,系统会记录是谁在何时何地…
数据产品必备技术知识:数据仓库入门,看这这一篇就够了
数据仓库可以算是数据产品必须要了解的技术知识了, 在一年前的数据产品求职分析中,其中技能要求这一项中,数据仓库可是占了一席之地的。 但是,对于准备求职数据产品的童鞋来说,可能身边没有做数仓开发的朋友可以请教。自学吧,而那几本经典书籍里面又过于理论,看起真是生不如死,而且数据产品并不是数据开发,可能了解一些入门的常识,有个大概的概念就可以了。 我也一直零零散散的积累这方面的知识,这两天梳理了下,形成…
什么叫低?能通过数据赋能将5亿的市场做成120亿我觉得这难度不小吧。很多小公司会随着时间变大,但是在数据层面上来说,它有两种存在形式,一个是变成一个庞大的公司,一个是变成伟大的公司。我相信你能明白我说的这两种公司的定义。 作为一个数学界学算法优化的小硕而言,从事过多年的数据工作,不管是互联网公司,如百度,滴滴,还是传统行业公司,如医疗和家具制造业企业。(混迹知乎近10年,前面的铺垫是我觉得我应该可以说以…
浅谈数仓模型(维度建模)
背景 数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓架构的原则: 1、底层业务的数据驱动为导向同时结合业务需求驱动 2、便于数据分析 屏蔽底层复杂业务 简单、完整、集成的将数据暴露给分析层 3、底层业务变动与上层需求变动对模型冲击最小化 业务系统变化影响削弱在基础数据层(资金订单改造) 结合自上而下的建设方法削弱需求变动对模型的影响 数据水平…
感谢大家点赞!作为一家BI厂商,接触的客户都是有数据分析需求,也大概知道这个行业的行情: 1、数据分析(BI)薪资增长缓慢; 2、数据分析无法一直走技术线,进一步发展只能走管理; 3、数据分析最高到BI总监,无法到副总裁或以上。 如何打破天花板?结合最近的发展趋势,建议可以走以下几条路: 1、找到一个数据分析的应用场景,走业务为主,数据分析为辅的路线;有非常多职位名称不是数据分析,但做的就是数据分析的工作,最…
数据仓库、数据集市、数据湖、数据中台到底有什么区别?都得做吗?
经常看到有人问这个问题,数据玩家也看过很多解释,感觉都不够直观,这里,我尝试用一个大家都理解的例子来说明。 什么是数据仓库?大家都去宜家买过东西吧,还记得一楼的大仓库不,你如果看中了某个家具,想要自己去仓库提货,一般都会记下商品上的编码: [图片] 这个编码对于顾客来说,肯定是没有任何含义的,看到这个编码,不可能知道他是一个什么商品。 但是这个编码,对于仓库管理员来说是有含义的,他们可以清楚的知道,是哪一个…
读透《阿里巴巴数据中台实践》,其到底有什么高明之处?
最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。 读这些专业的PPT,实际是非常耗时的,你需要把这些PPT外表的光鲜扒光,死抠上面的每一个字去理解底下隐藏的含义,然后跟你的已有知识体系去对比,看看是否有助于完善自己的认知,对于自己不理解的,还需要经常去检索相关的文档。 当然,很多写P…
Snowflake:数据仓库的终极形态?
随着 Snowflake 去年9月宣布GA on Microsoft Azure ,很多基于Microsoft生态系统的客户开始表现出对Snowflake的强烈兴趣。说到Snowflake这款产品,可谓现今数据仓库解决方案市场上最火的香馍馍。在把战场从AWS烧到Azure之后,Snowflake俨然进一步定义了现代数据仓库的发展方向。我有幸在为一零售巨头客户的数据架构咨询服务中参与了Snowflake的部署,将原有的本地数据平台升级成为建立在在Azure和Snowflake上的现代云端解决方案。…
“ 是时候分享一下数据仓库的精髓:维度建模。”关于数据仓库相关的内容,我们之前分享过 《数据仓库基础概述》 ,时间比较久远,是去年写的文章了。今天和大家分享一下数据仓库中的维度建模,这是数仓的经典内容。 一、什么是维度建模维度建模是数据仓库领域的大师之一Ralph Kimball所倡导,他参与所著的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》,中文名《数据仓库工具箱》,是数据仓库工程领域…
PowerDesigner安装教程
PowerDesigner是业内主流的数据库建模工具,记录一下工具的安装过程,方便有需要的朋友,如果对你有帮助,请点赞支持,谢谢。 一、PowerDesigner 资源下载链接: https://pan.baidu.com/s/1LY2e35tsb89OdYVo0LVTWQ 提取码:a9k8 二、安装过程下载完压缩包后,解压文件到指定路径,双击红框中的安装程序,开始安装。 [图片] 进入安装界面,next [图片] 选择好对应国家China,同意协议I AGREE—Next [图片] 选择安装目录,可以默认也可以自选,但是要记住这个路径 [图片] 默认Next [图片] 这…
Quant工具箱:为量化研究量身定制的数据中台
在过去的8篇文章中,我们重点阐述了量化回测与实盘的基础设施搭建、以及策略开发的相关理论与实践。 细心的小伙伴可能发现了,这个研究体系还仍未闭环,在数据科学中非常重要的一环,“数据的管理与使用”上几乎只用了寥寥几句带过(对应下图的红色画框处)。 [图片] 实际上,数据是模型开发的基础,“ 数据科学80%的时间花在数据相关的操作上”并不是一句空话。那么这一期,我们就将注意力转移到数据上,展开本期的话题:建设一套服务…