中文 · EN
最新动态
【凯泰行研】数据中台PaaS行业研究

 

 

凯泰资本行业研究报告

——数据中台PaaS行业研究

 

 

作者:人工智能与数字产业投资团队

 

 

【前言】

智能经济时代下,大数据(bigdata)已经渗透到每一个行业和每一个职能领域,成为企业的基础能力之一。企业经营和企业管理,产品研发、设计、生产、制造流程,用户连接、分析和管理、市场推广和渠道管理、行业应用等商业活动都将被数字化,从而催生出海量的数据,目前全球数据的增长速度在每年40%左右,据预测2020年全球所产生的数据量将会达到40万亿GB(约为40EB)。大数据正在成为智能经济体的核心生产资料,与之对应的数据存储、处理与分析技术将成为新的生产工具。

本文旨在研究数据中台PaaS的行业发展和产业生态、数据中台PaaS的需求特点和技术实现路径、比较分析数据中台PaaS行业的最优商业模式及执行路径。

行业研究的最终目的,在于为凯泰资本的投资业务赋能,帮助我们更好的进行投资决策。同时,也希望通过分享我们的初步研究,与投资同仁多多交流,与创业者连接。

凯泰资本在人工智能/产业互联网领域的研究能力来自凯泰资本人工智能与数字产业团队、合作伙伴和创业企业等。人工智能与数字产业团队由国内外知名高校的人工智能、计算机科学专业同事组成,同时我们也与全球领先的企业通信上市公司共同探讨和研究。

 

 

投资建议

 

1.数据中台PaaS行业处在快速增长的临界期,它核心解决了企业业务层与数据能力层的供需矛盾:1)业务数据的产生速度远大于数据能力层的处理速度;2)业务拓展对于数据多样性、实时性的需求远大于数据能力的供应能力。这一核心矛盾带主要在金融机构、零售企业、文化旅游、政企单位等行业中尤为明显,他们通常具备自身IT水平相对成熟、且靠近最终用户、积累了大量数据等特点。

2.数据中台PaaS行业属于大数据底层基础设施,将会作为一个单独细分行业长期存在。同时,数据中台PaaS具有较高的技术门槛和服务门槛,新玩家切入或者传统的大数据应用厂商转型做通用PaaS产品的难度较大。

3.标的选择应综合关注数据中台PaaS的产品技术能力以及生态构建能力。其中产品技术能力是指在底层基础技术上构建起产品的先进性和通用性:面对海量数据高并发、低时延、准实时、高可靠、高稳定等真实场景下数据处理的能力,以及在客户多样的IT基础设施环境和个性化的数据应用场景下,可以在产品层面的低成本、模块化、易部署、易实施的构建满足客户需求的解决方案的能力。生态构建能力是指项目标的需要具备生态伙伴的培育能力和渠道的拓展能力。通过生态伙伴和渠道进入垂直行业和具体应用场景、连接用户,构建基于数据中台PaaS层之上丰富的行业应用,形成产品壁垒和行业壁垒。

4.短期来看,数据中台PaaS厂商需要在服务客户的过程中打磨出相对标准化产品,完成从项目制到产品制的跨越,从而具备企业利润提升、跨行业规模化复制的条件;长期来看,数据中台PaaS厂商在服务更多垂直行业客户的同时,在数据PaaS上沉淀出更多与业务场景结合的功能模块和上层应用,同时搭建基于垂直行业的渠道和生态,从而进一步补强自己的竞争壁垒。

 

 

行业研究报告

 

 

一、数据中台PaaS行业分析

 

1、大数据发展背景与中美差异分析

Gartner对于大数据的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有4V的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。根据数据服务的全环节我们可以把大数据公司分为以下几类:底层技术类、通用技术类和行业运用类。

 

 

比较中美大数据公司的发展现状我们可以看出两国大数据行业有以下几点显著差异:

 

1)美国大数据公司在基础数据库领域特别强大,聚集了Oracle、Teradata这类老牌的传统数据库厂商,还有新型的Hortonworks、Cloudera、MongoDB这类以Hodoop技术为主导的知名厂商;

2)国内大数据公司早期大多是以传统信息化公司逐步切入大数据领域,以垂直行业应用型公司居多,近些年来才逐渐出现如一些产品型公司。

 

分析上述两国差异化的发展现状,更多是由两国市场和技术的发展路径不同和时间阶段上的差异所导致的:

 

1)美国的市场是技术驱动,先从底层基础平台成熟,逐步延伸到上层应用:美国市场每一项技术中间会有一个很大的时间间隔,从2006年(AWS)— —2009年(大数据公司Cloudera、Hortonworks成立)— —2015年(Google开源TensorFlow),云计算、大数据、人工智能技术是逐步成熟的。较长的行业发展周期和由下自上发展构建的技术路径催生出许多基础平台和通用技术层公司,上市大数据公司如Splunk(市值:350亿美元)、Tableau(市值:148亿美元)、Cloudera(市值:32亿美元)、MongoDB(市值:146亿美元)都属于此类。

 

另外,由于美国的云基础设施发展水平相对成熟,同时客户自身IT水平和对公有云的接受度较高,美国的大数据公司大量以云产品形态提供服务(如Snowflake,市值:733亿美元)。

 

2)中国市场更多以应用、政策为主导驱动,应用型的公司发展速度更快:中国市场云计算、大数据、人工智能爆发间隔时间短,受益于2012年(游戏、移动互联网爆发)—2014年(政府出台一系列利好政策)的快速推动,大量应用型公司迅速涌现抢占场景和市场,云计算、大数据、人工智能技术和基础设施还不够完善,企业客户对于公有云产品形态的接受度也较低。

 

长远来看,随着云计算、人工智能等基础设施的完善,中国市场大数据公司未来的形态一方面在应用领域保持领先外,在通用型的产品领域也将会走向类似于美国市场的以SaaS产品等形态的基础平台和通用技术层。

 

因此,从发展路径上判断,我们认为寻找国内大数据公司最优目标商业模式应该定位于:底层基础平台/通用技术型+产品型公司,具备生态合作伙伴的培育能力(商业化落地)。

 

2、数据中台PaaS简介

数据中台PaaS指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,是将数据加工以后封装成一个公共的数据产品或服务的行业。

从功能构成上来看,数据中台PaaS构成可以分为数据存储、数据治理以及数据共享。

 

 

从技术通用架构来讲,数据中台PaaS还可以分为数据技术支撑、数据资产管理、数据分析挖掘、数据服务四个层面。

 

 

从业务架构上定义,数据中台PaaS是把业务经营产生的大数据生产资料通过沉淀积累、抽象再利用的方式,转换成数据应用场景和数据增值业务的生产工具。因此,我们认为:“大数据是智能经济时代新的生产资料,而数据中台PaaS是针对大数据的新型生产工具”。

 

 

 

3、企业信息化发展阶段及数据中台PaaS行业发展驱动因素

(1)数据中台PaaS行业发展驱动因素

数据中台PaaS行业的发展驱动来自于几个方面的因素:

–新时代的发展节点:中国企业正处在信息化时代中后期,数字化时代早期的关键节点,企业内部海量数据的涌现催生了对数据能力的旺盛需求;

– 市场外部环境的压力:互联网流量红利消失,人口红利衰减,人工成本增加,企业对增长的需求驱动精细化运作变革;

– 企业内部环境的动力:内部信息系统复杂,IT因素、人为因素、环境因素等问题导致流程割裂,数据孤岛的现状,需要在数字化层面上通过技术和业务等能力进行跨业务单元的整合,进行敏捷的数字化转型的需求日益强烈;

– 新技术的突破:大数据,人工智能,云计算云服务,开放式的计算引擎等新技术,使得大数据的价值发掘和价值利用成为可能。

 

 

(2)企业信息化发展阶段

数据中台PaaS概念起源于2015年的阿里,为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,阿里正式提出中台战略和“共享服务平台(Shared Platform as Service,SPAS)”。SPAS采用的是基于面向服务的架构SOA理念的 “去中心化”的服务架构,所有的服务都是以“点对点”的方式进行交互。在2016-2018年,诸多互联网网巨头快速跟进推出了自己的中台战略,包括腾讯、滴滴、京东等。进入到2019年,互联网行业和包括政务、能源、零售等传统行业在内的诸多垂直领域在经历了3-5年的市场教育和案例示范阶段后,开始大力投入数据中台的建设,市场上也出现了一批以数据中台为核心产品和服务的创业企业。分析中台战略提出的内在原因,我们认为是与企业自身信息化发展阶段息息相关。

一般认为,企业的信息化过程有四个发展阶段:

– 90年代ERP等企业级IT系统的出现,是由纸质走上计算机、用信息化的方式帮助企业开展业务的第一步,属于信息化1.0;

– 21世纪前十五年是互联网和移动互联网的时代,涌现了CRM,SCM,PDM,PLM,客服系统等一系列的IT系统,服务业务拓展的同时也存在“烟囱式”发展、数据割裂等问题;

– 2015年-至今:中小企业处于信息化中期进程,头部大企业进入信息化后期阶段,数据中台PaaS帮助企业实现数字化转型,从“业务数据”到“数据业务”,成为新的增长点;

– 未来:数字化2.0是智能化的时代,在现有PaaS层的基础上,更多基于人工智能的SaaS应用将以微服务的形式实现“数据智能”。

 

 

 

4、市场规模与需求分析

(1)市场规模

a.根据iResearch的研究数据, 2018年中国数字中台(数据中台+业务中台)规模为22.2亿元,预计在2019-2022年间保持72.1%的年复合增长率,2022年有望达到179.4亿元。目前,数字中台的渗透率较低,增量空间巨大,在企业数字化驱动下,需求增加,因此数字中台市场规模将迎来爆发期。

b.根据中国市场企业IT支出测算:中国企业的信息化、数字化程度相比欧美发达国家比例明显偏低,2018年软件支出占比仅3%,远低于国际上13%的平均水平。

根据Gartner测算,2020年中国企业IT支出总额达到2.77万亿元,截至2025年中国企业IT支出规模将达到4.6万亿元,CAGR:8%;

– 数据中台PaaS作为全新的企业IT系统架构,预计远期(2025年前后)在企业软件支出中的占比或达到15%

• 1)按照当前软件支出占比IT总支出3%计算,则数据中台市场规模为207亿元(2.77万亿*3%*15%); 

• 2)按照中国企业信息化、数据化发展预期,到2025年中国企业软件支出占比将快速提升,达到或略低于欧美平均水平,按照软件支出占IT总支出10%计算,则数据中台PaaS占比为10%*15%=1.5%,市场规模约690亿元(2.77万亿*10%*15%)。

 

c.典型行业需求测算:包括金融、大型消费品牌、政企单位,数据中台PaaS市场规模达到180.5亿元;

– 银行/券商/大型消费品牌:行业渗透率高,大厂自建或选择与阿里等玩家合作开发为主,小厂以外采为主;

– 政企单位:行业渗透率高,政策和业务需求双驱动,一般选择外采;仅考虑省-市级政府单位、地方大数据发展局(取700个测算)和大型国企/央企(取1000家测算);

 

 

(2)需求场景分析

a、核心矛盾:业务层与数据能力层的供需矛盾

 

–客户需求:面对底层各种信息化业务系统,无法快速的获取需要的数据信息(比如想要知道订单能否按时交付或者提前交付);

– 传统做法:分别从独立的业务系统后台数据库读取源数据,再用Excel等工具,人工处理数据关系等,繁琐费事易出错;

– 需求痛点:底层数据(来源、类型多样,抽取、汇集、整理难度大,形成“烟囱式单体运用”)不能快速响应前端快速迭代的数据运用需求;

– 数据中台PaaS解决方案:通过中台机制汇聚相关系统中的原始数据,通过离线或者实时的数据交互,不断更新特征值,提供数据API接口服务给前端业务,充分挖掘数据价值。数据中台PaaS不会影响原有的IT系统,同时赋能业务,原有IT系统不断的为数据中台提供数据,形成闭环。

 

B、需求的用户画像

信息源单一的企业,可以通过数据仓库等方式来解决,但是信息源复杂,并且业务线繁多的企业,数据中台PaaS是最优的解决路径。此类企业,一般具有以下特点:

 

(3)需求特点分析

我们以电商场景和金融场景为例分析企业对于数据的需求特点:

–海量数据和高并发:2019年天猫双十一,仅用时21秒成交额突破10亿,1分36秒突破100亿元。如何在最短时间内,通过跨系统的数据汇聚整合和清洗分析,对上亿用户的订单数据与商家的商品信息、库存情况进行比对,并对客户身份信息、地域来源、下单方式、行为偏好等进行统计分析,需要数据中台PaaS具有处理海量数据、高并发的能力;

–实时性:直播电商的火热带来了全新的销售模式,在客户观看了视频后,电商平台自动根据客户的浏览喜好和用户画像关联,推送相关商品信息;或者券商需要对客户的账户安全、交易信息、风险行为等多维数据进行实时管理;以上场景企业具有对于大数据的实时处理能力;

–兼容性和稳定性:金融行业如银行、券商等,要求兼容多种数据库和数据源;处理非标数据和脏数据的能力和抗风险、防宕机等灾备能力;

以上特点要求数据中台PaaS需要具备汇聚整合能力、提纯加工能力、服务可视化能力和价值变现能力。

 

 

5、核心技术能力

为解决企业数据需求高并发低时延等上述特点,要求数据中台PaaS产品需要具备低时延、高可靠、高兼容等技术能力,在面对不同客户场景和需求特点时,能够快速兼容多种底层数据数据源和数据引擎,高效、低成本的构建PaaS层核心模块。其中,最典型的技术之一就是流式计算能力。

人机交互、工业物联网和云端游戏等诸多数据新场景下,数据的传递逐渐变成连续性的流失数据而非彼此隔断的批量式数据,这样要求了数据PaaS需要兼具数据的离线计算和实时计算能力。随着Hadoop的开源,对于数据处理能力的计算框架也在随着演变,出现了Storm、Spark Streaming、Flink等流式计算引擎。 

比较Flink、Storm、Spark Streaming的逻辑架构和关键特性,我们可以发现:Flink在吞吐量、稳定性、超大数据量背压等特性上表现更佳,因此在面对超大数据吞吐量、高并发和稳定性要求的流数据计算场景下,基于Flink技术路径的数据中台PaaS更有可能满足业务需求。

 

 

二、产业生态分析

 

 

数据中台PaaS产业生态的参与者包括了上游的网络基础设施,IDC等硬件厂商,中游的数据中台厂商和业务中台厂商,下游实施方、行业渠道商和企业客户等。

 

1、产业玩家发展现状

 

2、数据PaaS竞争情况

数据中台PaaS行业当前市场竞争格局存在明显的区域因素,海外存在如Databricks等标杆企业,而国内中台市场主要为国内玩家占据,包括以下三类:

– 互联网大厂:阿里(Dataworks/Dataphin)、网易

– 创业公司:袋鼠云、数澜科技、奇点云等

– 计算引擎厂商:星环科技

 

 

 

 

3、数据中台 PaaS产业生态小结

·数据中台PaaS行业属于大数据底层基础设施,将会作为一个单独细分行业存在。

·数据中台PaaS具有较高的技术门槛和服务门槛,新玩家切入或者大数据行业应用厂商转型做通用PaaS产品的难度较大。

·面对客户的旺盛需求,网络基础硬件厂家、云计算基础服务厂家和咨询机构等非核心竞争环节当前不存在严重的供给不足问题,业务中台和数据中台环节供给严重不足,具备直接投资价值。

·当前市场大型客户需求更多由阿里等大厂满足,初创企业需要在市场定位和渠道上根据自身产品和生态优势做出适当选择,并且在服务客户过程中打磨自身产品化能力,避免掉入海量定制化项目拖累初创企业发展的陷阱。

 

 

三、最优商业模式

最优商业模式:提供标准化、轻量化的数据中台PaaS产品,通过直销和渠道方式进入垂直场景,构建产品壁垒和生态壁垒。

充分条件:

1、以数据中台PaaS为核心构建的差异化产品矩阵(标准化、轻量化、实时性、稳定性、安全性);

2、生态构建能力:渠道拓展能力,具体垂直场景的商业化落地能力,开源社区影响力等。

执行路径:

1、围绕核心数据中台PaaS产品构建生态:1)与业务中台厂商合作打造联合解决方案,由合作伙伴负责交付实施;2)与咨询厂商、IT集成商等渠道伙伴合作,拓宽获客渠道,并转移交付压力;3)与垂直行业和数据应用型公司合作,占据客户场景,丰富自身PaaS产品上层应用;

2、通过技术开源回馈社区,提高业内知名度和影响力,反向提升自身产品能力;

3、嵌入大厂生态:与主流云厂商合作,打包解决方案共同出售。