中文 · EN
最新动态
助力人工智能开口说“人话”:凯泰资本完成对标贝科技PreA轮投资

  We always overestimate the change that will occur in the next two years and underestimate the change that will occur in the next ten years.

  前言

  为什么人工智能时代注定会到来

  “随风潜入夜,润物细无声”,当一个时代终究要到来的时候,我们希望关注到那可以燎原的星火。

  AlphaGo在围棋上一遍一遍地战胜人类的顶级冠军,人们对人工智能展开了激烈的讨论,有人认为人工智能将代替人类接管这个世界,有人认为人工智能只是一个昙花一现的弱智噱头。我们依旧希望用比尔盖茨的一句话来理性地看待资本市场反人性的特点:We always overestimate the change that will occur in the next two years and underestimate the change that will occur in the next ten years(我们总是高估未来两年的变化,却低估未来十年的变化)。

  对于人工智能,凯泰资本将持续看好,对于有梦想的团队,凯泰资本会持续地支持,我们尤其看好在中国市场创业的企业家们,并且将围绕数据、计算、技术、应用产业链进行投资,构建完整的生态系统。凯泰资本也将充分调动投资资源,与该方向的创业家们一起开疆扩土。我们希望我们支持的企业能够形成“听的清”、“听得懂”、“能理解”、“会说话”、“看得见”、“看得清”、“能有用”的新一代智能系统。

  图1 新一代智能系统示意图(由凯泰资本制作)

  我们把人工智能、物联网、区块链称之为“新信息时代”。在前一个信息时代(软件工程时代),技术的关键环节包括:芯片(CPU)、操作系统、数据库,诞生了一些世界级的公司:微软、思科、Oracle、Intel等著名公司。中国由于改革开放起步晚,教育体系不健全,在软件工程时代在产业上受制于西方国家,大部分利润用于专利的使用费用上。信息产业的发展已经进入到向智能产业转移的节点,我们再谈互联网及软件工程的时候甚至可以将其称为传统行业。人工智能时代的要素发生了完全的改变,基础要素变成了数据、算法和算力。中国从人才、基础设施、消费环境上都与世界接轨,给予了中国巨大的发展机会。技术基础未来在中国也可以成为产业环节,为中国的技术、产品提供基础服务,甚至向全世界输出基础服务,进行资源的全球配置。

  图2 人工智能产业投资方向

  (图片由凯泰资本AI小组整理,公司商标由互联网获取)

  如果我们的世界能够成功向信息时代过渡,我们未来信息化基础设施将发生巨大的变化,例如:我们的芯片中可以用少量的ALU结构而采用大量的并行加乘运算等等。我们不再需要在我们定义的计算机逻辑系统中去告知计算机要执行什么任务,而直接用人类的语言与万物沟通。

  图3 CPU与GPU计算架构示意图

  (图片来源:NVIDIACUDA技术手册)

  尽管我们承认这个过渡需要周期,而我们也看到那些有理想的创业家们正在利用自己的智慧加入到这个周期中来,我们愿意用我们管理的资金去支持那些为这个智能时代作出贡献的企业家们。

  投资事件

  凯泰资本完成对标贝科技的投资

  2017年10月,凯泰资本完成对标贝科技达千万级人民币PreA轮融资。标贝科技是一家以语音合成数据标注为核心,以语音数据、图像数据、文本数据处理为业务的数据工程公司。公司位于北京,于2016年2月注册成立。

  投资逻辑

  1.人工智能:统计学与大数据的世界

  自第一次工业革命以来,这个世界的基础就成为了数理量化统计,而统计的基础是数据。针对“数据”这个问题,存在这两个对立的学派,“频率学派”和“贝叶斯学派”。

  图4 贝叶斯照片(图片来源:网络)

  通俗地说,“频率学派”认为事件的发生存在不确定性,但是这件事情的本身具有统计规律,因此频率学派的出发点围绕“事件本身”建模,对事件本身设定了先验(Prior)。而贝叶斯学派则认为事件发生本身就是随机的,发生的事情可以推断出不确定的知识,学术界一般将此称作后验(Posterior)。对于二学派更多的讨论可以参考《概率论沉思录》。而目前的发展,以深度学习为代表的大数据应用中,贝叶斯学派占据了工程化与商业化的上风。在贝叶斯学派的理论中,针对事件的大数据成为了基础。

  2.数据:人工智能技术基础

  目前,人工智能的发展技术基础是机器学习,机器学习中最广为使用的是深度学习,深度学习与迁移学习、强化学习结合被应用于应用技术的几大领域:图像识别、语音识别、自然语言理解,并逐渐向语音合成、声学信号处理渗透。

  机器学习过程中模型参数学习需要事先针对事件提供大量人类提供的数据格式以及针对数据格式的标注样本,因此数据是人工智能的重要基础。

  图5 语音及图像识别案例示意图

  (原始图片来源于爱丁堡大学2015年教案)

  3.需求:数据标注需求剧增

  近年来,人工智能发展迅猛,产生了一批“独角兽”公司,而这类公司对于场景数据需求极大,目前数据的标注以人工标注为主,依靠公司不断扩建标注团队产能无法被满足,因此第三方数据标注公司从中获益。这与工业时代,公司寻找第三方代工形成产业链分工类似,第三方数据标注公司类似于矿场及富士康的角色,他们为人工智能厂商提供原材料,有充足可调配的人力资源,有标注的流程化验证标准,有标准化工时保障体系,能够提供价格合理的数据加工产品。过去数据标注的基础集中于图像标注、语音识别标注,随着深度学习向声学信号处理、语音合成、情感识别领域渗透,远近场带噪声数据、语音合成数据、情感标注数据等一系列场景数据需求剧增,也带来了更多的数据标注的商业机会。

  4.标的投资逻辑:标贝科技的特点

  标贝科技的切入点以日益增长的语音合成需求为主,语音合成的步骤一般分为三步:1)按照经验采集大量能够覆盖场景的语音数据,场景包括:男、女声音,老人、成年、儿童声音,情感,轻重音,物体声音等(随着人工智能场景的渗透,场景可能会产生更多个性化需求);2)依据语言学标注体系对语音数据进行标注,标注维度包括:拼音语调、语素边界切分、韵律、基频等;3)选择合适的模型和算法进行语音合成。

  图6 几种常用的语音合成方法(图片由凯泰资本AI小组整理)

  标贝科技更加关注语音合成前端的音库质量和标注技术问题,即上述的第一步和第二步。为了让合成的语音更加像人,更富有情感,标贝科技认为要从数据源头的问题抓起,即从语音合成音库质量入手。标贝科技认为不同的产品需要针对不同场景提供个性化音库,未来可延伸的场景非常多。例如,用户希望夜晚读书的声音是温柔的,但是倘若音库本身采集的是录音员字正腔圆的声音,无论对数据如何处理,都很难产出匹配对应需求的声音。上述所描述的录音员录播的风格只是标贝科技重塑语音库的一个元素。为了采集合适的人声,标贝科技的数据专家需要与发声人进行大量的前期沟通,设计包含尽可能多素材的语料,指导发声人的说话风格、语调和停顿方式等,还需要监听环节的专员对发声人不同的片段进行对比以确保风格一致。采集完成后,专业的语言团队还需要对音字、韵律和音节音素进行标注。

  标贝科技凭借10年以上语音合成数据处理的经验,为客户的语音产品做免费评测,分析出合成语音不自然的原因,包括:音库质量不佳、数据加工偏差、前期处理或后期算法的问题。通过免费和专业的测评让潜在客户认识到标贝科技的技术和专业能力。标贝科技获得了百度、滴滴、腾讯、喜马拉雅小雅音箱、芋头科技Rokid、Roobo机器人、暴风、出门问问等众多大客户,并保持长期稳定的合作关系。

  标贝科技的核心竞争力得益于其对前端音库和技术的关注,以及在数据和产品结合方面的经验。团队的技术合伙人从2002年起开始从事语音方面的研究工作,曾就职于百度,并获得百度语音合成(Text-To-Speech,简称TTS)最高奖,从事语音行业十五年,有丰富的项目经验。

  图7 凯泰资本投资标贝科技

  完成融资后,标贝科技将继续对语音合成数据业务深入探索并将数据业务横向扩大。当前,标贝科技的执行模式有一定商业化上限,整体解决方案不是标准化的产品,难以在规模化的同时,实现边际效益递增。因此,在标准化和规模化的方向上,标贝科技计划开发标准自有库,未来企业可以更方便地使用标贝科技合成语音库,迅速投入研发。

  凯泰资本在声学信号处理、语音识别、自然语言理解、机器翻译等人机交互产业链上已经有了产业链布局,未来也将在业务与产业资源整合上陪伴标贝科技共同成长。