如今,在科技领域,将数据描述为“新的石油或电力资源”早已司空见惯。在未来,这种“新燃料”势必将推动企业创新和增长。然而,数据并不是一个新兴的行业。事实上,这是一个已经有着数十年历史的市场,许多成功的数据公司,如彭博、安客诚、Oracle Data Cloud和尼尔森,都是在十几年前成立的。现如今,它们已经成为行业领导者。
相对于之前,现如今的数据业务存在一些特征上的区别。数据市场的规模正在快速增长,这主要是因为新的测量方法(如移动电话、物联网传感器和卫星图像)产生了新的信息形式,以及新的流行使用案例,如人工智能,需要依赖大量高质量的数据。
金融、营销和房地产等领域是传统的数据市场,新的变化导致了对非传统数据市场数据的需求大增。它们还导致了数据公司的迭代,并形成了所谓“数据即服务”(DaaS)的公司,例如Datanyze、Safegraph、Clearbit、PredichHQ和DataFox。DaaS追求更高速度、更高质量、接近实时的数据,从而可以支持更严格的需求,例如训练机器学习算法。非金融公司非常乐意接收外部数据,帮助他们简化运营、供应链和营销。
在数据即服务这一不断发展的领域中,有几个属性可以让公司取得成功:
这似乎是一个显而易见的观点,但是太多的企业家认为自己可以轻松地销售大量高质量的数据。虽然对数据的需求比以往任何时候都高,但使用数据并将其集成到一般客户工作流程中的能力并没有实现民主化。
举例来说,音乐下载和图表是有价值的数据,但目前客户群还不够大,只有少数玩家在主导这一市场。社交媒体或网红排名数据,如Klout,也是类似的。有许多类别的实时数据不具备维持大规模DaaS业务所需的规模或影响。
许多初创公司想要“颠覆”一个领域,但是Daas公司需要专注于整合到现有的工作流程中,而不是要求客户改变他们的经营方式。这需要公司拥有深厚的客户知识和能够立即为企业提供价值的数据,并提供便利的集成。
潜在客户对大数据、Hadoop和商业智能热潮已经司空见惯,但他们唯一谈论的却是仪表板疲劳。所以,对DaaS公司来说,关注无缝集成和解决定义明确的客户问题是非常重要的。
数据业务通常具有显著的COGS,尤其是在小规模范围内。然而,随着数据业务的增长,毛利率会显著提高。因此,我们需要了解获取或生成数据的成本是否会随着新客户的出现而发生变化,这一点非常重要。我称之为增量利润,即生成数据的成本和这些数据的售价之间的差距。
如果你第50位客户的毛利率明显高于你的第一位客户,那么你正在建立的是一家获得风险投资支持的公司(或者,如果毛利率足够高,你甚至可能根本不需要风险投资公司的支持)。这种不断增长的利润是打造大型可持续DaaS公司的关键支柱。
如今,数据准确性正日益推动着公司创新,随着数据用于人工智能训练,质量变得更加重要。如果一家公司将数据用于营销活动之类的事情,数据质量的好坏并不重要。此外,到目前为止,人们已经接受了最低标准,即通常80%的营销数据可能是错误的。然而,当数据被用来为人工智能应用和机器学习算法提供动力时,低数据质量可能会带来灾难。
换句话说,DaaS必须是机器可读的。一些数据可能需要清理,比如Trifacta,该公司提供了确保更高质量数据的工具。其他公司,如Crowdflower(如今的Figure Eight)、Mighty AI和Samasource,会对数据进行标签化,并对其进行清理以供算法使用。
换句话说,数据更新应该有持续的价值。成功的DaaS公司不提供数据来服务一次性用例,相反,数据应该具有速度变化(随时间变化;天或小时)以及了解正在发生变化的内在价值。
数据速度越高,该公司数据中存在的价值潜力就越大。房地产或股票市场数据就是价值以更快速度增长的例子。
只有数字是远远不够的,DaaS公司必须提供工具和分析或人工智能来解锁数据、识别趋势,然后围绕这些趋势提供背景。人工智能在寻找数据集之间的相关性方面特别有用,Safegraph为我们提供了一个很好的例子。当位置数据包含足够的速度和精度时,它远远超过其各部分的总和。
例如,当与基于邮政编码的收入数据配对时,位置数据可以告诉我们很多关于食物沙漠的信息,以及它们对贫困家庭的不相称影响,也就是说贫困家庭必须走三倍远的距离才能到达杂货店。或者,位置数据可以告诉我们不同城市之间出行模式的巨大差异——这些信息对于自动驾驶车辆的开发至关重要,不同的使用情况需要不同的车辆类型和考虑因素。
上述属性使DaaS业务区别于传统的数据公司,如果想建立可持续、高增长公司的初创公司应该注意这些关键因素。随着对人工智能增强产品的需求增长,DaaS只会随之增长——但数据质量、速度和利润率将决定一家初创公司是否能够长期取得成功。随着对DaaS的需求增加,我预计我们还会看到整个数据市场和数据清洗产品及服务都围绕着它不断发展。