Airbnb的数据科学团队领导人Riley Newman在nerds.airbnb.com的日志上写道:“数据是一种行为或事件的记录。通常情况下它可以代表出人们所做出的决定。如果你可以重现一个人做出决定的过程,你就可以从中学到很多东西;这是从人们那里知道他们喜欢或不喜欢什么的不直接的办法——这个特性比那个更吸引我,我发现这个功能很好用但是那些……没有那么好用。这样的反馈可以成为做出有关社区成长、产品开发或者资源优化的决定时非常有价值的信息来源。我们可以把来自客户的信息翻译成一种更适合指引我们做出决定的语言。”
正是这种从用户反馈中获得信息的洞察力让Airbnb得以将他们的精力集中在发展高峰期时热门旅游景点的房主数量上。并且为价格制定出明确的结构标准以使得他们能最大化程度利用他们全球化属性而收集来的海量数据。比如说,数据可以帮助Airbnb通过像位置、出租时所在的时间段、铺位的类型、交通的发达程度等数种变量来决定一个房间或一间公寓的合适价格,Airbnb现在可以利用算法来帮助他们的客户做到这些。如果你考虑到这些房间都是真正的“家”,而不是旅馆那种标准化的、可以轻易的用星级来评判好坏的房间,你就会发现要给出一个清晰的调价方式真的是件很有挑战性的事。毕竟那些在城市公寓中比较会让人满意的条件(比如WiFi、便捷的交通)对于一间古典、精致的小农舍可能就没有那么重要了(那里的住客可能会更渴望平静、浪漫的生活而不是WiFi覆盖或者地铁直达)。
为了帮助房主们定价,Airbnb开发了一套叫“Aerosolve”的机器学习平台。这个平台会自动将城市划分成无数个由微型街区组成的小区域,并分析房主们拍摄的房间照片(展示一个温馨舒适的卧室会比展示一间时髦的客厅更加容易获得青睐!)。Aerosolve还模仿酒店和航空公司的定价模式搭建了一套动态定价策略。
Airbnb还开源了一个叫“Airpal”的平台:这是一个用户友好型的数据分析平台,能允许公司的任何员工——而不是只有那些受过专业训练的员工获得和分析公司的数据信息,并且使用Airpal提供的工具对其进行质询。
大数据应用的结果怎么样?
就像Newman说的那样:“颇为讽刺的是,衡量一个数据科学团队给公司带来的影响反而是很难的,但是有一个明显的信号是:现在不管是技术人员还是非技术人员,都一致的希望能参考更多数据来作出决定。”这种现象在Airpal里得到了表现和证明。2014年上线运行的Airpal系统至今已经被超过三分之一的员工用来进行查询和质疑。这个让人印象深刻的数字表明了数据已经成为了Airbnb内部决定流程中非常重要的一环。
而Airbnb的不断成长也是另一个他们对数据的明智使用产生了回报的侧面体现。
有哪些数据被用上了?
被分析的数据主要是由格式化的和无固定格式的消息混合起来的内部信息:屋主拍摄的房间照片、地理位置、居住条件(房间、床位的数量,WiFi,热水浴缸等等),用户反馈和评分,事物处理数据之类。也有一些外部数据会被考虑进去。比如英国的爱丁堡有一个非常出名的节日“爱丁堡文化节(The Edinburgh Festival)”,在节日期间,同一条件的房间的定价会比一年中的其余时段都要高一些。
可以说一些技术细节吗?
Airbnb目前手握将近1500TB的数据,像蜂巢一样由HDFS(Hadoop Distributed File System,一种用来管理大数据的文件系统)集群组织起来,托管在亚马逊的EC2(Elastic Compute Cloud)云服务中。Airbnb曾经用亚马逊的RedShift服务作为数据查询工具,但后来换成了Facebook的Presto。因为Presto是开源的,所以他们能及早的修复发现的漏洞并且打上相应的补丁。
在未来,Airbnb希望将数据处理的方式由现在的批量处理升级为实时处理,这将能让他们更好的发现和处理支付过程中出现的异常现象,并且提升房源匹配和个性化信息的准确度。
有什么需要克服的困难吗?
其实Airbnb的数据科学团队面临的一项巨大的挑战反而是跟上公司梦幻般的发展速度。在2011年早些时候,这个团队仅由三名数据学家组成,因为那时候公司还很小,所以尽管只有三人,他们也能有足够的精力来处理每个员工遇到的数据问题。但在那一年的末尾,Airbnb就已经有了10个国际分公司,公司的人数有了巨大的增长,这也意味着数据团队不可能再一对一的为公司的员工解决问题了。
就像Newman对此所说的那样:“我们需要找到一个让我们的工作变得更大众、通俗的做法,不仅是局限于一对一的指导和帮助,我们需要允许工作组、全公司甚至我们的整个社区都了解使用这些数据的办法。”随着更快速和可靠的技术的购入,这个想法成为了可能。他们还把搜索查询基础数据的工作也从科学家们手中交给了整个公司的团队们,在项目控制面板和Airpal提供的工具的帮助下,这些数据让Airbnb的团队如虎添翼。并且由于数据科学家们从这些繁琐的一对一工作中解脱了出来,他们可以将精力集中在一些更酷、更有用的项目上。教会公司的团队如何使用这些工具是帮助他们获得对数据的洞察力的关键。
我们能从中学到什么?
Airbnb是一家对大数据的需求和应用随着公司的扩张而成长的完美的例子。我想,他们随着公司的成长而调整、转换自己以适应新节奏的能力是他们赖以成功的关键和精髓。这点更突出了大数据的“非静态”属性,你的数据处理策略可能需要随时变化来应对需求的改变。
而一个数据科学团队能与公司内的所有团队都配合的如此之好(即使他们不会再同每个员工面对面交流了)也是一件非常了不起的事。这不仅意味着数据团队能保证一直对公司的商业目标保持最贴切的理解,也强调了公司保持基于数据的决定方式的重要性。毕竟如果没有人会依据它们来行动的话,你有再多的数据也没有用。