更多资讯可登录运营商财经网(telworld.com.cn),也可关注微信公众号tel_world
日前,AWS中国举行在线发布会,介绍数据湖和数据分析的最新发展趋势,并且宣布在西云数据运营的AWS中国(宁夏)区域推出两个重磅的数据分析服务AWS Glue和Amazon Athena,完善其中国区域的数据湖解决方案拼图。前者可以简化数据提取、转换和加载过程;后者可以通过通用的结构化查询语言,直接在数据湖中进行交互式数据查询。
数据湖引领数据分析变革
数据湖在最几年越来越成为热门的话题。所谓数据湖,就是一个集中式的、安全的存储库,它依托云计算的技术和基础设施,允许企业或机构以任意规模,存储所有的结构化和非结构化数据。客户可以按原样存储数据,无需先对数据进行结构化处理;可以对这些数据运行不同类型的分析,从数据仪表板和可视化数据展现,到大数据处理、实时分析和机器学习,指导客户做出更好的决策。
在数据湖概念出现之前,传统分析方法多沿袭“数据库→数据仓库→BI”的路径,大量资源投入其中,建设周期长且产出见效慢。即便是技术和资源储备都非常丰富的大型企业,能够坚持下来并成功落地的也并不多。
如今,现代应用层出不穷,大数据分析近乎“无孔不入”,数据价值兑现的速度不断加快,成为可指导行动的洞察。这种情况下,数据库/数据仓库为核心的传统方法难以为继,一方面,其设计思路始于常见的企业级单体/核心应用,与大数据特征和环境不匹配;另一方面,无法有效应对数据的快速增长,支持各种数据类型和分析需求。
事实上,在你能想象到的各类大数据分析场景中,数据湖框架都是基础架构体系的“唯一正解”。从客户市场服务方面的消费者细分、商品门类分析、客户忠诚度/流失率分析,金融风控领域的异常交易/欺诈侦测、各种风险评估预警,企业市场活动中的价格分析、需求预测,到医疗领域的疾病传播模式、药物发现等,包罗万象。
云上数据湖:AWS不止“十年磨一剑”
无差别地从各种渠道捕获各类数据,处理并支持各类分析应用场景,数据湖本质上是一套“动态”的流程。作为一个集中式存储库,数据湖允许用户以任意规模存储所有结构化、非结构化和半结构化数据,既可以按原样存储数据(无需先对数据进行结构化处理),也可以运行不同类型的分析——从数据仪表板与可视化,到大数据处理、实时分析和机器学习,以指导做出更好的决策。
围绕数据湖和大数据分析生态,业界发展出包括Hadoop、MapReduce、Spark等在内的一系列开源框架和组件,为组织搭建平台和创新应用带来了丰富的工具和方法。相对而言,数据湖更加灵活,能够更快速地适应上层数据应用的变化。比如,现代化的互联网应用中,其大部分数据来源并非数据库,可能来源于设备、网站、传感器或社交媒体,只有数据湖可以屏蔽底层异构数据源的差异,摆脱数据仓库的种种束缚,实现面向业务需求的联合查询和分析。
涓涓细流汇江海,云计算天生具备海量存储和高性能计算能力,为数据湖应用和大数据分析场景提供了“沃土”。2006年,AWS发布Amazon S3,引发云计算革命。十多年来,AWS逐渐将Amazon S3发展成云上数据湖的核心,并围绕Amazon S3陆续开发出一系列数据湖相关服务,构建了一套完整的云端大数据分析体系。
比如,通过面向大数据处理的Amazon EMR,用户可在AWS上轻松运行Spark、Hadoop、Presto、Hbase等大数据分析;对应实时数据分析这一分析框架的重要组成部分,Amazon Kinesis可支持用户轻松地实时收集、处理并分析视频和流数据;数据湖还可以与机器学习和人工智能结合,通过Amazon SageMaker开展更多自动化的预测性分析,充分释放大数据的潜能。
完整拼图:两大重磅产品亮相
AWS Glue和Amazon Athena在AWS中国(宁夏)区域正式上线,标志着AWS数据湖和大数据分析平台在AWS中国区域的完整拼图已经显现。
AWS Glue是一种全托管的数据提取、转换和加载(ETL)服务及元数据目录,实现了数据分析准备工作的自动化,让客户从准备数据到开始分析的时间由几个月缩短到几分钟。由于AWS Glue是无服务器服务,客户在执行ETL任务时,只需要为他们所消耗的计算资源付费。
Amazon Athena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据,几秒钟内便可获得查询结果。
涵盖数据移动、数据存储、数据湖、分析和机器学习五大维度,基于AWS的整个大数据分析全景图中,绝大多数服务目前都已在中国落地。针对各类现代应用和大数据分析场景,各行各业的用户都在AWS上快速构建,通过各种产品方案组合匹配需求。为什么越来越多的企业和组织通过AWS来构建数据湖,开展大数据分析?AWS首席云计算企业战略顾问张侠博士指出,全面、安全、经济高效、易于构建、应用广泛是AWS云平台的核心特点,AWS的创新都是围绕客户需求来开展的。
适时响应中国客户需求
在中国,移动互联网繁荣发展,传统企业也不断掀起数字化转型浪潮,企业拥有的、可以利用的数据也越来越多,数据湖的建设和利用成为大势所趋。事实上,一些出海的中国客户,也已经先行一步,全面使用AWS数据湖解决方案的各种组件。
茄子快传是一家全球化的互联网科技公司,累计有18亿用户。茄子快传搭建了一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传数据运营负责人何诚表示,“茄子快传的数据量大,分析维度多,业务也非常复杂,所以经常需要多维度多颗粒度的高并发分析,AWS的分析工具很好地满足了我们日常的数据提取和分析需求。使用Amazon Athena,我们可以轻松地运行交互式查询,分析数据,不必构建和部署额外的集群。同时,我们运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”
Club Factory使用数据湖来在不同的数据之间建立关联,为客户在全球寻找各种各样的产品。通过AWS,Club Factory每天处理15亿条各种行为的分析,支持80多位数据工程师的各类需求,支撑180个数据调动分析任务,每日同步4000+业务数据到Amazon Redshift,支撑的数据量达近600TB。基于AWS数据湖架构建设数据化智能化电商平台,Club Factory实现了“人工智能+商品、“人工智能+消费者”、“人工智能+供应链”的全方位技术应用创新。
大宇无限是一家专门从事移动应用程序开发的公司,主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。大宇无限平台技术负责人李睿表示,“每个月,我们的业务运营都需要花费大量人力,分析全球十亿用户的海量数据。使用Amazon Athena交互式查询服务之后,我们可以用SQL语言直接在 Amazon S3 中轻松查询、分析用戶数据,节省了成本,减轻了运营压力,普通的工程师与业务部门人员都可以方便地自助查询各类业务数据,极大地提高了生产效率。”
北京壳木软件有限责任公司(Camel Games)是神州泰岳旗下的手机网游公司,2011 年获得了Google Play 官方颁发的 Top Developer(顶尖开发者)称号。Camel Games服务器主管张华表示:“AWS Glue帮助我们完成了复杂的ETL任务,可以从数百个Amazon RDS数据库中定时提取所需要的数据,供数据分析部门进行迅速而直观的全局统计,大大缩短了原本跨表查询的时间”。
德比软件为酒店和旅游行业提供在线销售和产品分销方面的技术和系统服务,并拥有全部产品和服务的自主知识产权。它拥有全球超过18万家酒店的数据,每月处理超过800万间夜的订单。德比软件大数据团队技术经理戴岳表示:“AWS Glue使得ETL和异构数据源的处理变得更加容易,大大降低了开发和运营成本。它非常适合于开发和启动敏捷数据项目。另外,AWS Glue的数据目录功能让我们可以轻松使用Amazon EMR来直接处理和查询Amazon S3上的数据,提高了我们的开发效率。”
AWS全球副总裁及大中华区执行董事张文翊表示,“客户经常问我们,是否可以让他们方便地对Amazon S3数据湖中的数据执行查询,而不用关心配置和管理服务器、集群这些事情。现在,我们很高兴由西云数据运营的AWS中国(宁夏)区域推出Amazon Athena,以响应AWS中国客户的需求。Athena完全不需要管理基础设施,任何能够编写SQL查询的人都能以高性价比的方式快速分析他们在Amazon S3中的数据。”“AWS可扩展、可靠的云存储,加上我们广泛的分析服务,使客户比以往任何时候都更容易收集、存储、分析和共享数据。随着AWS Glue在由西云数据运营的AWS中国(宁夏)区域正式上线,中国区域的客户可以轻松地从任意多的数据源传输和处理数据,整合数据到数据湖,并且可以选用多种AWS分析服务,迅速开始分析所有数据。”
他山之石,可以攻玉
“吃自己的狗粮”,Amazon早已在整个企业内部建立了一个数据湖——Galaxy。Galaxy将所有数据整合在一起,进行各种各样大数据的分析,存储了50PB到100PB的数据。通过它,Amazon每天执行多达60万的分析任务,从给用户的推荐、各种运营信息、库存信息、购买意向的信息、商品价格的信息等,相关洞察都通过数据湖来实现,这也是Amazon关键的核心竞争力之一。
FINRA是美国的金融监管机构,每天有超过1500亿的事件、需要对超过20PB的数据运行复杂的查询,以监测和分析非法的市场活动。FINRA将所有金融的交易的信息整合在一起,可以处理所有的内部交易。使用AWS的数据湖,FINRA提高了系统的敏捷性和速度,每年可节省1000万美元到2000万美元。
除了Amazon和FINRA以外,还有大量的企业和机构都已经开始采用AWS的数据湖和数据分析云服务,例如,金融领域还有著名的基金管理公司Vanguard、证券交易所NASDAQ,互联网及电商方面除了Amazon还有全球民宿短租公寓预定平台Airbnb、酒店及机票预订网站Expedia、美国版大众点评Yelp、房地产评估服务网站Zillow、即时通信软件Viber、慈善社交应用Just Giving等,电信领域有NTT Docomo,软件公司有Atlassian,游戏公司 EPIC Games,传统领域有多元化创新企业3M、知名造纸企业Georgia-Pacific、北美最大的食品服务销售企业西斯科(Sysco),媒体行业有Hearst赫斯特杂志国际集团(《ELLE世界时装之苑》等媒体的母公司),医药行业有安进公司(Amgen),等等。他们创造了丰富的成功案例,为中国的企业和机构提供了宝贵的经验借鉴。
可以预见,越来越多精彩的现代应用、数据湖和大数据分析故事将在AWS云平台不断上演。
(责任编辑:康玲华)
运营商财经网(官方微信公众号tel_world)—— 主流财经媒体,一家全面覆盖科技、金融、证券、汽车、房产、食品、医药及其他各种消费品报道的原创资讯网站。