《基于数据湖架构的时空大数据分析云平台.docx》由会员分享,可在线阅读,更多相关《基于数据湖架构的时空大数据分析云平台.docx(46页珍藏版)》请在优知文库上搜索。
1、领esriainaV-THfSCIfMCCOFWHW“北京捷泰天域信息技术有限公司云GlS产品部研发总监周宁)OesrigmTHfSCIfNCCOfWHMi基于数据湖架构的时空大数据分析云平台3数据存储选型2018年第十六届ESri中国用户大会GIS-InspiringWhafsNext数据存储形态变化多样据类型多样数据海量异构充的数据存储和分析方法不再能满足大数据和,、工智能场景下的业务需求,为了实现更高的敏重性和灵活性,需要一种新的架构模式。Over15YearsofTacklingBigDataProblemsGoogleHI1.2018年第十六届ESri中国用户大会GIS-Inspir
2、ingWhatsNext基于关系型数据库的传统数据仓库以数据湖为基础的支持异构技术融合的架构数据存储与分析发展阶段2018年第十六届ESri中国用户大会GIS-InspiringWhatsNext什么是数据湖?数据湖架构可以在一个集中式存储位置安全地存储、分类和分析所有数据,且数据可以按照原始格式存储而无需转换为预定义结构。Catalog&SearchAccess&UserInterfaceDataIngestion,.iuudStuiKibJiProcessingAAnaIyIicsProtectSSecure数据湖发展2011年概念2016年AmaZOnAWS&MicrosoftAzure
3、&GoogleCloud2018年阿里云华为云7地理信息领域对数据湖架构的已有应用RegisterCloudenStreetMap(AmazonAWS)GoogleEarthEngine(GoogleCloud)EsriArcGIS(WindowsAzure)RegisteradodstoreonyourArcGISServerType:QoudStoreName.CredenWlTypeAccessKeyId:SecretAccessKey:Region:S3BucketName:FokJer:AmxooS3lierooftAzureStorageIicrosoftAzureData1.ak
4、eStorelibabaCloudStorageIuaweiCloudStoragedodarcgisRegisterCachedirectoryCreateCanOeI2018年第十六届ESri中国用户大会GIS-InspiringWhafsNext数据仓库与数据湖数据湖并非对数据仓库的替代,是在应用场景上的相互补充存储和计算可独立扩展(传统处理分析、大数据处理分析、机器学习等)计算,资源回收大数据分析可作为数据湖分析的手段之一大数据分析与数据湖-存储与计算分离来自阿里云的测试一存储与计算分离成本可节约一半以上,性能损失不到10%,且在高并发情况下,存储与计算分离架构更具有优势。jIaDHl
5、HII9.*inI0!jiItKHa%,ftltIIcfiMyGridGridNCtY(XkUacustomIcniMMItW多、快、好、省,不能只能看“快”左边是BCS自、右边3Hnearlinecoldline)最低成本最氐成本fl析型负Q27/TR/月964/单实例/TB/月1598/3节点/TB/月33&/单实例非HA无备份14VCpU8GB内存/TB/月AzureData1.akeStorageGen1toGen2Gen2基于AZUre对象存储BIObStOrage重AdditionalbenefitsfromintegrationwithAzureStorageinclude:Un
6、limitedscaleandperformanceduetosignificantadvancesmadeinstorageaccountarchitecture.Performanceimprovementswhenreadingandwritingindividualobjectsresultinginsignificantlyhigherthroughputandconcurrency.前基于AWS构全球首个面向GIS的SaaS平台时,就已开始面向云环境架构新一代软件,同时对云存储对部分空间数据格式进行了重定义与优化,如MRF、CRF等ArcGIS对云存储的全产品线支持(云原生特性)C
7、loudStorageSupportCloudlnput:S32018年第十六届ESri中国用户大会GIS-InspiringWhatsNextGeoAnaIyticsAllRegionsUser-definedcompatiblestorageServerManager:S3PortalcontentCOnig-Store:DynamODB&S3store:S3ArcGISServerCaching:S3,Consumption:10.5.1Generation:10.6-ArcGISSpatialTemporalDataStorebackups:S3.New-Webgisdrbackups
8、:toS3元数据(编目与管理)数据资源名称数据资源业务描述数据资源字段信息关联数据资源空间元数据标准FGDCISO19115,19115-2,and19119NorthAmericanProfileINSPIREprofileGeminiprofileDublinCoreArcGISMetadataII2018年第十六届ESri中国用户大会GIS-InspiringWhatsNext数据全生命周期维护存储管理处理分析可视化208OFi6l$:22:U13:214文科检1.忡IIc2018年第十六届ESri中国用户大会Ul,GlS-InspiringWhatsNext无服务器(SerVerIeS
9、S)架构支持UC2018年第十六届ESri中国用户大会GIS-InspiringWhatsNexta架构支持支持同时处理历史数据和实时更新数据BathMode&Near-real-timeprocessingVRA(7.3)Aliyun(Public)Qingcioud(PUB1.IC)ManageOne(3.0)FusiOnManager(R5)FusiOnManager(R6)H3Cloud(1.0)DC2-0penStack(1.O)DC2-Eucalyptus(l.O)Azure(1.O)IBMSelectStackd.O)GCloud(6.5.O)Vsphere(6.O.O)zeta
10、(l.O)DC-OpenStackd.O)ManageOne(6.1)HuaweiCloud(Public)PingAnCloudd.O)Tencentcioud(Public)OpenSlack(V3)2018年第十六届ESri中国用户大会GIS-InspiringWhatsNext遥感影像在线查询分析可扩展对接其它第三方模型算法Demo:遥感影像深度学习一体化支持星球级数据规模的架构PB级多来范围的海的在线统一诸管理处理分析可视化TFRecordTFRecordTFRecordTensprFIowImagedata(ExportJmage)TrainZTestdata(Export.tab
11、le)PredictionsCloudStoragepredict()GoogleAI项目实施基本要素数据资源算法模型计算能力专业知识明显的性价比优势“Ivs个人则基于本地私有云存储环境的构建XSKY2018年第十六届ESri中国用户大会GIS-InspiringWhatsNextUCII/、2018年第十六届ESri中国用户大会GIS-InspiringWhatsNext其它数据湖典型应用场景某国地调局积累了数十年的地质勘探积记录,出于成本和容量的考虑必须将数据归档,且还需要能够直接对数据进行历史审计对比和统十分析。多年累积的车辆行驶数据可达EB级,必须要求极低成本且长期的数据存储以便于数据分析挖掘,如通过这些历史数据明细查询,可实现驾驶行为分析以及运输路线回放。企业数据现状没有科学合理的存储选型,基础设施条件与建设思路滞后业务数据通过ET1.被重新定义或清洗到数据仓库老旧的数据被存储到磁带库等离线环境,很难被实时检索到查询分析过程通常效率很低每个部门独自构建自己的大数据分析环境,极少共享2018年第十六届ESri中国用尸大会”塞二GIS-InSPiringWhat,sNext2018年第十六届ESri中国用尸大会”塞二GIS-InSPiringWhat,sNext