《大数据整体架构.pptx》由会员分享,可在线阅读,更多相关《大数据整体架构.pptx(4页珍藏版)》请在优知文库上搜索。
1、1数据采集平台基础设施(服务器、存储、网络、虚拟化、私有云、公有云)数据源综合服务预测预警态势监控效率评估路线规划航班计划调整工具关键指标计算工具战略管理传统数据存储与管理航班机场航空器航空情报监控视频地空通话空域气象 快数据处理(实时事件)快数据流处理(Event Processing)引擎实时决策引擎数据管理元数据数据质量管理数据传输任务与管理数据安全数据标准事件监控舆情定制移动端应用程序态势监控实时事件侦听页面请求侦听网络爬虫SqoopCDCETLMap/ReduceAPI编程多结构数据存储与管理多结构原始数据存储(Raw Data)融合数据存储(Integrated Data)分布式分
2、析与挖掘引擎数据集市通用语义区报表分析与挖掘引擎整合数据区基础数据区数据交换文件交换数据库共享Web services消息交换数数据据治治理理共共享享和和运运行行环环境境数数据据平平台台1、整体架构结构化数据半结构数据非结构化数据DBAgentTextAgentLogAgentWeb crawlerBinAgentApiAgent数据源公网内网消息接入控制模块消息缓存模块消息分发模块数据交换平台XBRL+DataX+Kafka分布式存储引擎 HDFS/YARN批量计算引擎MapReduce内存计算引擎Spark 流计算引擎Storm /Spring Stream 批量查询Hive交互式查询Im
3、pala实时查询Hbase交互式内存SparkSQL内存数据挖掘MLLib内存图计算Graphx大数据数据处理平台实时流处理平台MySQL+Redis 应用服务平台报表OLAP服务查询可视化定制+ECharts 数据挖掘服务移动服务应用服务平台统一元数据统一调度和监控 Zookeeper+oozie+Ganglia基础设施(服务器、存储、网络、虚拟化、私有云、公有云)Web crawler开放平台API2、技术架构数据规划和梳理数据源数据采集平台数据中心数据清洗数据分析数据挖掘数据应用数据实时分析(流式计算)数据离线分析1、获取外部数据2(b)对数据实时处理2(a)数据存储3 (b)推送到数据
4、应用端3 数据清洗4 清洗后的数据存储5 数据分析、挖掘6 数据利用数据流结构化数据ETL工具非结构化文档工具PDF ALALIB语义识别工具Semantic LIB 数据采集Data Acquisition分布式文件系统HDFS内存数据库In-memory DB非关系型数据库No Sql 数据存储Data Storage流处理引擎Stream数据挖掘/机器学习Data Mining 数据计算Data Process并行计算引擎(MapReduce/Spark/Storm)文本搜索资源管理Yarn分布式协助服务ZooKeeper预测算法prediction Algorithm 数据分析算法 A
5、lgorithm Library关联分析算法association Algorithm 评估算法 evaluation Algorithm 深度学习Deep Learing增强学习Q-Learning推荐算法recommendation Algorithm 时序分析 Sequential Algorithm 回归算法Regression Algorithm 文档存储Document Store全文检索Full-text Search列式数据库ColuMN DB网络爬虫Web crawler实时事件侦听Real-time monitor数据侦听Data monitor监控及配置管理平台Configuration Management Platform数据安全管理平台Data Security Management Platform3、数据平台