华为云Spark技术创新和实践王飞业界主流大数据分析引擎?Apache顶级项目,拥有最强大的大数据开源社区,业界公认的大数据分析引擎翘楚?支持流、SQL、机器学习、图多种处理范式,满足企业多样化分析模式需求?大数据领域最好的生态圈,多种Datasource对接支持?针对数据分析师和数据科学家提供最简洁易用的分析APISpark:统一大数据分析处理引擎ApplicationsSpark华为Spark核心能力构建Query(SQL)Analyze(DataFrame)CarbonHiveDB(MySQL,etc…)HDFS/OBS兼容:适配DataSourceAPI,以分布式方式对接各数据源性能:扩展Catalyst,加入针对各数据源的优化规则,并引入CBO优化器12兼容HQL、TPCDS语法3统一元数据管理4UniformAccessAPI(SQL,Scala,Python,Java)DatasourceAPIParquetDatasourceJDBCDatasourceCarbonDatasourcePlanner(Catalyst)CBORBOUnifiedMetadataUnifiedDataManagement围绕Spark构建高稳定、高安全、兼容性、极致性能大数据统一分析能力华为构建(自研):CBO(基于代价的优化)则可以根据实际数据分布和组织情况,评估每个计划的执行代价,从而选择代价最小的执行计划。Spark查询优化器业界主导者UnresolvedLogicalPlanLogicalPlanOptimizedLogicalPlanPhysicalPlansSQLParserStrategyOptimizer(RBO)SQL/HQL