大数据软件测试.pptx
《大数据软件测试.pptx》由会员分享,可在线阅读,更多相关《大数据软件测试.pptx(32页珍藏版)》请在优知文库上搜索。
1、大数据测试实战目录大数据概念大数据测试方法面试大数据测试人才的必备技能介绍第一部分大数据概念大数据背景1.DT时代,数据将在生产品过程中起到激发、辅助的作用,让用户获得更大的经济价值。2.数据蕴涵着巨大的商业价值,人们需要的就是快速对数据进行处理和分析,从而产生有价值的业务决策。3.ETL(抽取(extract)、转换(transform)、加载(load)过程为联机分析处理、数据挖掘提供决策支持的数据。大数据概念最初起源于美国,是由思科、威睿、甲骨文、IBM 等公司倡议发展起来的。大约从2009年始,“大数据”成为互联网信息技术行业的流行词汇。大数据概念提出者:麦肯锡全球研究所,给出的定义是
2、:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。大数据最小的基本单位是bit;按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。大数据的特征:容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息; 种类(Variety):数据类
3、型的多样性; 速度(Velocity):指获得数据的速度; 可变性(Variability):妨碍了处理和有效地管理数据的过程。 真实性(Veracity):数据的质量。 复杂性(Complexity):数据量巨大,来源多渠道。 价值(value):合理运用大数据,以低成本创造高价值。大数据概念第二部分大数据测试方法TEXT HERETEXT HERE TEXT HERETEXT HERE TEXT HERETEXT HERETEXT HERE TEXT HERETEXT HERE TEXT HERETEXT HERETEXT HERE TEXT HERETEXT HERE TEXT HERE
4、TEXT HERETEXT HERE TEXT HERETEXT HERE TEXT HERE大数据测试方法-数据全链路数据应用类大数据测试方法UDF类实时数据类MR类深度学习算法类数据产品类代码走读代码规范问题 代码性能问题字段间关系主键是否唯一 字段a字段b枚举值分布枚举类字段值数据量及范围整表数据量字段区间分布大数据测试方法-数据应用类代码走读代码规范问题 代码性能问题字段间关系主键是否唯一 字段a字段b枚举值分布枚举类字段值数据量及范围大数据测试方法-数据应用类一、代码走读:1.列对齐2.Insert overwrite表中不能出现select *3.表别名是否重复4.Mapjoin里
5、的小表是否在当层子查询中存在5.Join on 条件是否误写成一致等等二、字段间关系(最终输出表):如:PVUV、A=B+C、A=B+C等,主键是否唯一三、枚举值分布:校验枚举类字段的枚举值是否完整、通过枚举值分布校验数据正确性四、数据量及字段值范围如:一天支付量、一级类目个数、每日旺旺登陆UV、字段最大小值、字段长度区间分布数值类型的分布分析区间范围特征值验证异常数据反推数据对比系统迁移业务升级对比测试系统迁移业务升级大数据测试方法-数据应用类代码走读代码规范问题 代码性能问题字段间关系主键是否唯一 字段a字段b枚举值分布枚举类字段值数据量及范围大数据测试方法-数据应用类一、区间分布:数值类
6、型字段整体的分布情况例如:成交金额(笔记本电脑成交金额大部分分布在3k-1w,女装类目情况)二、特征值验证:构造数据复杂、成本高;反向从源头表中寻找异常数据取有代表性的数据、异常数据三、数据对比:1.系统迁移(数据结构变更、代码变更,调度系统迁移,历史数据迁移)2.业务升级(核心中间层数据变更)单机测试本地测试单元测试集成测试结果是否合理运行时间结果是否出现倾斜性能测试Mapper数Reducer数CPU,MEM响应时间对比测试历史数据对比节点数据对比大数据测试方法-MR类代码走读代码规范问题 代码性能问题字段间关系主键是否唯一 字段a字段b枚举值分布枚举类字段值数据量及范围大数据测试方法-M
7、R类一、单机测试:本地测试:本地提交运行job,得到Reduce端输出,即只关心最终结果单元测试:构造Map端和Reduce端的输入数据,对Map端和Reduce端的输出断言二、集成测试:代码以jar包形式上传到集群上运行,可能发现:大资源文件读取到内存,程序是否正常,job启动是否变慢,日志是否有异常结果是否出现倾斜运行时间是否符合预期三、性能测试:关注业务基线产出时间;查看mapper数,reducer数,cpu,mem,响应时间等单元测试JUNITJENKINS集成测试HIVE/ODPS环境对比测试重构对比测试大数据测试方法-UDF类代码走读代码规范问题 代码性能问题字段间关系枚举值分布
8、枚举类字段值数据量及范围大数据测试方法-UDF类一、单元测试:基本同java、python的单元测试方法,通过JEKINS来持续集成,利用覆盖率插件来统计各种覆盖率二、集成测试:在HIVE/ODPS环境中验证case,例如:select udf_data_diff(2014-01-19, 2014-01-20 12:00:00) from dual;单机测试集群测试关心测试参数、模型文件关心性能,job时间等参数调优不同的参数导致模型的效果不同训练速度不一样ABTEST使用外部公开数据集效果对比评估大数据测试方法-深度学习算法类代码走读代码规范问题 代码性能问题字段间关系主键是否唯一 字段a字
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 软件 测试