一种基于随机森林算法的探明储量预测新方法.docx
《一种基于随机森林算法的探明储量预测新方法.docx》由会员分享,可在线阅读,更多相关《一种基于随机森林算法的探明储量预测新方法.docx(10页珍藏版)》请在优知文库上搜索。
1、一种基于随机森林算法的探明储量预测新方法摘要传统的哈伯特模型、翁氏模型等预测方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。文章基于随机森林机器学习模型,建立了一种预测累计探明储量增长趋势的新方法。该方法通过相关性分析找出影响探明储量增长的可量化指标,从而确定模型训练中的输入属性,以同类盆地油田年度累计探明储量为评价单元,建立随机森林机器学习样本数据集,通过调整决策树个数和单个决策树的最大特征数,对模型进行优化训练,从而建立累计探明储量预测模型,成功解决了多因素叠加下储量非线性增长预测的难题。该方法在东部断陷盆地油田年度累计探明储量预
2、测中应用成效显著,预测模型拟合的准确率达到88.19%,具有巨大的推广应用价值。关键词:机器学习;随机森林算法;储量增长趋势;东部断陷盆地;油田年度累计探明储量O引言储量是勘探工作的目标和导向,采用科学的方法预测储量增长趋势和合理确定储量指标对于油公司发展规划编制和勘探工作部署制定具有至关重要的意义。传统的油气储量增长趋势的预测方法包括基于生命旋回的哈伯特模型、翁氏模型、逻辑斯谛模型、高斯模型等,以及基于概率论与蒙特卡洛统计模拟法的油田规模序列法”51,这些方法在国外广泛应用,国内油公司在学习、引进这些方法的同时,也在实际应用过程中建立了适合本地区储量增长特征的方法,例如对储量发现历史数据进行
3、拟合的“帚状”预测模型以及针对勘探发现中储量“多峰”增长问题建立的多旋回哈伯特模型、多旋回高斯模型等51.现有的方法技术存在的主要问题包括:目前广泛应用的哈伯特模型、翁氏模型等预测的是盆地整个油气勘探生命旋回的资源量、最终探明储量,无法有效解决中短期储量增长预测的问题;现有的预测方法主要研究对象为单一盆地或凹陷,缺少对同种类型盆地的研究;目前的方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。随着人工智能技术的快速发展,机器学习等智能算法也开始广泛应用于油气勘探领域。例如半监督模糊C均值机器学习、卷积神经网络(CNN)、支持向量回归与长
4、短期记忆网络等方法被应用于沉积相分析中,进行储层孔隙度、渗透率等的预测。但是在规划计划编制过程中,规划指标的建立等方面仍然缺乏智能方法的应用,主要依靠专家的经验,主观性较强。本文建立的随机森林(RandOmForest,RF)机器学习模型能更为合理地解决多因素影响下的储量增长趋势预测的问题,更为真实地反映储量增长的客观规律,提高储量预测的准确度,从而为年度油气勘探规划储量目标的制定提供更为科学精准的依据。1方法原理1.l基于随机森林算法的机器学习预测模型前人的研究主要是根据石油储量历史数据通过线性拟合建立储量与相关影响参数之间的数学关系,但是储量增长是不同勘探阶段的地质认识、勘探投入、勘探理论
5、和技术进步共同影响的结果。这种多因素影响下的储量增长趋势预测的问题,往往是非线性相关的,普通的数学模型很难建立相关因素与储量之间的关系。因而尝试采用机器学习的方法可以解决更为复杂的、多维度的、非线性的多参数的智能预测问题。机器学习中的一个大类叫集成学习(EnSembIe1.earning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。随机森林就属于集成学习,是将许多棵决策树(DecisionTree)整合成森林并用来预测最终结果的方法。Breiman等在20世纪80年代首先提出了决策树算法,算法的核心是将数据反复分类或回归以减少计算量。这种方法可以高效处理大规
6、模数据集,且预测效果良好。但是这种算法容易忽略数据之间的关联性,容易出现过拟合。2001年Breiman提出随机森林的概念,这种方法是基于单一决策树模型,采用集成学习的思想创造出的一种更为高级的算法,既可以处理属性为离散值的量,也可以处理属性为连续值的量。随机森林,顾名思义,是用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行判断,看这个样本应该属于哪一类,选择次数最多的类别就是样本预测的那一类(图1)。随机森林模型训练的特点是随机选取样本和特征属性,而随机森林分类的过程近乎
7、是一个黑箱操作,这就在最大程度上避免了主观因素的干扰,从而提高模型算法的模糊性和多样性。且随机森林模型对于解决小样本、非线性、高维度的问题具有简单易行、运算效率高、不易过拟合的优点,其预测效果要远好于线性回归预测3201O由此,对于小样本条件下、非线性多因素影响的中短期探明储量增长趋势的预测,随机森林机器学习模型具有较大优势。随机森林算法预测累计探明储量的核心是机器学习样本集生成、超参数优选、模型训练和预测模型建立。决策树数量和特征属性数是影响随机森林模型性能的两个超参数,这就需要一定数量的样本来保证模型随机抽取数据特征形成多个决策树,构建森林。解剖大量已发现油气藏的储量发现历程,分析储量增长
8、的可量化影响因素,能够提供模型训练所需的随机特征属性,该过程是对模型进行优化的过程,会影响到最终预测结果的精度。因此,随机森林算法更适合解决具有一定历史数据的成熟探区的储量增长预测问题,而对于勘探新区储量增长的预测则具有局限性。1.2样本点的建立及模型参数的选择1.2.1 预测模型样本点的建立选取某油田年度累计探明石油储量作为模型的样本点以及基本评价单元,细化评价单元可以为机器学习算法提供更加充足的样本点,提高最终预测结果的精度和可靠性。盆地的基本石油地质条件是影响探明储量增长的关键性因素。前人研究认为储量的增长受含油气盆地的构造特征影响,不同类型盆地其储量增长特点各异。东部拉张型坳陷盆地储量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 随机 森林 算法 探明 储量 预测 新方法