中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书.docx
《中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书.docx》由会员分享,可在线阅读,更多相关《中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书.docx(16页珍藏版)》请在优知文库上搜索。
1、中海油能源发展股份有限公司钻完井工程设计结构化处理通用算法开发服务采购技术要求书编制:审核:批准:一、项目概况及总体要求钻完井工程设计结构化处理通用算法项目需要通过建设钻完井中英文语料库、知识库,结合文档结构解析技术、人工智能技术,实现从非结构化钻完井工程设计文档中批量、快速提取结构化数据的功能,以解决集团公司数据治理工作中设计只能以文档资料入湖的困境,便于后期入湖、应用和打通设计数据与WelIRePort系统(数据湖)底层数据连接。二、服务内容和范围2.1 服务内容本次需要采购的服务为钻完井工程设计结构化处理通用算法开发服务,包含整体方案设计、算法研究、工具开发及测试、系统运维共计四大部分。
2、具体服务内容如下:(1)整体方案设计与甲方沟通确认开发需求,对甲方提供的示例文档及数据做分析研究,明确数据中各参数意义,熟悉钻完井工程设计的文档结构和特点。在需求分析的基础上,调研各种技术方案在本项目上实施的可行性,对重点技术做初步的测试分析,进而确定最终技术方案。编写并提交详细技术方案,至少包括【设计文档结构解析算法实施方案】、【设计文档中文本的提取和识别方案】、【数据清洗及脱敏方案】、【数据保密方案】、【语料库的标注方案】、【知识库的选型方案】、【知识库的自动化构建方案】、【知识库的人工审核方案】、【神经网络模型算法的选型方案】、【神经网络模型训练及模型优化方案】、【神经网络模型的部署方案
3、】等技术方案。在甲方技术人员的参与下,细化项目需求分析,落实技术关键点,梳理技术路线,确认开发技术架构,完成项目的蓝图设计、原型设计和数据库设计,并提交蓝图设计报告、原型系统、数据库模型。(2)算法研究:D实现设计文档结构解析算法对ClOc、docxPDF、图片类的设计文档,基于文档标签(doc、docx)、字体字号大小及OCR识别技术等,实现设计文档结构的解析,达到等同人工视觉判断的效果。需要识别的文档结构至少应包括如下内容: 不同页面:签字页、目录页、正文页、附录页; 章节结构:目录、一级标题、二级标题、三级标题、四级标题、五级标题、段落前的小标题、正文文本、表格及表格内的文本、图片、页眉
4、、页脚、页码; 能够正确的识别以图片格式出现的表格以及由文本框或其他素材复合形成的图片。2)建设钻完井中英文语料库建立钻完井标准语料数据集。包括钻完井专业相关的标准文件、钻完井专业技术书籍等语料的收集、段落文本的提取及表格文本的提取、清洗、脱敏等工作。该语料数据集至少应当包含APl标准、国家标准、SY及SY/T标准、中海油企业标准、中海油各分子公司QHSE体系文件及井控管理实施细则中与钻完井专业相关的标准文件和海洋钻井手册、海上油气田完井手册等钻完井专业技术书籍。建立钻完井法律法规语料数据集。包括钻完井作业生产相关法律法规等语料的收集、提取段落文本及表格文本、清洗等工作。该语料数据集至少应当包
5、含中华人民共和国环境影响评价法、中华人民共和国安全生产法、中华人民共和国海洋石油勘探开发环境保护管理条例、海洋石油安全管理细则、海洋石油勘探开发化学消油剂使用规定、海洋石油安全生产规定等钻完井作业生产相关法律法规。建立钻完井日志语料数据集。包括钻完井日志数据的收集、清洗、脱敏等工作。建立钻完井设计语料数据集。包括中海油国内海上、国际公司及中联公司钻完井设计文档的收集、段落文本的提取及表格文本的提取、清洗、脱敏等工作。开发数据标注应用,并对上述各钻完井语料数据集中文本的特征、属性和词性进行标注,对钻完井设计语料数据集中需要进行结构化提取的数据进行标注,形成带标注的语料库作为最终的钻完井中英文语料
6、库。标注内容至少应能够满足钻完井工程设计结构化处理神经网络模型训练的需求。3)建立钻完井基础知识库建立包含钻完井设计所涉及的钻完井及相关专业概念、数据间关系的钻完井基础知识库,形成钻完井知识图谱。4)训练钻完井工程设计结构化处理神经网络模型基于通用自然语言大模型+钻完井中英文语料库+钻完井基础知识库+深度学习神经网络,训练钻完井工程设计结构化处理模型,实现从非结构化钻完井工程设计文档中批量、快速提取结构化数据的功能,并提供【模型训练及微调代码和过程记录】。具体工作包括:模型选型及优化、模型训练、模型试部署和测试、模型微调及优化、模型使用说明编写等。具体要求如下:模型支持提示学习(prompt)
7、0 模型输出为标准的结构化文本,如json等。模型支持微调。模型至少应支持提取如下结构化数据:a.地质类数据:钻探依据、地层层位预测、地层压力、温度预测、钻井工程风险提示、录井要求、测井计划、DST测试计划等内容。b.油藏类数据:油田概况、构造特征、储层特征、油气藏类型、流体性质、地质分层、靶点数据、井位图、地层温度压力、钻完井实施要求、配产数据、资料录取要求、钻完井地质风险提示、地质性溢油风险分析等油藏类数据。c.钻完井类数据:钻井轨道设计数据、钻井工程设计基本数据、井身结构数据、钻井液设计数据、固井设计数据、水力摩阻计算结果数据、完井液设计数据、射孔设计数据、防砂设计数据、生产管柱设计数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中海油 能源 发展 股份有限公司 钻完井 工程设计 结构 处理 通用 算法 开发 服务 采购 技术 要求