欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    云平台存储运维中如何进行故障诊断.docx

    • 资源ID:1401940       资源大小:11.12KB        全文页数:3页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    云平台存储运维中如何进行故障诊断.docx

    随着云计算、大数据等新兴技术体系的快速发展.云数据中心运维需求应运而生,传统的运维人员,以往接触最多的是硬件,如服务器、集中式存储、网络设备、空调、UPS等,但是在云数据中心时代运维人员已经从面向物理设备,逐步转变为面向虚拟化、SDS(软件定义存能)'云的管理方式.从云计算概念和实践中延伸出了一种新的存储模式云平台存储,我们可以从两方面理解云平台存储的定义:第一,在面向用户的服务形态方面,它是一种提供按需服务的应用模式,用户可以通过公/私网络连接云端存储资源,在公/私有云端随时随地存储数据;第二,在平台云存储服务特性方面,它是通过分布式、虚拟化、智能配声等技术,实现海量.、可弹性扩展、低成本、低能耗的共享存储资源。那么云平台存储运维如何进行故障诊断呢?首先,在传统集中式存储故障诊断过程中,我们一般按照先定位外部,后定位内部的原则.在进行系统的故獐定位时,应该首先排除外部设备的问题,外部设备问题包括光纤、光缆、客户设备和断电等向超,内部问题包括硬盘、控制器、接口模块等故障问题.具体的发生故障收集信息诊断过程包括但不限于:1)检肯主机端信息.如检肯多路径是否安装正确,直看物理珞径状态、虚拟磁盘信息、逻辑路径状态、多路径和舌是否正常。2 )收集文件系统故障信息.如收集NTFS/EXT3/EXT4/JFS2等文件系统的故障信息日志等.3 )收集卷管理故障信息.收集1.VM配置及1.V/PV/VG等相关信息,是否有损坏或告警.4 )收集数据库故障信息。查看存储磁盘的相关报错代码.5 )收集HBA信息.直看HBA卡的生产厂商和型号,收集HBA卡驱动的版本号信息是否存在兼容性问题.6)收集交换机信息.Si看端口、SFP信息,分析链路质量、SFP发光功率是否存在问题.7)收集传统集中式存储信息.查看告警日志,导出Support日志,与厂商共同分析日志报错,查明原因.传统集中式存储可以通过收集上述信息并联合存储厂商进行诊断,基本能够在短时间内快速的排除故障.由此可见传统存储呈现给用户更多的像一个黑盒子,通过自带的告警日志能够较快速的定位、解决问题,而云平台存储在故障诊断方面会略显且杂,从某种程度上讲,云平台存储故陵率跟前期的规划设计存在较大关系.因此,云平台存储的故阳更多会来源于前期规划的不合理及软件BUG等.下面就以Ceph开源云存储为例探讨一下故瘴诊断和恢豆,包括但不限于如下几个方面:1)架构问Sg诊断.选型初期,需严格按照Ceph(SDS存储)官方硬件兼容列表进行硬件选型,根据不同场景(IOPS优先、吞吐量优先、存阵优先)配首相应性能和与分布式存储软件认证兼容的CPU.内存、硬盘,避免部分硬件配背的选型性能瓶颈、驱动兼容等导致不可预见故障,如常见的SDS集群进程DOWN、读写延时大、读写IO异常等.2 )NTP时间校准问题诊断。时间同步在众多集群系统中是非常至要的一个基础服务,集群内时间不一致很容易造成集群内节点服务异常、认证失败,建议部署私有专网或者互联网的NTP服务器,比如当Ceph集群中,有节点出现时间不一致时,将会出现OSD数据同步问题、MoN选举问题、创建云主机失败或宕机问题、分布式存储数据分布不均衡或者脑裂等问题,在故障节点上电新进行NTP时间校准同步,一般就能解决上述问题.3 )性能间即诊断.在Ceph分布式存储中,整个集群的性能很大程度上取决于存储介质的有效选择,应该在选择存储介质之前了解到集群的工作负载和性能需求.从最佳实践看,首先,网络限面存储网和业务网做分窸,服务器选用万兆网卡,存储流量的网卡、对应交换机开启巨型帧等.其次,磁盘介质优化。比如OSDZJournaI等文件优先存放在SSD硬盘上,数据盘采用JBOD,提高元数据、日志数据、业务数据的存储效率,再次,数据存储的文件系统选择.BTRFS对于生产环境来说不是很稳定,但有能力记录Journal和并行的写入数据,相对而言XFS和EXT4效果会更好.另外,以Ceph为代表的分布式云存储的参数调优还有非常多,依据不同使用场景,参数优化更为复杂,所以从日常运维故障诊断角度看,分布式云存储比传统集中式存储运维更复杂、更需具有整体技术架构的把握度。从扩展性角度看,传统集中式存储盒式交付,通过增加磁盘来获得容景,但性能受制于控制器;而分布式云存储完全可以由用户自行定制,容量可以横向扩展、性能也能够线性增加.以上简单描述了分布式云存储(以Ceph为例)与传统集中式存储在运维过程中的故障诊断思路分享,实际生产环境故障问题千奇百怪.掌握其原理、做好各系统及硬件设备的应急预案才能有效、快速的处理问迹、解决问题,保证业务系统的连续性.

    注意事项

    本文(云平台存储运维中如何进行故障诊断.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开