服务器故障处理方法探讨

  白白二世      2016-09-29   

作者:深圳市环球数码科技有限公司  陈武亭

 


 

2002年上海国内第一套数字放映设备投入商业使用以来,国内已经有超过35000套数字放映设备在影院使用。十几年来业内同仁写了很多数字放映设备使用维护方面的文章,却很少有讨论服务器故障处理方法的,本文将以GDC服务器为例,抛砖引玉,与广大业内同仁共同探讨数字电影服务器故障处理方法。



声画不流畅、放映中途停止是影片放映中出现比较多的故障现象,放映机及还音系统因素导致的故障不在本文讨论之列,本文仅探讨服务器因素导致的此类故障及其检查方法,下面我们先了解一下数字电影服务器的工作原理和流程。



数字电影服务器的放映管理系统(SMS)在安全管理器的监管下将存储在存储系统中的加密内容(DCP)提取到媒体处理系统,进行解密、解码等处理,产生无压缩的重建图像、声音和字幕,并输出至数字放映机和声频处理器而实现电影的放映。



影片放映时,数字电影服务器是在数据的提供、传输和处理的整个过程中依次读取、传送和处理一帧帧图像和音频数据的。在此过程中,服务器的硬盘和阵列的性能、数据传输的通道、媒体模块和CPU的温度以及所存储的内容数据的完整性,都有可能导致放映不流畅或中途停止。



就以处理数据量最大的视频来说,服务器是依次从存储系统中读取图像数据,并将数据传送给媒体模块进行处理。在这个过程中如果某一帧图像数据出现错误,服务器会花费更多的时间尝试纠错,当超过一定时间时,服务器将放弃此帧数据,进行后续帧的数据读取和处理。一部普通2D影片有十几万帧的图像数据,只要不是连续的多帧数据出现问题,我们从影片放映的效果上是感觉不到问题的,只有连续的帧在数据处理时出现问题时,才会看到放映不流畅的现象;如果问题严重时,则会出现放映中途停止或死机。



首先我们从节目源开始讨论,DCP打包前出现的问题不在本文讨论范围内,因此通常需要注意的是服务器内所存储内容数据的完整性。此类问题一般为DCP载入服务器过程中产生,现象为服务器只在放映某部影片时出现异常,放映其他影片正常,且出现问题时均在同一时间点,那极大可能是存储系统中的DCP数据有问题,此时只需对DCP进行完整性验证即可确认。



如果可以排除内容数据完整性问题,且故障出现随机,则应考虑是否因为服务器的RAID降级或硬盘性能不佳所导致的故障。造成RAID降级的因素有很多,数字电影服务器均采用RAID5技术保证存储系统的容错性与可靠性,具有数据安全、读写速度快、空间利用率高等优点;但不足之处是如果1个磁盘出现故障以后,整个系统的性能将大大降低,在修复完成前出现放映不流畅或中途停止的几率大大增加。因此当数字电影服务器的RAID存储系统出现故障时应尽快恢复,避免因存储系统的性能降低而出现放映故障。



服务器出现RAID降级等问题时,开机都会有信息警示,只是现实中有相当一部分放映员对此视若无睹,直到放映出现异常了,才去查看处理。及早地处理,不仅可以避免放映事故,还可降低硬盘硬件损坏更换的几率。图一为GDC服务器开机时报告的RAID警示信息,见到此警示需要及时进行查看和修复服务器阵列。我们也可以通过菜单查看服务器的RAID状态,比如GDC服务器可以直接在控制面板中查看,例如图二中显示的RAID状态为降级(Degrade)。

图一





图二



接下来我们再讨论硬盘性能不佳或损坏的问题。



硬盘在环境温度为5-60℃的设计使用寿命为5年,实际上其使用寿命一般低于5年。而且随着开机时间的增加(与每天使用硬盘的时间有关)、硬盘内部温度的升高(与硬盘外部的热负荷以及硬盘自身产生的热量有关),硬盘的年故障率会有所提高。有研究表明当硬盘外壳的温度由30oC(接近室温)上升至70oC时,年故障率上升至约3.4 倍(由0.21%上升至0.71%)。



除此之外,异常地中断磁盘的读写、物理撞击和剧烈振动等因素,也都可能导致硬盘性能降低或损坏,严重的硬盘错误甚至可能导致服务器无法开启。因此,严格地遵循数字放映设备操作使用规范操作使用设备是确保设备正常运行的重要条件。



数字电影服务器都会提供硬盘读写性能检测的功能,例如GDC服务器,可以进入控制面板(Admin panel)——存储系统管理(Storage System Management)——存储效率(Storage performance)(见图三和图四)进行硬盘和阵列的读写性能测试,从而判断其性能是否可以满足影片放映的需求。

            


图三





图四



在打开的存储效率(Storage performance)界面中选择需要检查的项目进行读写性能检测。图五为GDC SX2000系列服务器的截图,截图中选项/dev/md0为整个RAID的读写性能测试功能菜单,选项/dev/sda(b/c/d)为单个硬盘的读写性能测试功能菜单,其中sda为服务器系统硬盘,sdbsdcsdd为数据磁盘。




图五



图六为GDC SX3000服务器的截图,此型号服务器将外置存储模块加载为一个磁盘的形式进行使用,只能对整个外置存储模块进行检测,选项/dev/sdb为存储模块读写性能测试的功能菜单。单个数据硬盘的检测由外置存储模块自行进行,通过硬盘指示灯状态进行辨别(见表一)。




图六




表一



单个磁盘的读取速度与服务器所使用的硬盘品牌、系列有关,数值不一而足,但三个数据盘必须使用同品牌同型号的硬盘,例如图五中数据盘使用的是Hitachi的型号为HUA7230的硬盘,而系统盘使用的是WDC的型号为WD5000AAKX的硬盘。就数字电影服务器上常用的日立企业级硬盘来说,其读取速度一般在80MB/秒以上(见图七中的标注线)。




图七



在服务器投入使用时,进行读写性能检测并记录结果,可以为今后的故障判断提供参考。在进行读写性能检测时,需要注意三个数据硬盘间的读取速度不能相差太大,我一般建议读取速度最低的硬盘其数值与另两块硬盘读取速度数值相差超过20MB/秒时即考虑更换。



正常情况下RAID的读取速度为单个磁盘读取速度的两倍左右。如阵列有降级或重建,RAID的读取速度会降低,此时放映影片极易出现声画不流畅之类的异常,因此放映时应避免内容载入、删除等操作,降低出现放映异常的风险。



数字电影服务器出现阵列降级时一般会进行阵列的自动修复,服务器是否正在阵列修复可以通过查看数据磁盘状态指示灯状态(红灯不停闪烁)或通过菜单查看相关信息进行判断。图八中的阵列状态信息显示即为服务器正在进行阵列的重建,在修复完成前不要关闭服务器。




图八



假如服务器无法进行阵列的自动修复,则可以进入控制面板(Admin panel)——存储系统管理(Storage System Management)——将硬盘加入冗余存储阵列(Add disk to RAID array)进行手动修复。在手动修复前最好进行磁盘读写性能的检测,对检测出性能异常的硬盘应将其移出阵列,进行更换。外置存储模块无需此类操作,通过硬盘状态指示灯判断后直接更换硬盘即可。



前面我们介绍了内容提供环节中的内容数据完整性的验证、硬盘和阵列的性能检测,这也是数字电影服务器出现故障最多的环节。例如服务器播放影片时放映中断并报告错误提示"Error detected during playback",根据我们统计的数据看该故障80%是由于硬盘故障导致,10%由于重建阵列(Rebuild raid)导致,其他原因只占10%。接下来我们讨论在数据传输和数据处理异常所导致的放映不流畅或中途停止,这些异常主要体现在数据传输通道不畅、媒体模块和CPU工作异常方面。



目前我们所遇到的CPU工作异常都是因为温度过高,运行不稳定造成的数据处理延滞,其形成原因无非是散热不良造成,由主板性能不稳定导致的故障非常少见。而数字电影服务器一般都未提供CPU温度的直接查询,只能通过SNMP获取温度警报的方式进行监控,发现CPU温度偏高及时解决散热问题即可。



CPU工作异常和数据传输通道不畅造成的数据传输异常,影院的放映员是无法直接获取信息进行判断的,虽然服务器的日志对此会有较为详细的记录,但只有厂商的技术人员才能从中获取有用信息,对于影院的放映员来说,实际工作中可行的通常做法是根据经验判断后进行交换测试来确定故障具体所在。



GDC SX2000系列服务器为用户提供了一个简单辨别硬盘与主板之间数据传输异常的方法,进入控制面板(Admin panel)——存储系统管理(Storage System Management)——硬盘信息(Hard Disk information),选择硬盘检查其S.M.A.R.T.属性值。服务器会生成检测报告,如果报告中199项的奇偶校验错误率值为非零,且此数值持续增加,表明硬盘与主板之间的数据传输异常。这可能是硬盘与硬盘机架接触不良或硬盘机架和主板之间的SATA线连接不良造成的,可尝试重新安装硬盘,连接或更换SATA线,确保数据通道连接良好来解决。如图九中,被检查的硬盘其199S.M.A.R.T.属性值为1,只要此值不再继续增加,则说明已解决了硬盘与主板之间数据传输异常的问题。




图九



媒体处理系统是服务器的核心所在,也是数字电影服务器数据处理量最大的环节。如果工作异常会出现各种各样的现象,比如掉帧、偏色、画面昏暗、音画不同步等等。在实际应用中,更多的是因为媒体模块温度过高造成的掉帧和偏色,媒体处理系统的软件或硬件问题导致的异常几率很小。



导致媒体模块温度过高的因素一般为环境温度过高或散热不良,GDC服务器媒体模块的温度可以在控制面板中查询,如图十中媒体模块的温度为59℃。




图十



对于媒体模块未嵌入放映机的数字电影服务器(GDC SX2001/SA2100)来说,降低设备运行环境温度,确保设备通风良好以及DCI卡上散热风扇运行正常即可有效解决温度过高问题。而媒体模块嵌入放映机内的数字电影服务器则相对复杂,媒体模块运行环境温度为放映机内部温度,倘若放映机产生的热量无法及时交换出去,将会导致媒体模块在工作时自身产生的热量无法及时释放,极易温度过高导致运行不稳定出现放映故障。



在故障处理的时候,也应考虑到存储系统中冗余文件过多、服务器外部连接的硬盘出错以及网络数据流量过大等因素导致的放映不流畅或中途停止。

 


 

参考文献

 

1GDC数字电影服务器用户手册

 

2Tom Coughlin Storage Options for Digital Cinema

声明:影聚合仅提供信息展示和存储服务,文章均来自网络和个人,内容仅代表作者本人观点,不代表本站观点。部分内容由AI智能生成,请谨慎参考。如内容如有侵权,请联系cm@rov8.com,我们将第一时间处理。

评论(0)

等待你的第一个评论哦...

影片推荐