本文由河北科技师范学院动物科技学院副院长马增军教授研究生团队翻译,硕腾猪业获授权发布。
摘 要:生产者对生物安全做法进行投资,以降低引入猪繁殖与呼吸综合征病毒(PRRSV)等病原体的可能性。对种猪群生物安全措施的评估通常是通过调查完成的。这项研究的目的是评估机器学习(ML)算法的使用,以确定关键的生物安全实践与种猪群自我报告(是或否)过去5年的PRRS爆发相关的因素。此外,我们通过比较这些模型的阳性预测值(PPV)和过去5年报告的PRRS爆发频率,探索将其作为引入PRRSV的风险指标。调查使用来自美国14个生产系统的84个繁殖母猪群评估生物安全因素的对照研究的数据。开发了两种方法,方法A确定了20个变量,并对在过去5年中报告了PRRS爆发的农场进行了准确分类,准确率为76%。方法B确定了6个变量,其中5个已经由模型A选择,模型B的精度优于前一个模型,精度为80%。选定的变量与农场的风险事件频率、农场周围的猪密度、农场特征以及与其他农场的运营联系有关。方法A和方法B的PPV与过去5年农场报告的PRRSV爆发频率高度相关(Pearsonr分别为0.71和0.77)。我们建议的方法有可能促进生产者和兽医的决策,同时加强生物安全,基准关键的生物安全实践和因素,识别相对较高的PRRSV引入风险的地点,以便更好地管理病原体引入的风险。
关键词:生物安全实践和因素,PRRSV爆发,风险指数,机器算法,决策
1
简 介
生物安全是为减少病原体传入和传播的风险而采取的所有措施的组合(Amass and Clark, 1999; Food and Agriculture Organization, 2010)。换言之,生物安全措施旨在将疾病排除在农场之外,并控制地方病在农场的进一步传播。采取这些做法对于防止猪繁殖与呼吸综合征病毒(PRRSV)等传染病在猪群中传播至关重要。尽管自首次报告以来(Keffaber,1989)进行了多年的研究,PRRSV仍然每年造成价值6.64亿美元的损失,并被认为是影响全球养猪业健康发展的主要问题(Holtkamp et al, 2013; Pileri and Mateu, 2016)。
生物安全性的评估通常通过评估高度相关的生产实践来完成(Boklund et al, 2004)。PRRS特定的生物安全评估考虑了最有可能在农场之间传播PRRSV的风险事件(例如,动物移动、从农场到农场的补给的收发、人员流动、与其他动物的接触、空气和水)(Otake et al, 2002a; Perez et al,2015; Zimmerman et al, 2012),并有助于理解PRRSV如何被引入猪群 (Holtkamp and Linhares, 2017; Silva et al, 2018)。
机器算法(ML)广泛用于监测人类和动物健康,因为它们可以处理分类和回归操作。结果预测是基于使用大量解释变量建立的数百个随机决策树的共同结果 (Breiman, 2001; Machado et al, 2019,2015)。与其他“常规”方法(例如Logistic回归模型)(Tuerlinckx et al, 2006)相比,ML算法显示出更好的性能(Fountain-Jones et al, 2019; Machado et al, 2019,2015)。广义线性模型在处理这些非线性响应和复杂交互方面没有那么有效,这是大多数机器学习算法在处理这些非线性响应和复杂交互时的一个重要优势(Elith et al, 2008;Tu, 1996)。
生物安全调查数据往往是复杂的、相关的和广泛的。因此,ML的特性使其成为识别生物安全实践中的漏洞和与PRRSV引入风险相关的因素的一种有吸引力的方法。确定和对与PRRSV爆发最相关的生物安全做法和因素的排序将产生生物安全对PRRSV传播的影响的新观点,并允许随着时间的推移对猪生产系统内部和之间的关键生物安全做法和因素进行基准测试。
这项研究的目的是评估一套ML算法的使用,以确定关键的生物安全做法和与报告的猪繁殖与呼吸综合征(PRRS)疫情相关的因素。此外,通过评估这些模型的阳性预测值(PPV)与过去5年报告的PRRSV爆发频率之间的关系,探讨了使用这些模型的阳性预测值(PPV)作为引入PRRSV的风险指标的可行性。
2
材料和方法
就本研究而言,“生物安全措施和因素”是指为防止或降低PRRSV传入种猪群的可能性而采取的所有措施。风险事件被定义为可能导致PRRSV引入的事件,并在表1中按类别进行描述。风险事件是基于发生在种猪群上的常见事件和文献中的数据而确定的。此外,生物安全因素包括农场附近的畜群特征和猪群密度,这些因素本身并未归类为生物安全。
2.1 研究设计和数据收集
这项研究中使用的数据来自一项病例对照研究,该研究旨在描述与高发病率相比,PRRS爆发历史较低的种猪群的生物安全措施(Silva et al, 2018)。
这项研究的目标群是莫里森猪健康监测项目(MSHMP)的一部分种猪群。MSHMP是一个猪病监测项目,美国生猪生产者每周都会分享疾病状况,它代表了来自25个生产系统的930个母猪群的样本,其中包括大约270万头母猪 (Perez et al, 2019)。生猪生产系统被定义为由同一公司拥有、管理或两者兼有的养猪场。
本研究的来源群体是向MSHMP报告的猪群,研究样本是来自14个猪生产系统的84个种畜的样本,这些系统同意分享PRRS爆发的历史信息,并完成生物安全调查。这些数据是其中一位作者(KLB)在2017年夏天使用电子文件(Microsoft Excel)收集的,并在需要时进行了个人采访。用于报告定义PRRSV爆发的是在养殖猪群中识别出一种PRRS野生型病毒,并由生产系统自行报告。
在这项研究中有趣的结果是,在农场自我报告的五年内,至少有一次PRRSV爆发(病例)或没有(控制)。
2.2 生物安全调查
用于获取生物安全因素的调查是通过爱荷华州立大学的PRRSV爆发调查计划(Canon et al, 2015) 制定的,并收集了有关畜群特征、猪群密度、PRRS爆发历史(PRRSV爆发次数)、风险事件频率和与每个风险事件相关的生物排斥做法的信息。这项调查载于“补充文件”中的表A。
2.3 机器算法
机器算法(ML):随机森林(RF)(Breiman,2001),支持向量机(SVM)(Boser等,1992)和梯度增强机(GBM)(Friedman,2001)被用于探索PRR爆发与生物安全因素之间的关联。在这项研究的背景下,算法对结果进行分类的能力取决于数据的复杂性、数量和内部结构。因此,我们基于较高的i)准确性、ii)敏感性和iii)特异性对报告了PRRS爆发的农场进行分类,比较并选择了最佳算法(图1)。
首先,将数据按其自然不平衡性质(病例与对照的不同比例)进行建模。然后,通过R package caret中的“down Sample”函数执行采样策略(Max Kuhn Contributions from Jed Wing et al, 2018),并与不平衡数据进行比较,因为倾向于大多数类别(案例)的分类很可能会影响模型性能 (Haixiang et al, 2017)。对于采样策略,对多数类进行随机采样,以匹配最稀有类的频率。在采样之前,将原始数据随机均匀地分为训练集(80%)和独立测试集(20%)。
通过k-交叉验证方法对机器算法进行检测,并通过独立测试进行验证。所有算法(RF、SVM和GBM)都使用260个与生物安全实践和因素相关的变量进行了训练(80%的数据)。RF采用randomForest软件包(Liaw and Wiener, 2002),SVM和GBM采用Caret程序包进行(Max Kuhn Contributions from Jed Wing et al, 2018)。在试验过程中,由于训练和测试数据来自同一方面研究,因此在内部实施重复10倍交叉验证过程来估计模型性能,以防止过度拟合并人为提高准确性。图1描述了我们ML框架中的步骤。
图 1 流程图显示了我们的机器学习框架中的步骤。
每个ML算法的模型性能都可以通过构建混淆矩阵计算精度、特异性和灵敏度来评估(图1)(Machado et al, 2019,2015)。从原始数据集中留出的20%的数据被用作观察的独立测试集。独立的观测测试被输入到选定的ML算法中,以此算法预测新数据的结果。准确率是根据正确预测的观测值的总比例来计算的。用TN(真阴性)除以TN和FP(假阳性)之和计算特异性。每种ML算法的灵敏度计算方法为TP(真阳性)除以TP和FN(假阴性)之和。可用于将一个农场划分为一个案例的阈值是概率≥50%(0.50)。
2.4 变量选择和排序
为了对每个变量的重要性进行排序,计算了通过基尼指数测量的未标度节点杂质。不管采用哪种算法,变量重要性得分代表每种生物安全实践和预测PRRSV爆发的因素的相关性,值越大越代表预测因子的高相关性。
为了减少预测变量的数量,生成了两种方法,分别称为方法A和方法B。方法A使用三个参数进行变量选择:1)准确性,计算变量排列时的准确性。2) 为每个变量计算P值,以评估它是否在随机算法中使用的频率高于随机将变量包含在决策中的频率。假设变量是随机分布的,P值基于分割在变量上的节点数量的二项式分布 (Ishwaran et al, 2010)。3)节点纯度,计算分裂后节点杂质基尼指数的平均降幅(即节点纯度的增加)。最后,只考虑p值≤为0.01、节点纯度增加>0.04点、准确度增加≥为0.1的变量。
方法B包括Boruta算法 (Kursa and Rudicki, 2010),这是一种通过比较真实变量与随机探针的相对相关性来确定变量相关性的更直接的方法。已经发现Boruta是选择相关特征的最有效方法之一,并且通过使用树状算法测量每个变量的重要性来实现 (Kursa and Rudnicki, 2010)。Boruta是一种所有相关的变量选择方法,比大多数其他方法更好;这意味着它能找到所有携带可用于预测的信息的变量,而不是找到一些分类器具有最小误差的可能紧凑的变量子集 (Kursa and Rudnicki, 2010)。使用Boruta软件包中的“Boruta”函数。
通过部分相关图进一步分析了相关变量的影响。这些数据在控制所有其他变量影响的同时,提供了每个预测因子对PRRS爆发可能性的边际效应。通过直观地检查与预测变量的值相关的一般模式,可以更好地理解变量效应的部分依赖性(Friedman, 2001)。因为我们采用了病例或对照的二元分类模型,所以部分依赖值在“logit”尺度上进行了报道 (Cutler et al, 2007),其中值越大表示成为病例群的可能性越大(图1)。
2.5 阳性预测值作为风险指标
阳性预测值(PPV)是预测为病例、报告至少一次PRRS爆发(McKenna and Dohoo, 2006)并使用方法A和B进行估计的概率。
评估方法A和方法B获得的PPV是否可以作为风险指数,根据关键生物安全措施和因素的组合来识别风险较高的农场。估计每个农场(n=84)的PPV,然后用Pearson相关系数评估PPV与每个农场报告的PRRS爆发频率(爆发次数)之间的相关性。相关系数用包装统计量进行估计 (R Foundation for Statistical Computing, Vienna, 2011)。
3
结 果
3.1.描述性分析
对来自14个生产系统的84个畜群进行了调查。34个(n=34)畜群在过去5年没有报告过PRRS疫情,50个畜群报告了至少一次PRRS疫情。阴性养殖场平均母猪群规模为3100头,阳性养殖场平均母猪群规模为3811头。
3.2.模型选择与验证
通过交叉验证步骤中模型性能与排序算法的比较,筛选出性能最佳的算法,未降样本的RF性能最佳,准确率为76.4%(±2.49),SVM为69.11%(±2.05),GBM为70.14%(±5.32)。RF敏感度为86.2%(±3.45),SVM敏感度为72.97%(±8.91),GBM敏感度为79%(±5.42)。RF特异度为62.5%(±3.87),SVM特异度为68%(±4.77),GBM特异度为57.50%(±3.12)。表2描述了RF算法的交叉验证混淆矩阵(表2)。因此,使用RF算法并应用方法A描述的规则,基于精度提高和节点纯度选择20个变量。各变量对PRRSV爆发影响的计算P值如图2所示,按准确度和节点纯度的增加计算。
方法B使用6个预选变量作为最终模型,RF算法同样表现最佳,准确率为80%;灵敏度:86%;特异性:72%。表2描述了交叉验证的混淆矩阵。对方法A中选取的变量计算的相关矩阵进行分析(补充图A),发现少数变量,特别是与事件发生频率相关的变量具有高度的相关性。方法B中使用的变量之间的相关性不显著(补充图B)。
表 2 使用方法A((p值和基尼指数)的分类性能,该方法具有用完整的预测器变量集(n=19)训练的RF模型的混淆矩阵,以及使用方法B(Boruta)的分类性能,该方法具有用完整的预测器变量集(n=6)训练的RF模型的混淆矩阵。两者平均使用10次交叉验证的10次重复。括号内给出了标准差*。
图 2 方法A:变量选择。根据基尼指数和精确度度量的可变重要性。红色的变量表示更常用于拆分随机林中的节点的变量。(有关本图形图例中提到的颜色的解释,请参阅本文的网络版本)。
3.3. 变量的重要性
这20个变量根据它们对节点杂质的未缩放平均减少对模型预测的贡献进行排序(图3)。员工进食、每月断奶频率、饲养频率、农场员工数量、员工年度流动率和每月扑杀母猪的频率是A方法中PRRSV分类的六个最重要的变量。方法B的可变重要性矩阵如图4(上)所示。按重要性顺序排列的是每个月的断奶频率,其次是半径3英里范围内的仔猪数量。随后的排名如下:PRRSV阳性动物用拖车拖运,拖车也拖运宰杀的母猪,现场处理身体的类型,每月清除死亡动物的频率,以及是否为商业猪群。
图 3 随机采用方法A(p值模型和基尼指数)进行变量重要性分析。用于分类的20个变量的集合按照RF模型估计的重要性排序。
图 4 使用方法B(Boruta-Feature Reduction)绘制随机变量重要性和部分依赖图(Boruta-Feature Reduction)。上面是生物安全方面,按重要性排序。底部是部分相关图表明PRRS预测的边际效应。
对于A和B这两种变量选择方法,能够根据PRRS爆发报告对农场进行正确分类的关键变量和:农场特征和需求、每月发生风险事件的频率、农场周围的动物密度以及与其他农场的业务联系有关。方法A和B中确定变量的分组描述性分析可在补充文件的表B中找到。
3.4 部分相关图
各变量对PRRS爆发概率的影响如部分相关图所示。由于方法A(n=20)保留的变量较多,补充文件中的图C描述了完整的局部图,对于方法B,图4(下)描述了部分相关图。
总而言之,猪群被归类为报告了PRRSV疫情的概率随着风险事件的频率(例如每月呈现的频率)和农场周围的猪密度(例如3英里内的猪场或猪的数量)的增加而增加(见图2)。同样,当养殖场没有现场处理死亡动物的方法,或者养殖场与其他养殖场共用拖车运输繁殖替代动物或宰杀母猪时,报告PRRSv爆发的风险增加(见图。补充文件中的4和C)。然而,报告PRRS爆发的风险随着每月断奶频率的增加,随着农场每天工作的员工数量的增加,以及对访客走后消毒时间要求的增加而降低(见补充文件中的图C)。
3.5 PPV作为PRRSV爆发的风险指标
PPV反映了猪群被归类为报告PRRS疫情的可能性。方法A和方法B的PPV与PRRS爆发频率有很强的相关性。两种方法相比,B法PPV相关性较高,Pearson相关系数为0.77(p值<0.01),而A法PPV相关系数为(Pearson r=0.71,p值<0.01)。图5描述每个农场的PPV与疫情数量之间的关系。结果表明,PPV越高,农场报告的疫情数量就越多。
4
讨 论
在这项研究中,我们提出了两种变量选择策略(A和B)。评估了大量的预测因子,目的是确定关键的生物安全措施和能够正确分类农场PRRSV爆发的因素。在比较方法A和B与使用全部260个变量的完整模型的性能(准确率为65.0%)时,两种方法都优于使用较少变量的完整模型。方法A使用20个变量的准确率为76.3%,方法B的准确率更高,仅使用6个变量的准确率为80%。此外,两种模型都比完整模型具有更高的灵敏度。与其他统计方法一样,ML方法的性能会受到所关注结果比例不平衡的影响,这一点在兽医流行病学中经常被忽视 (Haibo He and Garcia, 2009; Liaw and Wiener, 2002; Machado et al, 2019)。为了解决这个问题,我们使用了down-sampling策略,并将结果与忽略不平衡的模型的结果进行了比较。结果表明,不平衡对模型性能没有影响(结果未显示)。
最后变量的排序(按重要性降序)(图3和图4)表明,PRRS分类中涉及的主要变量可以分为四类:农场的风险事件频率、农场周围的猪密度、农场的特征以及对访客/与其他站点的运营连接的限制。已确定的变量与PRRSV爆发之间的关联此前已在其他地方报道过(Derosiers,2011;Pileri and Mateu,2016)。
在这项研究中确定的变量中,风险事件的频率是最相关的。进食频率是最重要的影响因素,与员工数量高度相关。其他增加风险的事件是渲染频率、垃圾收集频率、饲料投放频率、维修频率和淘汰母猪移走频率。先前的研究表明,卡车、拖车、动物产品、饲料、饲料、受污染的设备和人员有可能增加PRRSV的传播 (Dee et al, 2004;Dewey et al, 2014; Magar and Larochelle, 2004; Otake et al, 2002b; Pitkin et al, 2009)。尽管其中一些事件可能并不代表高风险,但随着风险事件频率的增加,病原体引入的可能性也会增加(Romagosa,2017)。
另一方面,在员工进入频率较高的农场,风险较低。这一发现在之前的其他研究中也有报道 (Boklund et al, 2004; Postma et al, 2015; Ribbens et al,2008; Van Steenwinkel et al, 2011),一种可能的解释是,拥有大量员工的养殖场往往更关注生物安全培训和合规性。此外,每月断奶频率较高的猪群患这种疾病的风险较低,同样的假设也可以在这里推测。
从两种方法选择的22个变量中,有4个变量与养殖场周围的猪群规模和猪密度有关。我们的结果表明, PRRSV爆发时,养殖场被分类的可能性随着养殖场周围的猪群规模和猪密度的增加呈线性增长(图4和C补充文件)。我们认为,猪群规模越大,更有可能与其他地点有业务联系,这可能会增加报告PRRSV疫情的可能性。
众所周知,猪繁殖与呼吸综合征病毒通过空气间接传播(Dee et al,2009; Mortensen et al, 2002; Velasova et al, 2012)。考虑到空气传播的重要性,养猪业已经在养殖空间中采用空气过滤技术,该技术已被证明可以减少猪繁殖与呼吸综合征病毒的爆发数量(Alonso et al, 2013)。尽管有这种趋势,但空气过滤技术的使用在我们的研究中并没有被列为最重要的预测指标,这可能是因为报告组中采用空气过滤技术的养殖场比例很小(病例组有11个养殖场,对照组有11个养殖场)。
对死亡猪只进行场外死亡处理的养殖场,爆发PRRSV的风险较高。Velasova等人(2012年)描述说,与现场处理死猪的养殖场相比,堆积死猪后处理的养殖场发生PRRS感染的几率更高(OR=5.6,95%置信区间:1.7-18.3)。现场处置不需要运输卡车,运输这些死亡猪只是一个潜在的风险事件,因为它们会到达多个地点并接触潜在污染的尸体。此外,我们的结果表明,养殖场与公共道路的距离越远,发生感染的风险越低(图C)。靠近公共道路的养殖场可能更容易受到空气传播感染,因为经过这些养殖场的车辆更多,更易受到污染。
调查结果涉及对场外参观者的要求和各养殖场之间的联系(动物运输),结果显示共用车辆、器械的畜群更有可能报告猪繁殖与呼吸综合征病毒的爆发,这就需要加强运输过程中防止污染的重要性。以前的研究表明,猪可能通过接触受污染的车辆而感染猪繁殖与呼吸综合征病毒而受污染的拖车可以作为不同地点之间的纽带,并作为感染源 (Bottoms et al, 2012; Dee et al, 2004; Pitkin et al, 2009)。我们的结果显示,在PRRSV阳性猪与被扑杀的母猪共用拖车的猪群中,报告PRRS爆发的风险增加。此外,共用同一个运输停靠站点的数量与报告PRRS疫情的概率之间存在线性关系。猪群之间日常的运输不仅促进了猪繁殖与呼吸综合征病毒的传播,而且还定期引入易感动物群体(保育猪和母猪)。鉴于养猪业的联系性和运输供应的需要,有效的清洁和消毒对于降低疾病通过运输传播的风险是必须的 (Dee and Deen, 2006)。被确定为风险的另一个因素是场外人员参观的全场消毒时间 (Amass and Clark, 1999;Pitkin et al, 2011)。我们的发现还表明,消毒时间越长,风险越低。
我们确定PPV是评估猪繁殖与呼吸综合征病毒爆发风险的一个很好的候选指标。这里,PPV代表选定的生物安全做法和影响感染因素的组合,PPV越高猪繁殖与呼吸综合征病毒爆发的频率越大。在这项研究中,我们发现这种方法有可能成为生产者和现场兽医直接使用的重要工具。重要的是,我们的方法减少了使用的变量,以避免收集过多的信息。这可能会提高从生产者那里获得养殖场猪只信息的成功率,目的是随着时间的推移对防止动物感染的方法和影响感染的因素进行基准化 (Boynton and Greenhalgh, 2004; Dean, 2015)。
重要的是,确定关键预防方法和影响感染的因素的基准将有助于确定爆发疫情的农场之间的共性和差异,也同样有助于确定那些长期无猪繁殖与呼吸综合征病毒感染的农场的共性和采取的措施。此外,生产系统可以使用该工具来识别感染PRRSV风险较高的猪群,以确定其预防的优先级别和次序。
必须强调的一点是,设定一组较少变量的标准方法并不否定其他预防方法的重要性和必要性。由于缺乏可变性,一些做法被归类为不重要,并被模型判断为无助于养殖场预防感染的正确分类。这可以用以下事实来解释,即大多数农场通常采用大量预防方法,养殖场内部没有差异。因此,所选择的变量可以被视为与每个事件相关的预防方法的代表。这表明生产者应该关注这些事件,因为它们的发生频率与猪繁殖与呼吸综合征病毒爆发有关。
本研究的局限性包括使用调查和访谈的信息可能产生一定的偏差,即使是直接与养殖场负责人进行对接(Dean, 2015)。方便取样的使用限制了研究的范围,对结果的推断应谨慎。这项研究的另一个限制因素是样本量。相对较少的观测值和一些不太明显的变量可能影响了预期相关的变量选择。最后,数据驱动模型的使用没有考虑结果和独立变量之间的生物学合理性;这只是确定了对分类最重要的变量,可能会发现虚假的关联。然而,因为我们的目的是识别和减少预测因子的数量,我们相信我们已经达到了研究提出的目标。
5
结 论
这一结果支持了生物安全实践与种猪群因素之间存在相关性。我们的研究结果表明,通过“问”更少的问题来确定最相关的生物安全做法和因素,并预测PRRSV爆发的风险是可行的。方法A、B两种方法在疾病发生时将农场PRRS状态分类为阳性,准确率分别为76%和80%。通过这项研究,我们开发了未来工具的初步概念,能够帮助生产商和兽医更频繁地测量和基准关键的生物安全实践和因素,确定PRRSV引入风险相对较高的地点,以便更好地管理随着时间的推移病毒引入的风险。
图 5 描述PPV与每个农场报告的疫情数量之间关系的散点图。请注意,一些农场在2012-2016年间报告了不止一次疫情,这一数据被用来评估这种关系。黑点代表没有报告疫情的农场(阴性农场),橙色圆点代表报告了PRRSV疫情的农场。A-PPV使用方法A(P值和基尼指数)获得,B-PPV使用方法B(Boruta)获得。
原文链接:
https://lib.dr.iastate.edu/cgi/viewcontent.cgi?article=1142&context=vdpam_pubs
识别小程序码,问诊直达
每日一句
Some people feel the rain. Others just get wet.
有些人能感受雨,而其他人则只是被淋湿。
Some people feel the rain. Others just get wet.
有些人能感受雨,而其他人则只是被淋湿。