Posterior胸腰椎翻修手术通常需要术前确定植入的硬体,这样可以根据需要选择正确的工具进行移除。目前,用于识别植入硬件的方法是初级和低效的。如果外科医生无法识别硬体,他们可以使用同事或硬体代表的其他专家意见。如果这不能产生解决方案,他们可能会使用众包,例如通过私人Facebook的外科医生和代表小组。
在当今医学技术日益先进的时代,上述方法有待改进。1,2硬件识别基于神经影像学,最常见的是胸腰椎的正位(AP)和侧位x线片。这个问题自然适合计算机视觉解决方案。3.,4
计算机视觉是机器学习的一个子集,专注于从数字图像中寻找、表征和学习数据。具体来说,它可以通过医学成像(包括x光片)来识别问题。计算机视觉解决方案可以通过多种机器学习方法来实现,包括经典的、经过充分研究和充分理解的算法,如支持向量机(svm),或更新但鲜为人知的技术,包括神经网络和深开云体育世界杯赔率度学习。目前机器学习在神经外科中的应用主要局限于回顾性的概念验证研究。开云体育app官方网站下载入口5,6对这些文献的评论一致要求对已发表的分类器和预测模型以及未来的调查进行前瞻性使用和验证。1,7,8预期使用的共识限制是临床医生用户不理解模型的机制及其输出的风险,因此无法排除看似异常的预测和分类。
为了降低用户理解不佳的风险,增加预期使用,在选择分类器和预测模型来解决临床问题时,必须平衡计算能力和简单性。一份先前的出版物讨论了机器学习在胸腰椎植入物识别中的应用。该研究的目的是展示深度学习的临床应用,以胸腰椎植入为例。9作者通过Google和Apple的神经网络平台使用AutoML获得了令人满意的结果,但代价是“黑匣子”机制,即从输入到输出的路径难以理解。
本研究的目的是利用计算机视觉技术实现一个功能强大、相对容易理解、临床适用的后胸腰椎硬体分类器,目的是未来的前瞻性应用和进一步验证。
开云体育世界杯赔率
病人的选择
我们回顾性分析了2015年至2021年在两家机构附属医院因任何适应症接受后胸腰椎固定术的所有患者。在研究之前获得了机构审查委员会的批准。确定植入后的侧位或正位x线片患者。如果患者术后有多张x线片,则仅包括植入后的第一张x线片。从患者的手术记录中确定植入硬件的制造商。如果没有制造商文件(n = 2)或没有可用的x线片(n = 235),则排除患者。大多数没有x线片的病例是2015年最早的病例。图1描述带有图像和患者排除标准以及与每个排除标准相关联的数字的流程图。
图像处理
从患者病历中提取初始DICOM图像。使用Adobe Photoshop将图像转换为256位灰度文件并裁剪。裁剪后的图像仅包括椎弓根螺钉和棒。图像没有以任何方式缩放、旋转或重新定向。如果存在其他硬件,如椎体间固定架或其他类型的螺钉,但与所需的硬件不重叠,则用灰度框覆盖多余的硬件。这样做的理由是,与其他制造商相比,一个纳入的制造商的x线片有不成比例的椎间固定架,这可能导致分类偏差。在其他硬件与所需硬件重叠的情况下,多余的硬件将保留在映像中。
对于同时具有侧位和正位图像的患者,创建了第三个图像类别,称为“融合”。首先将AP图像的大小调整到与横向图像相同的尺寸,然后将对比度调整到横向图像的最小值和最大值范围内,从而创建这些图像。AP图像的对比度被缩放到横向图像的最大值和最小值,这样分类器就不会仅仅因为一个图像更亮或更暗而更喜欢另一个图像。最后将两幅图像从左到右进行连接。之所以创建这种图像类型,是因为横向图像和正侧图像都可能为分类器提供重要的特征,并且这种格式将允许分类器同时从这两种图像中提取特征。在有和没有这个处理步骤的情况下进行分析。
特征提取与分类器训练
我们采用了与Huang等人的方法类似的视觉词袋特征提取和SVM分类技术。10这些技术已经很成熟了,但这里只是简单地描述一下。该方法优于卷积神经网络等其他传统计算机视觉技术,因为数据集是稀疏的。5,9
KAZE特征提取器从训练图像中识别出相关的射线照相特征。该算法具有尺度和旋转不变性,并利用非线性尺度空间在消除图像噪声的同时保留重要特征。KAZE算法独立于任何给定图像中的角度,长度或螺钉数量。11此外,对其他特征提取器(SURF、MSER和Minimum Eigenvalue)进行了测试;12然而,他们难以识别螺钉之间的相关放射学差异,分类准确性较低。一旦提取出相关的特征,它们就会与相似的特征聚在一起,形成一个“视觉词”。特征空间上限为K = 500,使用K-means聚类算法对视觉词进行聚类。一旦从训练图像中定义了特征空间,就会选择最强的80%的特征并用于训练SVM分类器。随后的测试图像用相关特征进行描述,并使用SVM分类器进行分类。完整的方法论工作流程见图2.
分类器的性能
为了测试我们模型的准确性和有效性,我们使用了一种bootstrapping方法,在100次迭代中,训练/测试分割为80/20。在每次迭代中,对每个图像类别进行伪随机划分,80%在训练集,20%在测试集。准确度计算为测试集中正确分类的百分比。在这种验证方法中,模型是在一组未经训练的图像上进行测试的,因此验证是对模型性能的准确反映。记录平均值和标准差。我们测试了模型在二值和多层分类中的准确性。之所以进行这项调查,是因为我们的目的是确定当我们添加了在我们的数据集中没有很好地表示的制造商时,分类器性能是如何变化的。此外,我们使用了类似的方法来测试如果分类器仅在椎弓根螺钉而不是椎弓根螺钉-棒系统上进行训练,分类器将如何执行。
最后,我们使用读者研究将我们的分类器与当前的实践标准进行了比较。在这项研究中,我们删除了100张图像,这些图像组成了我们数据集中五个包括的制造商和设备的几乎相等的分布。我们用前面描述的相同方法训练融合图像的模型,然后使用100张图像作为测试集。我们将该模型的性能与两名外科医生和三名制造商代表在相同的100张图像测试集上的表现进行了比较,并使用了多项选择题Google Forms测试。感兴趣的结果是分类准确性和测验完成时间。该研究由两名外科医生和三名制造商代表组成。两位外科医生都是这五家制造商的常客。这三位代表熟悉其中的一两家制造商。包括的参与者没有提供任何关于如何识别不熟悉的硬件的具体教学。研究人员向参与者展示了一张图片,并要求他们从这五家制造商中选择一家。
在计算机视觉、图像处理、统计学和机器学习工具箱的帮助下,使用MATLAB (2020b, The MathWorks, Inc.)进行所有分析。
结果
总共鉴定了来自9个不同制造商的406张侧位图像、436张AP图像和373张融合图像。在侧位、AP和融合图像中,分别有51张、57张和35张图像被排除在分析之外,因为它们属于少于50张图像的制造商(Orthofix、K2M、Zimmer和Corelink)。本研究纳入的5家制造商和设备为Globus Medical Creo(横向:n = 95, 26.76%;AP: n = 118, 31.13%;融合:n = 88, 26.04%),美敦力Solera(外侧:n = 80, 22.54%;AP: n = 77, 20.32%;和融合:n = 77, 22.78%), NuVasive Reline(侧向:n = 65, 18.31%;AP: n = 66, 17.41%;和融合:n = 65, 19.23%), Stryker Xia(侧边:n = 65, 18.31%;AP: n = 63, 16.62%; and fused: n = 59, 17.46%), and DePuy Expedium (lateral: n = 50, 14.08%; AP: n = 55, 14.51%; and fused: n = 49, 14.50%) (表1).所包含的图像包含2-17个级别的硬件。
制造商在数据集中的分布
不。图像的百分比(%) | |||
---|---|---|---|
横向 | 美联社 | 融合 | |
Globus Medical Creo | 95 (26.76) | 118 (31.13) | 88 (26.04) |
美敦力公司Solera | 80 (22.54) | 77 (20.32) | 77 (22.78) |
NuVasive重新划线 | 65 (18.31) | 66 (17.41) | 65 (19.23) |
Stryker夏 | 65 (18.31) | 63 (16.62) | 59 (17.46) |
DePuy Expedium | 50 (14.08) | 55 (14.51) | 49 (14.50) |
总计 | 355 | 379 | 338 |
这5家厂商被纳入分类器,包括355张横向图像、379张AP图像和338张融合图像。所包含硬件的示例可以在图3.两家最常见的制造商(Globus Medical和美敦力)之间的二元分类在所有三个视图中都具有较高的准确性(横向:93.15%±4.06%;Ap: 88.98%±4.08%;熔合:91.08%±5.30%)。在二值分类中,侧位图像表现优于AP图像(p < 0.001)和融合图像(p = 0.04)。随着更多的模型被纳入,每个增加的制造商的分类器性能大约下降了10%;然而,所有的比较都比随机(表2).对于三向、四向和五向分类,侧位和融合图像的表现明显优于AP图像。尽管螺钉数量、螺钉长度、螺钉角度以及上覆金属硬体或骨组织存在差异,但在多级分类中仍保持了较高的准确性(图4).此外,五向分类显示了良好的结果,尽管相对于其他四种模型的数字较少。
横向,AP和两个图像的模型性能为二,三,四和五种分类
横向 | 美联社 | 融合 | |
---|---|---|---|
环球医疗和美敦力 | 93.15±4.06% | 88.98±4.08%** | 91.08±5.30%* |
环球医疗,美敦力,NuVasive | 82.35±5.09% | 71.79±5.70%** | 81.98±4.80% |
环球医疗诉美敦力诉NuVasive诉Stryker | 71.51±5.78% | 66.65±4.89%** | 72.86±5.51% |
环球医疗诉美敦力诉NuVasive诉史赛克诉DePuy | 64.27±5.13% | 60.95±5.52%** | 65.90±5.14% |
数值表示100次迭代中平均值的平均精度±SD。
与侧卧组比较P < 0.05。与侧卧组比较,** p < 0.001。
在五向分类中,在所有图像类型中,Globus Medical具有最高的准确性(横向:81%;记者:72%;熔合:77%)。美敦力(分别为70%、68%和66%)之后是NuVasive(分别为49%、66%和58%)、Stryker(分别为64%、38%和58%)和DePuy(分别为44%、48%和58%),分类准确率下降。在所有图像类型中,非Globus医疗仪器被误分类为Globus医疗仪器的比率高于被误分类为其他硬件的比率(图4).在该模型中,所有测试集与训练集具有相同的制造商分布,其中Globus Medical的代表性最高(约33%)。因此,随机猜测将导致33%的准确率,尽管包括五个制造商。
读者研究
为了评估我们模型的临床效用,我们将我们的结果与当前制造商识别的实践进行了比较。我们的模型在5种不同模型的100张图像测试集上的准确率为79%,并在14秒内完成分类。我们机构的两名外科医生和三名与我们机构无关的制造商代表完成了读者研究。他们的平均正确率为44%(范围为23%-66%),完成测验的平均时间为20分钟(范围为14-32分钟)。考虑到测试集包括五家分布几乎相等的制造商,代表的随机猜测将导致20%的准确率。接下来,我们比较了各个制造商代表在他们熟悉的硬件和不熟悉的硬件上的表现。代表A(整体业绩66%;完成时间:14分钟)熟悉Globus Medical和Medtronic硬件,并且在这些设备上的表现优于其他三种设备(75% vs 60%)。代表B(整体业绩:23%;完成时间:17分钟)熟悉Globus Medical,并且在Globus Medical硬件上的表现优于其他四种硬件类型(36%对17%)。 Finally, representative C (overall performance: 52%; completion time: 17 minutes) was familiar with Globus Medical and NuVasive but performed equally on familiar and unfamiliar hardware (53% vs 50%).
讨论
我们提出了一种计算机视觉机器学习方法来识别胸腰椎螺旋杆系统的制造商。这种机器学习方法在三个x光片视图中对五个制造商显示出良好的准确性,并且在准确性和效率方面与专家人工审查相比具有优势。
我们的模型在所有三种图像类型的五级分类中表现良好。值得注意的是,横向图像和融合图像的分类精度明显高于AP图像。这两种图像类型的更高精度可能是因为特征检测器识别诸如螺钉直径,螺纹频率(节距),螺钉末端的螺钉锥度以及螺钉-杆连接处等特征。图5).在AP图像上,除了螺杆连接处外,这些特征都不可见。尽管缺乏显著特征,但AP图像的准确率高于随机。此外,在特定制造商分类中,与该制造商所包含的图像数量一致的准确性有所下降。例如,对于侧位图像,Globus Medical的准确率最高,其次是Medtronic,其次是NuVasive和Stryker,两者的准确率相似,最后是DePuy,准确率最低(表1和图4).此外,在分类错误的情况下,模型有偏见,将图像错误地分类为Globus Medical或Medtronic,而不是其他三家制造商。模型中图像较少导致的准确率下降和错误分类的偏差表明,模型的偏差取决于数据集中每个模型包含多少图像。如果模型必须在Globus Medical和DePuy之间做出选择,并且不确定,它就会错误地选择Globus Medical,仅仅是因为模型中有更多的图像,因此它更有可能是Globus Medical。在最坏的情况下,该模型的执行精度将等于测试集中最具代表性的制造商的百分比。在图4和表2,测试集与训练集具有相同的分布(约为33% Globus Medical),因此随机猜测将导致33%的准确率;然而,在读者研究中,测试集由所有五个制造商的接近均匀分布组成,因此猜测将导致大约20%的准确性。在制造商之间均衡包含的图像数量可能会提高代表性较少的制造商的整体准确性,并减少误分类偏差。
除了错误分类偏差之外,分类中的错误可能是由于单个图像的可变性。例如,由于图像采集参数没有标准化,因此包含相同硬件的图像可能具有不同的对比度水平,即使是完全相同硬件的AP和横向图像。这种可变性可能导致难以清晰一致地看到螺钉节距或区分螺钉与周围骨的变细。此外,在同一类型的硬件中,螺钉在骨中的角度是可变的。这引入了偏差,因为在一些图像中,螺钉是平行的,它们可能会在横向图像中显得更厚,因为我们无法分辨哪个螺钉是左或右,因此螺钉可能会出现在彼此的顶部。在左右螺丝不平行的情况下,图像有更多的显著数据点来提取特征(图3).尽管存在这些可变性来源,但KAZE特征检测器善于忽略尺寸和旋转差异以进行特征提取。
最近,机器学习在各个医疗保健领域,特别是神经外科领域得到了更广泛的应用。开云体育app官方网站下载入口7,8,13,14这些先进的统计技术主要用于检查大量的临床数据,预测手术后的结果或用于神经影像学诊断。3.,15计算机视觉在手术计划中的应用有限。16最近,有三项研究将计算机视觉技术应用于翻修手术的硬件识别。9,10,17其中两项研究使用计算机视觉支持向量机和深度学习开发分类器来识别颈椎前路椎间盘切除术和融合硬件,取得了良好的效果。10,17第三项研究与我们的研究类似,旨在确定胸腰椎螺钉-棒系统;然而,他们利用深度学习,证明了五级分类器的准确率从73%到98%不等。9
尽管Yang等人建立了一个自动识别后胸腰椎螺钉和棒的过程,但仍有必要对该主题进行进一步探索。9先前的研究仅包括一个脊柱水平固定的图像,这可能限制了预测模型在大型固定手术中的适用性。此外,他们排除了包含其他类型硬件的图像,这些图像可能会分散注意力。训练一个不受“视觉噪声”影响的分类器是一个有用的特性。在我们的研究中,我们纳入了所有胸腰椎螺钉和棒的例子,无论其置入的水平或是否存在重叠的硬件。值得注意的是,在某些情况下,我们屏蔽了与所需硬件不重叠的无关硬件。
Yang等人的研究使用了深度学习,而我们使用支持向量机进行分类。最近,随着数据集变得越来越大,越来越复杂,神经网络和深度学习在机器学习应用中变得越来越普遍。18这些方法的一个主要缺点是,它们通常被视为输入图像并获得输出类的“开云体育世界杯赔率黑盒”,而没有真正理解分类中使用的复杂计算。这些分类通常是广泛概括的,但以可解释性为代价,这对临床应用至关重要。13我们的算法使用KAZE特征检测器,它允许在模型训练和分类之前检测x光片上的显著特征。通过这两个不同的步骤,我们可以为每种类型的螺钉和杆开发不同的射线照相剖面,并了解分类器如何表示每个图像。例如,在图5,特征检测器确定螺纹的频率(或节距),螺钉末端的锥度以及螺钉与杆之间的连接处作为侧位x线片上的显著特征。此外,Yang等人使用了近1500张(300张/类)图像的数据集,这些图像在所有类别中均匀分布,用于侧位和正位x线片,而我们的数据集由大约400张(25-100张/类)不均匀分布的图像组成(表1).数据集大小、图像分布和机器学习算法的差异都导致了当前研究与Yang等人的研究在性能上的差异。9
尽管准确性低于先前的研究,但我们相信当前的研究仍然具有临床应用价值。我们的读者研究表明,由外科医生和制造商代表进行的专家评审在100张图像测试集中的准确率为44%,而我们的模型在同一测试集中的准确率为79%。这项以外科医生为代表的盲法评估最准确地捕捉了外科医生准备翻修椎弓根螺钉结构的真实工作流程。此外,我们的模型在不到1分钟的时间内完成分类,而平均专家需要20分钟才能完成100张图像。此外,我们的模型在他们自己公司的硬件上优于制造商代表。我们的模型更高的准确性和效率表明,我们的方法可以与人工审查结合使用,以加快手术计划过程。目前翻修手术计划的工作流程包括外科医生与多个制造商代表沟通以最终确定植入螺钉或使用某种类型的众包方法。这种做法是缓慢的,并且基于猜测(除非可以找到操作报告)。我们的方法采用数据驱动的方法来减少翻修手术计划的时间和不确定性。
局限性和未来工作
我们展示了有希望的结果和稳健的研究设计;然而,在临床使用之前,必须进行许多改进。首先,提高准确性是必要的。由于这项研究仅限于一个机构,我们只能接触到有限的制造商和少量的图像。将我们的图像数据库扩展到其他机构将允许更多的图像和制造商,这将为算法提供更多用于学习的案例。我们观察到,随着每个制造商的加入,准确性下降了近10%。这可能是由于每个包含的制造商的图像分布不均匀,以及包含的图像总数较少。最具代表性的制造商有近100张图片,而代表性最少的制造商只有50多张图片。典型的计算机视觉算法每个包含的类需要数百张图像。在临床实践中,有几十个可能的供应商,所以一个临床有用的算法必须有强大的结果,尽管增加了更多的制造商。 If we were to add more manufacturers to our model without balancing the distribution of images for each manufacturer, then the algorithm would likely classify at a lower accuracy for each added manufacturer. If the distribution is even and many more images were added for each manufacturer, then the algorithm would be expected to perform at a high accuracy. Often surgeons have difficulty identifying instrumentation that is not common or is obsolete, which, currently, our algorithm would not help. By expanding this study to other institutions, we can improve our model and broaden its use for identifying less common or more obsolete models. In our study, we excluded rarely used instrumentation, which limits the model’s generalizability. Additionally, developing an application in which the user can upload the raw image and get an immediate result would allow for ease of use in a clinical setting. Once the two prior steps are completed, we can effectively assess the prospective use of computer vision technology in our clinical practice.
结论
我们开发了一个计算机视觉模型,成功地对以下制造商的后胸腰椎硬体进行了五级分类:Globus Medical Creo、Medtronic Solera、NuVasive Reline、Stryker Xia和DePuy Expedium。我们的模型比目前临床实践中使用的方法更准确、更有效。我们利用KAZE特征检测器和支持向量机学习算法,提供了一个简单的从输入到输出的方法工作流。我们模型的相对计算简单性可能有助于通过前瞻性分析机器学习在临床环境中的功效来促进未来的研究。
披露的信息
加朵报告说,63/374,877号专利正在申请中。徐博士报告了NuVasive和Providence Medical Technologies的个人费用,以及Medtronic在提交的工作之外的资助。Ropper博士报告了Globus Medical和Stryker在提交工作之外的个人费用;此外,Ropper博士还申请了计算机视觉系统和胸腰椎椎弓根螺钉分类方法的专利。开云体育世界杯赔率
作者的贡献
概念与设计:Ropper, Anand, Flores, Gadot, Xu。数据获取:所有作者。数据分析与解释:Anand, Flores, McDonald, Gadot, Xu。文章起草:Ropper, Anand, Flores, Xu。批判性地修改文章:Ropper, Anand, Flores, McDonald, Gadot。审稿提交版本:Ropper, Anand, Flores, McDonald。代表所有作者批准了稿件的最终版本:Ropper。统计分析:阿南德。行政/技术/物资支持:罗珀,弗洛雷斯。
补充信息
之前的演讲
这项工作作为海报在2022年5月1日在宾夕法尼亚州费城举行的第90届AANS年度科学会议上发表。
参考文献
-
7 ↑
BuchlakQD,EsmailiN,桑德琳。JC,et al。机器学习在神经外科临床决策支持中的应用:人工智能增强系统综述开云体育app官方网站下载入口.Neurosurg牧师.2020;43(5):1235- - - - - -1253.
-
14 ↑
Staartjes已经,StumpoV,KernbachJM,et al。神经外科中的机器学习:一项全球调查开云体育app官方网站下载入口.神经科学学报(维也纳).2020;162(12):3081- - - - - -3091.
-
15 ↑
Chilamkurthy年代,戈什R,Tanamala年代,et al。用于检测头部CT扫描关键发现的深度学习算法:一项回顾性研究.《柳叶刀》.2018;392(10162):2388- - - - - -2396.
-
17 ↑
施瓦兹JT,VallianiAA,ArvindV,et al。使用由机器学习驱动的智能手机应用程序识别前颈椎内固定.《脊柱》(费城出版社1976年版).2022;47(9):E407- - - - - -E414.