第 1 章 绪 论
1.1 研究背景及意义
目前,对于肠癌的判定,医学影像学和病理学在医生诊断和治疗过程中占据着非常重要的地位。肠道检查虽然有 CT、MRI、PET、超声扫描、验血、肿瘤分子测试、通过肠镜穿刺活检等方法。但是,最终癌症确诊是由穿刺活检取得病理切片,然后由病理医生阅片判定病理图像中是否有癌症区域。大肠病理切片是经过穿刺活检取得组织后,对组织利用苏木紫-伊红染色制成切片,苏木紫-伊红又简称 H&E(hematoxylin and eosin)染色,通过 CCD 用显微镜拍摄大肠病理切片可以取得大肠病理图片。病理医生通过对组织切片图像分析,结合自己长期积累的临床诊断经验来判断组织是否发生癌变。
随着计算机技术和机器学方法的发展,计算机辅助技术发展迅速,在目前医学实践中,成像系统为一些医学现象做决策在逐步增加。现在,成像系统主要是用来获取人体不同部位的数字图像,而不是用于自动分析图像或做出决策。分析图像并做出决策的任务由医学专家完成。但是由于病理医生高强度、长时间阅片以及不同医生的临床经验差异会导致诊断结果仍然会因人而异,容易出现错误判断。尤其对于癌症的分级,不同的病理医生根据自己的经验可能会得到不同的诊断结果。这其中主要原因是诊断过程由病理医生的视觉诊断来完成的。比如,对于癌症等级的评定,每个等级是由病理医生观察到的活检组织的畸变程度和不规则程度来判定的,尽管这些等级量化定义了,但是量化分析是由病理医生的观察得到的结果,会存在主观性。
为了减小诊断过程中人为差异性,与此同时缓解病理医生高强度阅片压力,计算机辅助诊断肠癌具有深远意义。病理组织检查是现今作为癌症诊断和分级的金标准,是最重要之一的医学检查。对于计算机辅助诊断肠癌,许多研究把重点放在了开发计算量化工具,提供数学和客观的分析和评估。
……
1.2 大肠形态组织特征简述
成人大肠长度大约为 1.5m。大肠开始于回盲瓣,终止到肛门,大肠处于消化系统的末端。大肠分为阑尾,盲肠,直肠和结肠。大肠肠壁分为四层:黏膜层、肌层、黏膜下层、浆膜层,对于黏膜层,其上皮为单层柱状,以杯状细胞和吸收细胞为主,上皮下陷形成肠腺,在腺基底部有少量未分化细胞和内分泌细胞,仅在盲肠和肠右侧附近可以看见潘氏细胞,粘膜基层由平滑肌组成,平滑肌包含环行,纵行和斜行。粘膜下层由淋巴管、较大的血管和疏松结缔组织组成,有粘膜下 Meissner 神经丛,肌层包括内环形和外纵形两层平滑肌,肌间 Auerbach 肠肌神经丛,浆膜层是由单层间皮细胞被覆肠表面,下面有疏松结缔组织与肌层分隔,含大量脂肪,在盲肠和结肠表面聚积而形成肠脂肪垂。
大肠组织经 H&E 染色后,切片图像中主要呈现为三种颜色,腺腔和上皮细胞质为白色,间质为紫色,细胞核为紫黑色,其中细胞核包括上皮细胞细胞核和间质细胞核。正常大肠病理切片组织特征为:每个腺体中间有一个白色的腺腔,腺腔的周围由白色杯状细胞(也称为上皮细胞质)包围,腺体的最外围是上皮细胞核围绕其一圈。腺体与腺体之间有间质和间质核。正常的大肠病理切片组织腺体在某一个方向上排列呈现出一定的规则。
大肠癌最易发部位是直肠,然后是乙状结肠,根据肿瘤进展、侵犯深度分为早期癌和进展癌,大肠癌分为乳头状腺癌,管状腺癌,粘液腺癌,印戒细胞癌,鳞状细胞癌和腺鳞癌,类癌和小细胞未分化癌,其中以分泌不同量的粘液为主的腺癌最为常见。相对于正常的图片来说,肠癌病理切片图像腺体发生不同程度的畸变,排列紊乱,并且腺体内的杯状细胞(上皮细胞质)消失。
……
第 2 章 肠癌病理切片图像辅助诊断算法概述
2.1 肠癌病理图像辅助诊断框架
肠癌病理切片辅助诊断属于计算机视觉中的分类问题,对于分类问题来说,目前解决方法主要基于机器学习。而机器学习主要包括监督学习和无监督学习,本文研究的是利用有监督学习对肠癌病理切片辅助诊断,即提取图像的有效特征,利用训练数据学习分类器模型,然后对输入的测试数据进行分类。
对于训练部分,给定训练样本和样本类别。样本集包括正常的大肠病理切片图像(负样本)和肠癌病理切片图像(正样本),对于肠癌病理图片来说,采集到的数据是经过苏木紫伊红(H&E)染色后的制成的切片,然后通过显微镜和CCD 采集到的,数据是 RGB 空间彩色数据,所以训练样本一般是 RGB 空间的彩色癌症病理切片和正常病理切片图像的标记集合。然后对训练样本集进行预处理去除图像的噪声,但是这一步并不是必须的,因为除去噪声的同时会让大肠病理图像中的某些重要信息丢失。如果要提取图像中对象的形状特征或者组织学特征,首先要对目标对象进行分割。否则跳过此步骤直接对样本进行特征提取,如果有多个特征时,维度太高会影响识别准确率,因此对提取的特征可以进行特征选择,但是也非必要步骤,最后再使用提取的特征和输入的样本类别训练分类器。
与训练部分的区别主要在于测试样本不用再学习分类器,而是直接利用训练部分训练好的分类器模型来对测试数据进行分类,输出测试数据的样本类别。
……
2.2 预处理
由于显微镜等设备在没有完全调好的影响,大肠病理切片图像的质量会受到一定程度的影响,为了改善大肠病理切片图像的对比效果,可以采用伽马校正。
由于制作切片过程中的可能会存在染色缺陷,以及设备调整过程中可能出现光线过亮、不足以及其它有色光干扰等因素。这些会导致成像色彩出现偏差,进而对图像准确识别造成一定的影响。色彩校正常用算法有自动色彩均衡等。
大肠正常病理切片图像和癌变病理切片图像的颜色、纹理、梯度、对象分割后的形状描述以及分布等信息是区分正常大肠病理切片图像和癌病病理切片图像的重要特征来源。将提取到的特征作为训练数据输入分类器,特征提取完成后,如果维度很高可以做适当的特征选择,但不是必要步骤,提取的特征对于最后得到的分类器的分类效果具有至关重要影响。如果特征的区分性大,那么类与类之间差异大,类内差异小;而如果特征区分性弱,则会导致不同类别样本之间区域有很多重合,不利于分类器辨别测试样本其到底属于癌变还是正常。本节将介绍肠癌病理切片图像辅助诊断几种经典特征提取算法。
考虑大肠组织中正常病理切片图像和大肠癌变病理切片图像的细胞核的数量和分布的差异,将每个图像分为 16 块,只考虑那些包含具有区分性组织的块。然后计算每个块的细胞核的数量,腺腔、细胞核、间质在每小块图像中所占据的比例,计算这些特征均值和方差,一起构成每个图像块的组织学特征。
……
第 3 章 基于底层特征的肠癌病理图像识别 .............. 22
3.1 改进型 GLRLM 应用于肠癌病理切片图像识别 ........... 22
3.1.1 传统 GLRLM 算法 .................................... 22
3.1.2 改进型 GLRLM 算法 ..................... 23
3.1.3 基于 mRMR 的特征优化 ............... 29
3.1.4 实验结果分析及算法对比 ............................. 30
3.2 改进型 GLRLM 与 HOG 结合应用于大肠病理切片图像识别 .... 32
3.2.1 HOG 算法描述 ................................... 32
3.2.2 最优参数选择 ................................. 33
3.2.3 改进型 GLRLM 与 HOG 算法结合实验结果 .......... 34
3.3 本章小结 ......................................... 35
第 4 章 基于组织学特征的肠癌病理图像识别 ........ 36
4.1 PCA-KMEANS 预处理 ........................... 36
4.2 目标对象分割 ................................ 39
4.2.1 目标对象分割算法思想 .................. 39
4.2.2 目标对象分割实验结果 ................. 39
4.3 基于目标对象的组织学特征 ............. 41
4.3.1 颜色图特征 ................................ 41
4.3.2 基于目标对象的统计学特征 .................. 42
4.4 实验结果及参数分析 .......................... 44
4.5 本章小结 ................................... 46
……
第 4 章 基于组织学特征的肠癌病理图像识别
4.1 PCA-KMEANS 预处理
根据病理专家的指导,考虑到大肠病理图像的特点,正常的大肠病理切片图像如图4-1(a),腺体排列整齐;癌变的切片图像如图 4-1(b),腺体排列紊乱并且上皮细胞质消失。大肠病理切片中主要包含有上皮细胞核、间质细胞核、间质、腺腔和上皮细胞质,在第1.3.1 和 1.3.2 节中有详细介绍。这四类有医学意义的物质经过 HE 染色后在 RGB 颜色空间会有三种颜色:白色(腺腔和上皮细胞质),紫黑色(上皮细胞核和间质细胞核),紫色(间质)。所以考虑到组织学上的意义,在 3.1.2 节中采用 K 均值聚类的方法大肠病理图像进行预处理,随机选择聚类中心,但是这种方法的缺点在于:无法将三类物质准确聚类,并且速度较慢。根据大肠病理图片的特征,聚类的类别数可分为 3 类。由于 K 均值结果容易受初始中心位置的影响,本文将采用 PCA 算法选出具有代表性的 3 个初始聚类中心,把数据集中所有对象分成 3 类。
对于 PCA-KEMANS 处理后的每一类,对其进行启发式搜索,分割出每一类的目标对象,考虑到大肠病理图像目标对象准确分割的难度,而目标对象的形状又接近于圆形,因此用圆形基元来代表其位置与形状,算法采用两次迭代,对于分割出来的每一类目标对象,最后合并就可以得到三类目标对象的总分割结果。
……
结论
肠癌病理图像计算机辅助诊断的关键是算法研究。本文主要从如何提高肠癌病理切片图像辅助识别准确率的角度提出了几种算法。本文的主要工作体现在:
(1)利用 KMEANS 聚类计算行程纹理特征,提出一种改进型 GLRLM 算法,并结合 HOG 算法用于识别肠癌病理图像,经 mRMR 特征优化后相对于单一改进型 GLRLM算法,识别准确率有较大的提高。
(2)对三类目标对象(腺腔及上皮细胞质、细胞核、间质)采用启发式搜索算法实现分割,将目标对象的统计学特征和 Delaunay 颜色图的特征结合,实现多特征融合提取,利用 mRMR 进行特征优化,进一步提高了识别率。
本文从分类的角度设计了大肠病理切片图像辅助识别算法。但是本文还存在不足之处,还有许多方面的工作需要继续进行研究:
(1)由于大肠病理切片图像的特殊性,网站没有公共数据集,测试数据数量也没有达到其它数据集的丰富度,这是一个有待提高的方面。
(2)在利用改进型 GLRLM 算法分类时,主要的改性方向还是基于底层特征的。可以考虑从目标对象的角度改进 GLRLM,比如先分割三类目标对象,然后利用 Delaunay生成颜色图,最后提取基于颜色图的 GLRLM 特征。这样提取的特征具有组织学意义,识别的准确率会更高。
参考文献(略)