Técnicas de análisis automático de imágenes aplicadas a
las mamografías digitales.

Introducción

El cancer de mama es el tipo de lesión cancerigena que mas ocurrencia tiene en las mujeres. Además se trata de un tipo de cancer del que se desconocen técnicas preventivas. Se atribuye que 1 de cada 9 mujeres pueden sufrir este tipo de lesión a lo largo de su vida, y se desconoce la causa directa que lo provoca.
Actualmente,  podriamos afirmar que la única arma eficaz es un rápido diagnóstico mediante mamografias, reduciendose el número de casos fatales hasta en un 30%.

Este trabajo, que fue tesis doctoral,  fue realizado por  el Ph. Dr Kevin S. Woods, en la Universidad del Sur de Florida. El trabajo aborda la forma de manipular de forma automática mamografias digitales aplicando diversas técnicasde visión para detectar dos tipos de lesiones cancerosas:

Los algoritmos desarrollados se basan en la estracción de regiones de interés y la búsqueda de estos dos tipos de lesiones mediante diversos tipos de clasificadores estadísticos, asi como el uso y mejora de algoritmos de extracción de características y métodos para mesurar la bondad de los vectores de características.

Para mas información, puede descargarse la tesis completa en formato PostScript.

El trabajo sigue la siguiente estructura:

  1. Introducción a las mamografías y su problemática.
  2. Análisis de las mamografías asistido por computador.
  3. Automatización de la detección de lesiones mediante mamografías.
    1. Adquisición de la imagen
    2. Preprocesamiento de la imagen
      1. Segmentación de las regiones de la mama
      2. Escalado de la imagen: Resolución espacial y bits de niveles de gris.
    3. Clasificadores
      1. Estracción de características.
      2. Red neuronal
      3. Árbol de clasificación binaria.
  4. Detalles de la detección de microcalcificaciones
    1. Segmentación.
    2. Extracción de caracteristicas.
  5. Detalles de la detección de lesiones espiculadas.
    1. Segmentación.
    2. Extracción de caracteristicas.



Introducción a las mamografias y su problemática.

Las mamografias mediante rayos X son la principal herramienta con la que cuenta el radiólogo para detectar anomalias en los senos de la mujer. El diagnóstico se basa en la busqueda de ciertas caracteristicas y señales que apuntan a la existencia de cancer, estos son: Algunas de ellas más fáciles de detectar, por ejemplo masas circunscritas normalmente con borde circulas y de alta densidad es sin duda un cancer, otras como las masas irregulares o estrelladas son mas difíciles, si bien todas suelen tener un centro tumoroso muy denso comparado con el resto del tejido de la mama. Sin embargo, esta técnica requiere la comparación de multiples imagenes. A continuación se muestra una imagen de una mamografia de un seno sano:
 

Mamografia de una mama sana.

Si bien esta técnica es la única arma contra este tipo de cancer, sólo el 15-30% de la población femenina se somete al diagnóstico, entre los factores destacan:

Este último punto es el que incide en el alto coste de realización. Dado que una mamografia representa una estructura en 3D proyectada sobre un plano en 2D, es complicado un diagnóstico preciso por parte del radiologo, el cual necesita años de aprendizaje.

Además, las imagenes suelen tener menos contraste de los que seria necesario, para disminuir la dosis de exposicion a los rayos-X a los pacientes.
El diagnostico también se ve afectado por la fatiga visual, además de que la forma y estructura de las lesiones es muy variable.
La calidad de la imagen unido a la posicion de la mama influye altamente en el diagnostico del mismo.

Estos aspectos pueden ser paliados mediante un análisis automático de las imagenes.


Análisis de las mamografías asistido por computador

Las técnicas de análisis por computador palian bastante el panorama anterior debido a : En resumen presenta una serie de ventajas que ayudan al radiologo a agilizar a la vez de uniformizar el diagnóstico de estas lesiones.

Automatización de la detección de lesiones mediante mamografias.

Adquisición de la imagen.

Las mamografias tomadas de forma convencional sobre pelicula deben ser digitalizadas para su posterior procesamiento. Se utilizan escaners Laser para este fin, escaneando pequeñas regiones cada vez y convirtiendolas a mapas de pixels donde la imagen se almacena en niveles de gris.
El tamaño de estas regiones condiciona la resolución de la mamografía digital, expresando esta en el espacio en micrones que representa cada pixel.

Cada localización del pixel en la película es iluminado por un haz de intesidad conocida que estimula el sensor.

Conocida la intensidad, al atravesar la pelicula llega con una intensidad I2, la cual guarda con la primera una relación:

T = I1 / I2

De la cual se deduce la intensidad optica de la zona iluminada, que depende de su trasmitancia o cantidad de luz que la atraviesa de la forma:

D =  -log(T)

El valor de gris del pixel depende por tanto de la densidad óptica detectada en ese punto. Por tanto depende:

Este valor debe cubrir valores típicos de calcificaciones con importancia clínica como son aquellos menores de 100 micrones (0.1 mm), por lo que la resolución debe garantizar que esta área ocupe mas de un pixel.

Cuantos mas ocupe, mayor capacidad de diagnóstico tendra la herramienta de procesado.

En el presente trabajo se consideraron imagenes de  2048x2048 pixels con una resolución de 100 micrones por pixel, y otras con 4000x5200 con 50 micrones de resolución. Esto produce imagenes de gran tamaño.
 

Preprocesamiento de la imagen

Segmentación de las regiones de la mama.

Para evitar tiempos de procesado y espacio de almacenamiento de las imagenes, se procede a la segmentación de las distintas partes de la mama en la mamografía. De este modo se extrae todo el contenido perteneciente al fondo y no a la mama y el restante se guarda en formato no comprimido.

Esta imagen es previamente  procesada con un filtro de media para hacer mas precisos los objetos y  hacer el borde entre dos regiones mas uniforme.

Dado que la imagen aun contiene una gran cantidad de pixeles del fondo, que contienen los niveles mas bajos  de gris, en el histrograma se observa un gran pico en el rango mas bajo. El algoritmo busca el primer valle tras este fuerte pico, y recorre la imagen para crear un mapa binario.

Este mecanismo separa los pixeles del fondo de los del resto de la imagen.

9
Histograma


Mapa binario de la imagen

Escalado de la imagen:  Resolucion espacial y bits de niveles de gris.

La imagen anterior se guarda en un array bidimensional donde cada pixel se representa con dos bytes. El escalado de los niveles de gris es sencillo, desplazando el número de bits necesario. P.e. para escalar 12 bits a 8 bits, simplementa hace falta desplazar 4 bits despreciando los bits sobrantes.

El escalado de resolución espacial se consigue interpolando los valores de niveles de gris de cada pixel a la menor resolución con el del mismo pixel a la máxima resolución. P.e, una imagen que se quiere escalar a una resolución menor, cada pixel de la nueva resolución contendria un número de pixeles de la anterior, para ello se calcula el nuevo nivel de gris como la suma ponderada de los valores de los pixels de la imagen anterior que corresponden con el pixel de la nueva resolución.
 


Proceso de escalado de la imagen


Clasificadores

Las imagenes segmentadas delimitan objetos a los que procedemos a clasificar. Los objetos segmentados dependen del tipo de anomalia a detectar, en este caso: Las rutinas de segmentación exploran toda la imagen para detectar zonas donde pueden encontrarse lesion de ambos tipos, en estas zonas se aplicaran los clasificadores. Podemos ver por tanto a la etapa de segmentado como un filtrado para reducir el volumen de datos a tratar.

Como se ha tratado anteriormente, la segmentacion se basa en contrastes  y niveles de gris. Esto produce objetos de la imagen que no tienen interes junto con objetos que pueden ser anormalidades. Es faena de los clasificadores estadisticos determinar la relevancia de cada objeto.
 

Estracción de caracteristicas

Puede no resultar obvio que clase de información puede ser importante para discriminar los objetos que pertenecen a una clase o a otra, del mismo modo puede no ser obvio que método puede extraer estas caracteristicas.

Una aproximación sencilla puede ser incluir un alto número de caracteristicas, que asegura incluye las mas discriminantes, pero esto puede involucrar información redundante que puede provocar fallos a la hora de clasificar.

La clasificación ideal utiliza la minima cantidad de informacion necesaria para discriminar una clase de otra, es decir un conjunto óptimo de  caracteristicas tales que siendo D el conjunto posible de ellas, d <= D.

Por lo tanto se hace necesario un método que evalua la bondad de un conjunto de caracteristicas para clasificación. Un buen metodo o criterio es el porcentaje de éxito  y fracaso obtenido al utilizar un determinado conjunto de  caracteristicas, y la forma de encontrar el óptimo seria una busqueda exhaustiva de todos los posibles conjuntos hasta determinar el que mayor porcentaje de exito tiene.

Dado que esto ultimo puede ser intratable, es necesario metodos de búsqueda de soluciones subooptimas. En este trabajo se utilizó el algoritmo Sequencial Forward Selection SFS.

SFS se basa en ir a añadiendo caracteristicas al conjunto de clasificacion, una cada vez.
Dado un conjunto D de caracteristicas, se evalua primeramente todas las caracteristicas por separado, aquella que minimiza el resultado erroneo del clasificardor es elegida como la primera del conjunto.

Posteriormente del conjunto de D-1 caracteristicas restantes, se van probando de una en una añadiendo a la que ya tenemos para formar un vector de clasificacion de tamaño 2. Asi se continua el proceso con las siguientes caracteristicas, añadiendo aquellas que minimizan la tasa de error hasta que se finaliza el conjunto o se llega a un resultado en el que la tasa no mejora.

Red neuronal

Se utiliza una red neuronal para clasificar las lesiones anteriores. La topologia de la red fue elegida empiricamente utiliando varias redes con varios niveles y varios nodos por nivel. Se utilizaron, 42 entradas,  2 niveles ocultos con 10 nodos ocultos por nivel, y un solo nodo de salida.

El resultado se encuentra en el rango [0..1] donde:

Arbol de decisión binaria

Este mecanismo proporciona un metodo de aproximacion al sistema de clasificacion Bayesiano. Se opta por un arbol de clasificación  C4.5 . Estos arboles crecen dividiendo sucesivamente porciones del conjunto de entrenamiento, y puede contener cientos de nodos.
 


Detalles de la detección de microcalcificaciones.

La acumulación de calcio en la mama puede producirse por varias causas, entre ellas el cancer. Aparecen como pequeñas manchas brillantes en la mamografia. De la forma, tamaño y posición puede deducirse su naturaleza.

Las de origen maligno aparecen dentro de conductos, o en tumores que han invadido un conducto. Ciertas calcificaciones benignas aparecen y estan asociadas a otros procesos benignos. Estas últimas suelen tener un tamaño mayor a 2 mm.

Sin embargo, las calcificaciones malignas suelen medir menos de 0.5mm, suelen tener diversas formas y además fuerzan al conducto donde aparecen a deformarse, por tanto, podemos discriminarlos por la forma, mas irregular que los benignos que son mas finos y alargados, y por el tamaño.

Además de lo anterior, las calcificaciones malignas aparecen en conjuntos, con una densidad alrededor de los 3 a 5 calcificaciones por centimetro cuadrado, incrementando la posibilidad de cancer cuanto mayor es el número de calcificaciones. A pesar del dato anterior, no existe un limite minimo del que podamos decir que por debajo de él no existe cancer.

Segmentación.

Dado que aparecen como manchas brillantes, un simple algorimo de deteccion de manchas puede servir. Pero dado el ruido introducido en la digitalizacion, el algoritmo debe ser adaptativo a la intensidad local.

El algoritmo se compone de las etapas:
 

  • Localizar los pixels brillantes y  agruparlos juntos.

  • La localizacion se realiza escogiendo aquellos cuya intensidad es superior a una combinación de la media y la desviación tipica. Esta localizacion depende de:

    La agrupación se realiza en los pixeles marcados a 1, y se agruparan para formar un solo objeto aquellos que esten 4-conectados, es decir, si son adyacentes vertical u horizontalmente pero no en diagonal. Este proceso devuleve una gran cantidad de objetos, algunos miles, que incluyen tanto objetos normales como calcificaciones si las hubiese.

    Resultado de la segmentación en una mamografía con microcalcificaciones. 
    A) Porción de la imagen de la mamografia. B) Resultado de la segmentación superpuesto a la imagen A.

     
     
  • Reduccion para mejorar la forma de los objetos.

  • Aquellos pixeles 4-conectados a los pixeles segmentados que se encuentren dentro de un 2% de tolerancia con respecto al valor del pixel son agrupados con el objeto. Este valor es escogido por la constante de Weber.
     

    Para reducir el número de objetos segmentados, es necesario una medición adaptativa del contraste. Es necesario que sea adaptativa puesto que el nivel de ruido aumenta con el nivel de gris. Se realiza midiendo el contraste del objeto con el fondo, y se utiliza para escoger ciertos objetos que fueron segmentados en las primeras etapas del  proceso, despreciando el resto.
     

    El contraste de cada objeto con el fondo se calcula:

    Contraste = (O - S ) / O
    Siendo O la media del nivel de gris del objeto y S la media del nivel de gris de los pixels que rodean al objeto en un area de 1 mm²

    Las medidas de contraste se almacenan en un histograma para cada nivel de gris. Para cada uno de ellos es facilmente computable la media y desviación típica del contraste. Se combinan las entradas adyacentes del histograma para obtener un número mínimo de entradas, donde  los niveles de gris que tienen constrastes similares se agrupan, obteniendose la mayor y menor intensidad para una mamografia en concreto.


    Contraste de los objetos inicialmente segmentados en función de la intensidad media del objeto.

    Una vez conocida la media y la desviacion típica del contraste para cada nivel de gris, se calcula la energia de la señal para cada objeto segmentado con la función:

    Energia de la señal  =  (Contrate - Media_i) / Desviacion tipica_i.

    Donde Media_i y Desviacion_tipica_I se calculan del contraste del objeto al nivel de gris I del objeto.

    Teniendo la  energia  de la señal de cada objeto segmentado respecto de la intesidad, esta es el número de veces, en unidades de la desvicacion tipica,  que el contraste del objeto es superior al de la media para un determinado nivel de gris.

    Llegados a este punto, y sabiendo que las calcificaciones tienen un nivel de contraste mayor que el resto de  los objetos de la mama, retenemos aquellos objetos cuya energia de la señal es mayor.
    Empezando por el mayor, se escogen un número de objetos N  marcado por el usuario. Cuanto mayor sea N mas sensibilidad tiene el sistema pudiendo captar mas puntos singulares o sospechosos. Empíricamente,  con un valor de N=400 se obtienen buenos resultados.

    Se comprobó entonces que las calcificaciones embebidas en tejidos de la mama en niveles de gris altos pueden ser descartadas, esto se debe a que se segmentan mas regiones a los niveles de gris altos que a los bajos, y aunque existan calcificaciones, la energia de la señal es baja.

    Para remediar este comportamiento no deseado, se define un nuevo parametro N2, que define el número de objetos que se mantendrán y que tengan la mas alta intensidad media. Definiendo empiricamente N2 = 200, obtenemos N+N2 = 600 objetos segmentados. Se obtiene con estos parametros una sensibilidad para detectar calcificiaciones del 100%.
     

    Estracción de caracteristicas.

    Podemos catalogar las caracteristicas en tras categorias: Se define un pixel del borde del objeto como aquel pixel 8-conectado, unido vertical, horizontal o en diagonal,  con el objeto pero que no forma parte de él. El borde del objeto es el conjunto de pixeles del borde, y se define este de una anchura de 0.1mm envolviendo al objeto. Las siguientes caracteristicas fueron estudiadas:


    Detalles de la detección de lesiones estrelladas.

    Las lesiones con tumores centrales con una densidad mayor que el tejido que lo envuelve y que presentan bordes irregulares o estrellados son sospechosos de ser malignos.
    Los brazos de la estrella aparecen como lineas abruptas, finas y radiadas en todas direcciones desde el centro del tumor. La longitud aumenta en funcion del tamaño que tenga el centro tumoroso.
    Esta masa central del tumor suele ser un tejido o muy pequeño o embebido en otros tejidos densos y es muy dificil de detectar, siendo los brazos de la estrella mas faciles de observar y facilitando la tarea de diagnosticar el centro tumoroso.
    Es deseable detectar este antes de que alcance un tamaño mayor de 1 cm. En los primeros estadios de la lesión, no obstante suele ser muy pequeño.

    Forma de una lesión espiculada.

    Segmentación.

    Se realiza en dos pasos:

    Extracción de características.

    Cuando se buscan caracteristicas a nivel de pixel es posible descartar ciertos pixeles de los que componen el objeto. Por ejemplo, en nuestro caso utilizando un analisis de la textura, tenemos una lesión con un centro tumoroso mas  o menos redondo con  brazos radiados desde el centro.

    Si utilizamos un operador sensible a los brazos radiados, el resultado será mas efectivo si despreciamos el centro tumoroso que es redondo. Esto es debido a que la textura de ambas regiones es muy diferente y el analisis de discriminación de textura de areas  realizado del conjunto de  ambas partes juntas puede resultar en la perdida de potencial discriminador de la técnica.

    Por estas razones, se aplican las técnicas de discriminación de textura dividiendo previamente el objeto en distintas regiones y analizando cada una por separado. Estas regiones son:

    Finalmente se optó por tomar cinco medidas de textura:
    1. Medio
    2. Borde
    3. Alrededor
    4. Objeto entero
    5. Region exterior, unión del borde con los pixeles de alrededor.
    Además de las medidas ya comentadas para los objetos de calcificaciones ( forma, tamaño, etc...), se introducen las siguientes:
    C = Area_Lesion / Area_circulo_circunscrito

    Bibliografía