Mapeo de entidades anatómicas relacionadas con partes del cuerpo humano basadas en la wikipedia en resúmenes de alta

Materiales

La creación del árbol de partes del cuerpo humano

Ante la dificultad de explotar directamente las ontologías existentes, decidimos organizar una ontología compendiosa pero especializada que fuera coherente con la estructura de las ontologías establecidas y compatible con la disposición de los departamentos del hospital. Para llevar a cabo esta tarea, se extraen primero las entidades del grupo «Body Location or Region» de UMLS. A continuación, se eligen las partes clínicas esenciales del cuerpo según los expertos clínicos y se utilizan posteriormente para la construcción de la THBP. Por último, nos inspiramos en FMA y SNOMED-CT y discutimos la estructura de la nueva ontología con los médicos. Todo ello garantiza que el marco de la nueva ontología esté alineado con esas ontologías y con la disposición de los departamentos en un hospital.

Las estructuras anatómicas de los seres humanos pueden clasificarse en cinco niveles: sistemas, órganos, tejidos, células y sustancias químicas (por ejemplo, moléculas o iones) . Dado que las células y las sustancias químicas son innumerables y existen en todas las partes del cuerpo humano, no es necesario asignarlas a partes concretas del cuerpo humano en este caso. Por lo tanto, sólo nos centramos en los tres primeros niveles de estructuras anatómicas. Según los estudios de anatomía, las partes del cuerpo humano pueden dividirse en nueve partes diferentes según su posición: la cabeza, el cuello, el pecho, el abdomen, la pelvis, la espalda, la cadera, las extremidades y el tronco. En nuestra ontología, las nueve posiciones anatómicas se consideran el nivel superior. Cada parte contiene estructuras anatómicas que pertenecen a esa posición como subordinadas en niveles inferiores. Esta estructura de clasificación jerárquica se define como THBP. Los detalles se muestran en la Fig. 1.

Fig. 1
figure1

El nivel superior del Árbol de Partes del Cuerpo Humano (THBP) THBP consta de 9 partes: cabeza, cuello, pecho, abdomen, pelvis, espalda, cadera, extremidad y tronco. Para cada parte, su subcapa está construida por los órganos o tejidos de esta parte. La imagen del cuerpo humano en la figura fue creada por el autor

Las entidades anatómicas relacionadas suelen tener varios sinónimos y abreviaturas en el texto biomédico. Por ejemplo, «abdomen», «cavidad peritoneal» y «abd» se refieren a la misma parte del cuerpo. En el caso de las partes del cuerpo que se denominan con más de un término, un alias se trata como el nombre formal y los demás alias, incluidas las abreviaturas y los sinónimos en el THBP, se consideran suplementarios. Por ejemplo, «abdomen» se elige como nombre formal para esa parte del cuerpo y los otros son suplementarios (por ejemplo, abdomen – abd – abdn – cavidad peritoneal – cavidad abdominal – enterocoelia).

Anotación

Nuestro conjunto de datos de anotación proviene del resultado de nuestro trabajo anterior, que utilizó un modelo CRF para reconocer entidades anatómicas con nombre a partir de 300 resúmenes de alta en el corpus del desafío i2b2 de 2010. Los resúmenes de alta son proporcionados por Partners Healthcare, Beth Israel Deaconess Medical Center y University of Pittsburgh Medical Center. Dado que la calidad de la anotación tiene un impacto significativo en todo el sistema, se realizan varias reiteraciones de la anotación preliminar para construir la pauta de anotación antes de la anotación final. Hay tres anotadores, dos de los cuales tienen formación en ingeniería biomédica con experiencia en anatomía humana, mientras que el tercero tiene formación clínica. Se seleccionan al azar 10 resúmenes de alta de nuestro trabajo anterior para la anotación preliminar. 50 resúmenes de alta seleccionados al azar del trabajo anterior y 2.224 entidades anatómicas relacionadas con sus anotaciones se extraen como el conjunto de datos de anotación final de este estudio.

Una guía de anotación

Se requiere una guía estándar fácil de seguir para asegurar la consistencia y ayudar a los anotadores a trabajar de forma independiente. El proceso de construcción de la pauta sigue el método Delphi . Las pautas se construyen y unifican a partir de un conjunto de artículos en desarrollo.

Para construir la pauta, los anotadores primero hacen anotaciones sobre 10 resúmenes de alta por separado y luego encuentran las diferencias entre estas anotaciones a través de la discusión. Obsérvese que estos 10 resúmenes de alta de nuestro trabajo anterior sólo se utilizan para construir la pauta de anotación y no se incluyen en el conjunto de datos de anotación del experimento. Basándose en la discusión y en el estudio posterior de las referencias, cada anotador construye su propia lista de pautas. Las revisiones de la anotación se realizan de forma independiente siguiendo sus propias directrices. A continuación, se produce otra discusión. El ciclo de celebración de debates, modificación de las directrices y revisión de las anotaciones se repite hasta que se llega a un acuerdo convincente. Finalmente, tres conjuntos de directrices independientes entre sí se compilan en uno unificado.

Los resultados de la anotación de las entidades anatómicas con nombre siguen las reglas siguientes. Nótese que «palabras posicionales» en el siguiente contexto se refiere a prefijos o palabras que indican la ubicación de las partes del cuerpo humano. Definimos algunos componentes necesarios basados en el conocimiento de la antropotomía y luego los emparejamos con el concepto más relevante en UMLS.

1. Todas las entidades con nombre anatómico se normalizan por posición en lugar de por función (por ejemplo, «arteria carótida» se normaliza a «cuello», no a «arteria»). Esto está en consonancia con la idea de crear una ontología basada en la posición. El tronco se considera el «tallo» del cuerpo humano, incluyendo los órganos y tejidos que se distribuyen por todo el cuerpo, como los nervios, la sangre y los huesos.

2. Los resultados del mapeo de las entidades anatómicas con nombre son las capas más bajas de THBP. Por ejemplo, la válvula mitral se encuentra en el pecho y forma parte del corazón. Teniendo en cuenta que el «corazón» es una subcapa del «tórax», la válvula mitral se mapea al corazón en lugar de al tórax.

3. Para las entidades anatómicas relacionadas que son partes exactas de la THBP (por ejemplo, el corazón), los resultados del mapeo son sus formas originales. Si el nombre completo de una abreviatura se puede encontrar en THBP, la abreviatura se normaliza al nombre completo (por ejemplo, «EXT» a «extremidad»).

4. Las abreviaturas que consisten en varias localizaciones anatómicas diferentes se mapean a varias partes diferentes de THBP. Por ejemplo, HEENT como abreviatura de Head-Eye-Ear-Nose-Throat se mapea a «head», «eye», «ear», «nose», y «throat».

5. Los resultados del mapeo están en singular, mientras que los prefijos posicionales o las palabras en las entidades nombradas siguen siendo los mismos. Por ejemplo, «left extremities» se mapea a «left extremity».

Flujo de anotaciones

Los artículos del conjunto de experimentos se anotan basándose en las directrices unificadas mencionadas anteriormente. Se realizan dos rondas de anotaciones en los 50 resúmenes de alta. En la primera ronda, dos anotadores (A1 y A2) con formación en ingeniería biomédica anotan el mismo resumen de alta de forma independiente. Cuando hay desacuerdos entre sus resultados, el tercer anotador con formación clínica (A3) actúa como árbitro y toma la decisión final. A continuación, A3 explica las razones de los juicios y los tres anotadores discuten las directrices. Durante esta discusión, las directrices se revisan por última vez. En la segunda ronda, A1 y A2 anotan 50 resúmenes de alta de acuerdo con la versión final de las directrices. Cuando A1 y A2 no están de acuerdo, A3 toma la decisión final. Por ejemplo, «bronquitis» es una entidad que pertenece a «cuello» y está relacionada con «tráquea», una subcapa de «cuello». Si hay un desacuerdo entre A1 y A2 en esta situación, A3 señalará que debe normalizarse a la capa relacionada más baja «tráquea» según la regla 2 anterior. El resultado final, por lo tanto, es «tráquea».

Acuerdo entre anotadores

Para determinar si los resultados de la anotación pueden ser utilizados como el estándar de oro, el acuerdo entre anotadores se mide por las puntuaciones F1. La tabla 1 muestra las comparaciones entre los resultados de anotación de A1 y A2. Suponiendo que el resultado de A1 es la verdad básica, calculamos la precisión, la recuperación y la puntuación F1 de A2. La Tabla 2 muestra el acuerdo entre anotadores, que compara los resultados de cada anotación con los resultados finales de la anotación.

Tabla 1 Acuerdo entre anotadores entre A1 y A2
Tabla 2 Acuerdo entre anotadores.acuerdo entre cada anotador y el estándar de oro

Según la Tabla 1 y la Tabla 2, en la segunda ronda, todavía hay pequeños desacuerdos entre las anotaciones de A1 y A2 o entre sus anotaciones con el estándar de oro. Hay algunas razones posibles para este pequeño desacuerdo. En primer lugar, algunas entidades con nombre anatómico (especialmente las enfermedades) están relacionadas con varias localizaciones anatómicas diferentes, lo que hace difícil determinar a qué rama de la THBP pertenecen. Además, varias abreviaturas tienen múltiples formas completas, lo que provoca desacuerdos a la hora de determinar qué etiqueta debe asignarse a esta abreviatura. Además, cada anotador es parcial a su propia directriz e ignora algunas entidades anatómicas con nombre mientras que el otro anotador podría anotar las que ignora. Sin embargo, dado que todas las diferencias son pequeñas y los errores cometidos por A1 y A2 pueden ser corregidos por A3, los resultados pueden ser tratados como el estándar de oro para los siguientes experimentos.

Algoritmos

Para llevar a cabo la tarea de mapeo, presentamos el resultado de la combinación de estos métodos: el método de coincidencia de cadenas (sistema de referencia), la normalización de entidades con nombre, y la explotación de Wikipedia (incluyendo la puntuación de distancia de Wikipedia y la puntuación de frecuencia). El diagrama de flujo se muestra en la Fig. 2.

Fig. 2
figure2

El diagrama de flujo del mapeo. Las entidades relacionadas con la anatomía se extraen primero del texto médico. A continuación, las entidades se normalizan utilizando nuestro diccionario de sinónimos o las cadenas de correferencia proporcionadas en el corpus de . Después de eso, emparejamos las entidades normalizadas con THBP para ver si están incluidas. Si las entidades coinciden con éxito (por ejemplo, miembro inferior), los resultados se consideran definitivos. Si no (por ejemplo, miocarditis), se recurre a la base de conocimientos externa para normalizar las entidades y emparejarlas con THBP de nuevo

Sistema de referencia

Utilizamos el algoritmo de coincidencia de cadenas como nuestro sistema de referencia. Las entidades se extraen de los resúmenes de alta y se mapean directamente a nuestra ontología THBP a través de un método de coincidencia de cadenas (mostrado en la Fig. 3). Se utiliza un porter stemmer para el stemming. Sin embargo, la misma entidad en diferentes formas no puede ser reconocida en este sistema, por ejemplo, «enfermedad del corazón» y «enfermedad de la arteria coronaria».

Fig. 3
figure3

El sistema de referencia. En primer lugar, se extraen las entidades relacionadas con la anatomía de las historias clínicas. Después, las entidades se cotejan con el THBP para ver si están incluidas. Si es así, una entidad como el ojo izquierdo, que se incluye en ojo, el resultado es que el ojo izquierdo pertenece a la clase de ojo. En caso contrario (por ejemplo, Miocarditis), el resultado sale como no coincidente

Normalización de entidades con nombre

Las entidades con nombre anatómicas en el texto biomédico y en las explicaciones de Wikipedia tienen una diversa gama de formas, mientras que las entidades en la ontología y las entradas de Wikipedia están todas normalizadas. Como resultado, sólo las entidades en forma normalizada pueden ser mapeadas correctamente. Para mapear las entidades con nombre a la ontología y recuperar las entradas de Wikipedia, es necesario normalizar las entidades con nombre anatómico. Las palabras en plural se cambian a la forma singular y se eliminan las palabras de parada en las entidades con nombre anatómico.

Las abreviaturas son comunes en el texto biomédico y afectan al rendimiento del mapeo. Pero el método mencionado anteriormente no es aplicable a la normalización de abreviaturas. Para normalizar las abreviaturas, se exploran dos enfoques. Inspirado en el éxito de trabajos anteriores, se construye un diccionario de sinónimos extraído de estos trabajos y de Wikipedia para mapear las abreviaturas más comunes. Además, varios estudios han demostrado que las formas completas de algunas abreviaturas, denominadas abreviaturas locales, existen en la misma historia clínica, y las relaciones de correferencia entre las abreviaturas locales y sus formas completas pueden detectarse fácilmente. Por lo tanto, estas relaciones de correferencia pueden descubrirse y aplicarse para normalizar las abreviaturas locales. En este trabajo, las cadenas de correferencia, que ya han sido anotadas en el corpus i2b2, se utilizan para obtener las formas completas originales de las abreviaturas.

Las palabras posicionales proporcionan conocimientos informativos sobre los pacientes para los profesionales clínicos. Por lo tanto, se conservan mientras se anotan las entidades anatómicas con nombre y se construye el árbol de partes del cuerpo humano. Se construye un diccionario para distinguir las palabras posicionales. También se añaden las palabras posicionales de la Ontología Espacial Biológica. Las palabras posicionales se eliminan antes de la normalización y se añaden a los resultados de la normalización de forma adecuada. Por ejemplo, «piernas bilateralmente» se procesa en «piernas» para normalizarlo, y el resultado de la normalización es «extremidad inferior». En consecuencia, la palabra posicional «bilateralmente» se añade a «extremidad inferior», y el resultado final de «piernas bilateralmente» es «extremidad inferior bilateral».

Algoritmo de puntuación de Wikipedia

El objetivo de nuestra tarea es extraer las partes semánticas comunes exactas que pertenecen a la misma localización anatómica entre diferentes clases de entidades en la ontología. Un sistema NEN es adecuado para esta tarea, pero su precisión está muy limitada por la base de conocimientos. En una tarea NEN, una base de conocimiento externa fiable mejoraría el rendimiento del sistema de normalización . Wikipedia, considerada una herramienta clave en el campo de la medicina, ha demostrado ser completa y precisa en estudios anteriores. Por lo tanto, elegimos Wikipedia como base de conocimiento externa en este sistema. Diseñamos los algoritmos de puntuación para explotar la información extra de cada entidad con nombre que proporciona Wikipedia. En primer lugar, utilizamos la API para buscar términos y aplicamos stemming a todas las palabras de los resúmenes de alta antes de realizar el matching.

Las entradas de Wikipedia proporcionan a los usuarios información detallada sobre las entidades con nombre anatómicas, como las explicaciones de las enfermedades o las regiones funcionales de los tratamientos, que son necesarias para la normalización. En la explicación de Wikipedia de cada entidad con nombre anatómico, hay varias localizaciones anatómicas relacionadas en el contexto. Es razonable suponer que el resultado de la normalización de la entidad con nombre anatómico es la contrapartida de una localización anatómica en THBP, que aparece en el contexto de la explicación. Por ejemplo, en la explicación de Wikipedia de «electrocardiografía», hay localizaciones anatómicas como «corazón», «pecho», «tórax», etc. Como «electrocardiografía» es una prueba para examinar la función del corazón, el resultado de esta entidad con nombre anatómico implícita debería ser «corazón».

Inspirados en trabajos anteriores , la frecuencia (es decir, el número de veces que una localización anatómica aparece en el contexto) y la distancia (es decir, la distancia media entre cada aparición de la localización anatómica y el inicio de la explicación) se consideran los dos factores principales para determinar la interdependencia de las localizaciones anatómicas en el contexto y la entidad con nombre anatómico. En general, cuanto más alta es la frecuencia de una localización anatómica, más relacionada está con la entidad nombrada; cuanto menor es la distancia de una localización anatómica, más relacionada está con la entidad nombrada. Por lo tanto, diseñamos los algoritmos de puntuación basados en la distancia y la frecuencia.

Algoritmo 1: Basado en la distancia Considerando que las palabras cercanas en el texto están relacionadas en la semántica , la distancia de la palabra en las explicaciones de Wikipedia puede representar la correlación entre las entradas y las entidades en los textos. Por lo tanto, asumimos que cuanto antes aparezcan las entidades relacionadas anatómicamente en una explicación, más cerca estarán de la entrada. Para normalizar las distancias para que sean igualmente comparadas, se enumeran las siguientes fórmulas para puntuar la distancia:

$Puntuación =\\aquierda{{comenzar{array}{lll} \¾cos (D(n)¾ veces & ¾frac {\pi }{2}/\max(D)) & \max(D)> 1 \\N- &&&&ivmax(D)=0 \N-end{array}\N-right. $
(1)

D(n) denota el número de cadenas desde el principio de la entrada hasta la entidad anatómica con nombre que puede ser emparejada por THBP. max(D) representa la distancia de la última entidad anatómica con nombre emparejada.

De este modo, la distancia se transforma en una similitud coseno que va de 0 a 1.

Algoritmo 2: Basado en la frecuencia Además de la distancia, como se indica en , el número de veces que aparece una entidad anatómica relacionada en la explicación de una entrada también representa la correlación entre ellas. La puntuación de cada entidad con nombre anatómico coincidente se calcula mediante las siguientes fórmulas:

$ Puntuación = \left\{{array}{ll} 2,5 \times F(n) & primera entidad \\\\quad F(n) & otras \end{array}\right. $
(2)

F(n) es la frecuencia de la entidad anatómica con nombre que puede ser emparejada por THBP. Considerando que la primera entidad con nombre anatómico que puede ser emparejada por THBP está fuertemente relacionada con los resultados del mapeo, 2.5 es el multiplicador de la frecuencia de la primera entidad anatómica relacionada. El multiplicador 2,5 se determina mediante validación cruzada.

Para verificar la validez de nuestros algoritmos, se extraen aleatoriamente 50 entidades con nombre anatómico y sus entradas de Wikipedia como datos de prueba, sobre los que se emplean dos algoritmos basados en Wiki para obtener resultados de mapeo. La tabla 3 muestra los resultados del mapeo.

Tabla 3 Concordancia entre anotadores de A1 y A2

Ambos algoritmos alcanzan un nivel de precisión bastante alto, lo que demuestra la exactitud de nuestra suposición anterior y la eficacia de los algoritmos. Según los resultados, ambas estrategias de puntuación son beneficiosas para la tarea.

Algoritmo 3: Basado en la distancia & frecuencia Después de recoger la distancia y la frecuencia de cada palabra, combinamos la puntuación de la distancia y la puntuación de la frecuencia a una puntuación final. Las fórmulas de puntuación se combinan para calificar cada palabra de forma que la correlación quede mejor representada. La fórmula es la siguiente:

$ Puntuación(n) = a \times f(D(n)) + b \times f(F(n)) $
(3)

donde

$ f(D(n))=\cos (D(n)) \N – veces \Nfrac{\pi}{2} \times \max (D)) $
(4)
$ f(F(n))=F(n) $
(5)

Para determinar la importancia de la primera palabra coincidente en la entrada, multiplicamos 2,5 por la frecuencia de la primera entidad nombrada que aparece en la entrada. La constante 2,5 se determina mediante validación cruzada.

$ f(F(n))=2,5 veces F(n) $
(6)

En la fórmula, a y b son los coeficientes de f(D(n)) y f(F(n)) respectivamente. se seleccionan a=15 y b=1 que contribuyen a los mejores resultados basados en la validación cruzada.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *