Postura del ratón 3D desde un solo - Guangzhou CMM Co., Ltd.

Scientific Reports volumen 13, número de artículo: 13554 (2023) Citar este artículo

303 Accesos

1 altmétrica

Detalles de métricas

Presentamos un método para inferir la pose 3D de ratones, incluidas las extremidades y los pies, a partir de vídeos monoculares. Muchas condiciones clínicas humanas y sus correspondientes modelos animales dan como resultado movimientos anormales, y medir con precisión el movimiento 3D a escala ofrece información sobre la salud. Las poses 3D mejoran la clasificación de atributos relacionados con la salud en comparación con las representaciones 2D. Las posturas inferidas son lo suficientemente precisas como para estimar la longitud de la zancada incluso cuando los pies están mayoritariamente ocluidos. Este método podría aplicarse como parte de un sistema de seguimiento continuo para medir de forma no invasiva la salud animal, como lo demuestra su uso para clasificar con éxito animales según su edad y genotipo. Presentamos el conjunto de datos de análisis de postura del ratón, el primer conjunto de datos de vídeo a gran escala de ratones de laboratorio en su jaula doméstica con puntos clave reales y etiquetas de comportamiento. El conjunto de datos también contiene tomografías computarizadas de ratón de alta resolución, que utilizamos para construir modelos de formas para la reconstrucción de poses en 3D.

Muchas condiciones clínicas humanas y los correspondientes modelos animales provocan movimientos anormales1. Medir el movimiento es un paso necesario para estudiar la salud de estos sujetos. En el caso de los animales, los investigadores suelen realizar mediciones manualmente con un alto costo, una resolución limitada y un gran estrés para los animales. En este trabajo, presentamos un enfoque basado en visión por computadora, no invasivo y de bajo costo para medir continuamente el movimiento como pose 3D de ratones de laboratorio.

Para estudiar modelos animales de trastornos del movimiento, como la enfermedad de Parkinson o los temblores, o incluso medir el comportamiento en general, los investigadores se basan en herramientas manuales como el rotarod, la barra horizontal estática, pruebas de campo abierto o la puntuación humana2,3. Se están desarrollando herramientas automatizadas cada vez más complejas para estudiar la marcha y la locomoción4,5. La visión por computadora y el aprendizaje automático están creando nuevas oportunidades de medición en entornos de jaulas domésticas para el seguimiento o el comportamiento en 2D6,7,8,9,10,11,12. Mientras que los campos abiertos son arenas sin características especiales, una jaula doméstica es un recinto provisto de ropa de cama, comida y agua familiares, así como elementos de enriquecimiento que permiten a los animales exhibir una amplia gama de movimientos y comportamientos. Hasta ahora, solo unos pocos estudios miden el movimiento 3D en jaulas domésticas, y solo con una resolución o número de articulaciones aproximados o que requieren múltiples cámaras13,14,15,16,17. Sin embargo, estas nuevas herramientas de medición ofrecen oportunidades convincentes para nuevos análisis13,17,18,19.

Paralelamente, la visión por computadora y el aprendizaje automático están generando grandes mejoras en la determinación de la pose humana en 3D a partir de imágenes. Los modelos para optimizar un modelo cinemático para que se ajuste a los datos de la imagen20 se están combinando con mejoras en la estimación de poses 2D21,22,23. Al combinar estos métodos con bibliotecas de formas humanas24 y poses humanas, las estimaciones de poses humanas en 3D pueden basarse en modelos cinemáticos reales y movimientos realistas25,26,27. Las investigaciones en curso están mejorando la coherencia espacial y temporal28,29,30.

Este trabajo adapta estas técnicas desarrolladas originalmente para inferir la postura humana en 3D en ratones. Predecimos puntos clave 2D para ratones y luego optimizamos para la pose 3D sujeto a los antecedentes aprendidos de los datos. Para inferir poses humanas, se encuentran disponibles bases de datos de formas humanas, poses, puntos clave 2D y puntos clave 3D, pero ninguna de ellas está disponible para ratones. La falta de datos presentó desafíos únicos para inferir con precisión poses 3D. Superamos estos desafíos recopilando nuevos datos y adaptándonos cuando sea necesario. Diseñamos nuestros algoritmos y recopilamos datos para lograr dos objetivos.

Escalabilidad. Los algoritmos pueden monitorear ratones en su jaula de forma continua durante un período prolongado y pueden hacerlo en una gran cantidad de jaulas al mismo tiempo. Aunque el ensayo de campo abierto es uno de los ensayos más utilizados en la investigación, induce estrés en el animal y variación en el resultado del estudio. Las jaulas domésticas proporcionan a los sujetos los entornos más naturales y facilitan estudios fisiológicos y de comportamiento imparciales31. Las mediciones de las actividades en una multitud de jaulas domésticas plantean nuevos desafíos15 y requieren algoritmos sólidos.

Robustez. La oclusión, tanto del propio animal como de los objetos de la jaula, es el principal obstáculo para reconstruir la postura con precisión. Abordamos el problema empleando un conjunto completo de puntos clave anatómicamente significativos (Fig. 1). Hemos observado que el modelo entrenado con más puntos clave se generaliza con partes del cuerpo ocluidas. En comparación con los 20 puntos clave que utilizamos en nuestros datos, otros conjuntos de datos a gran escala proporcionan menos puntos clave. Por ejemplo, el conjunto de datos CalMS2132 tiene 7 puntos clave, el conjunto de datos MARS33 tiene 9 y el conjunto de datos PAIR-R24M34 tiene 12. El conjunto de datos Rat 7M35, aunque captura 20 marcadores, tiene menos de 16 puntos clave en el cuerpo del animal.

Para respaldar la reproducibilidad y fomentar investigaciones futuras, ponemos a disposición del público nuestros datos de capacitación y evaluación anotados, así como los modelos y el código de reconstrucción de poses. El conjunto de datos de análisis de postura del ratón publicado aquí tiene las siguientes características: tomografías computarizadas en 3D de alta resolución de ratones con una amplia distribución de peso y de ambos sexos; más de 400 videoclips de las actividades de los ratones en la jaula de su casa, tanto en ciclos de luz como de oscuridad; 20 etiquetas de puntos clave en cada mouse y 7 etiquetas de comportamiento; Etiquetas de puntos clave de verdad del terreno en 3D desde un equipo de captura 3D con varias cámaras y un dispositivo Kinect.

Validamos nuestro método demostrando la precisión métrica de las posturas 3D inferidas, la precisión predictiva de los atributos relacionados con la salud y la correlación con mediciones directas de la marcha. En cada caso, las poses 3D inferidas son medidas útiles y detalladas.

El estudio se informa de acuerdo con las pautas de ARRIVE (https://arriveguidelines.org).

El desarrollo de la estimación de la postura de los animales basada en el aprendizaje profundo está profundamente influenciado por los algoritmos de la postura humana (consulte 36,37,38,39 para estudios recientes). DeepLabCut40 emplea el aprendizaje por transferencia y logra la precisión humana con una pequeña cantidad de muestras etiquetadas y estimuló muchos desarrollos adicionales. LEAP41 acelera aún más el proceso de anotación al ajustar iterativamente el modelo y proporcionar conjeturas iniciales sobre nuevas muestras de entrenamiento. DeepPoseKit42 elimina el paso de preprocesamiento en LEAP y pretende aumentar la robustez sobre factores como la rotación y los cambios de iluminación. Los tres métodos funcionan en entornos de campo abierto; sin embargo, no está claro cómo se desempeñan con las imágenes de jaulas domésticas. Otra línea de mejora es utilizar la coherencia espacio-temporal entre fotogramas de vídeo adyacentes. OptiFlex43 calcula información de flujo óptico a partir de mapas de calor de puntos clave generados a partir de un modelo base y muestra mejoras en precisión y robustez. OpenPifPaf44 utiliza campos compuestos, incluidos campos de intensidad, asociación y asociación temporal, para detectar y rastrear puntos clave. En lugar de agregar estos campos compuestos al final de la red, DeepGraphPose45 codifica la estructura espacio-temporal en un modelo gráfico. La ventaja de este modelo es la capacidad de inferir puntos clave ocluidos.

Si bien la postura 2D es suficiente para muchas cuestiones biológicas, el movimiento y la cinemática 3D son indispensables para comprender las conexiones entre los sistemas neuronal y motor.

La pose 3D se puede obtener triangulando puntos clave 2D con múltiples cámaras46,47,48 y/o usando sensores de profundidad49,50,51,52. Construimos una plataforma de captura 3D de vista múltiple, que incluye un dispositivo Kinect (detallado en la sección "Reconstrucción de pose 3D de vista múltiple") para evaluar nuestro algoritmo de reconstrucción 3D de vista única. La complejidad adicional limita la escalabilidad de dichos sistemas, por lo que no es factible instalar dispositivos adicionales para monitorear más de una docena de jaulas. Los avances recientes en el aprendizaje automático han visto métodos que reconstruyen poses 3D a partir de vistas de una sola cámara. LiftPose3D53 estima la ubicación de las juntas 3D a partir de vistas únicas entrenando una red (la función de elevación) con datos reales del terreno 3-D. Los datos de entrenamiento se aumentan con diferentes ángulos de cámara y longitudes de huesos, lo que permite a la red resolver implícitamente los parámetros de la cámara y hacer frente a las variaciones en el tamaño de los animales. En comparación, estimamos los parámetros de la cámara y construimos la distribución de formas explícitamente. Dunn et al.13 hacen una regresión a una representación volumétrica del animal, a partir de la cual se calcula la pose 3D.

A diferencia de estos algoritmos de aprendizaje de un extremo a otro, consideramos la estimación de la pose 3D como un problema de optimización con un modelo de esqueleto de ratón54. Al codificar explícitamente los ángulos de las juntas 3D, los resultados del modelo son fácilmente interpretables. Más importante aún, el modelo de esqueleto 3D impone un fuerte previo (consulte la sección “Cadena cinemática y predicción de pose 3D”), que supera las observaciones faltantes de las oclusiones y sirve como una regularización en el espacio articular sobreparametrizado.

El conjunto de datos de análisis de postura del ratón incluye 455 videoclips de ratones C57BL/6N y Diversity Outbred e imágenes de TC de 80 ratones C57BL/6N. El objetivo es respaldar diversos problemas de investigación en fisiología y comportamiento animal proporcionando un conjunto de datos que cubra ratones de laboratorio de genotipos, sexos, peso y actividades típicos en sus jaulas domésticas.

Todos los estudios de TC se realizaron de conformidad con el Comité Institucional de Cuidado y Uso de Animales de AbbVie y la Guía para el Cuidado y Uso de Animales de Laboratorio del Instituto Nacional de Salud en una instalación acreditada por la Asociación para la Evaluación y Acreditación del Cuidado de Animales de Laboratorio.

Toda la investigación relacionada con la captura de video se realizó como parte del programa de uso y cuidado de animales acreditado por Calico Life Sciences LLC AAALAC. Toda la investigación y el uso de animales en este estudio fueron aprobados por el Comité Institucional de Cuidado y Uso de Animales de Calico (IACUC).

Se obtuvieron ratones C57BL/6N machos y hembras de tipo salvaje de Charles Rivers Labs (Wilmington, MA). Los animales se aclimataron a las instalaciones para animales durante un período de aproximadamente una semana antes del comienzo de los experimentos. Los animales fueron evaluados en la fase de luz de un programa de 12 h de luz/12 h de oscuridad. La anestesia se indujo con isoflurano. Los niveles de isoflurano se mantuvieron entre 1 y 2,5% en volumen en oxígeno. Los datos se adquirieron utilizando un microPET/CT Siemens Inveon (Knoxville, TN). Los animales se sometieron a tomografías computarizadas con las siguientes configuraciones: rotación total de \(220^\circ \) con \(1^\circ \) pasos después de 20 calibraciones de luz/oscuridad. El campo de visión transaxial y axial fue de 58,44 y 92,04 mm respectivamente. El tiempo de exposición fue de 800 ms con un factor de agrupación de 2, el tamaño de píxel efectivo fue de 45,65 \(\upmu \)m. Los ajustes de voltaje y corriente fueron 80 kV y 500 \(\upmu \)A respectivamente. El tiempo total de exploración por animal se estimó en 1010 s. Las imágenes de TC utilizaron el método común de reconstrucción de haz cónico, incluida la calibración de la unidad Houndsfield, la interpolación bilineal y un filtro de reconstrucción Hamming. Las imágenes de TC reconstruidas se convirtieron a DICOM utilizando el software VivoQuant (InVicro, una empresa de Konica Minolta).

Los ratones Diversity Outbred (J:DO) se obtuvieron del Laboratorio Jackson (cepa n.° 009376; Bar Harbor, ME). C57BL/6N se obtuvieron de Charles Rivers Labs (Wilmington, MA).

Para construir un canal visual de propósito general, adquirimos un video de una cepa de ratones Diversity Outbred que tienen un rango de pesos (aproximadamente 20 a 60 g), sexos (hembra o macho), edades (1 a 3 años) y colores de pelaje. (albino, negro, agutí). Los ratones se colocaron en jaulas de seguimiento, cada una equipada con una única cámara (Vium). Durante este tiempo, los ratones se alojaron individualmente y se les proporcionaron ruedas para correr y enriquecimiento para el nido (nidos de algodón). Cada vídeo fue grabado a 24 fotogramas por segundo. Durante el ciclo de oscuridad se utilizó iluminación infrarroja. De esta variada colección de videos, seleccionamos manualmente 455 videoclips donde los animales realizan uno de los siguientes comportamientos: pararse, beber, comer, acicalarse, dormir, caminar o correr sobre la rueda. Dado que la mayoría de las actividades ocurren en los ciclos de oscuridad, la mayoría (96%) de los clips son imágenes infrarrojas. Cada clip tiene una duración de 0,5 s y se muestrea a 24 HZ. Los investigadores etiquetaron manualmente las actividades observando el clip y el contexto circundante. Los investigadores seleccionaron manualmente otro subconjunto distinto de 310 clips para diversas poses. Técnicos en animales capacitados anotaron la pose 2D del ratón en cada uno de los 12 fotogramas de cada clip, lo que produjo 3720 fotogramas anotados. El proceso de anotación de pose se describe en la sección "Puntos clave y anotación de comportamiento". Como esperamos que estos conjuntos de datos sean útiles para que la comunidad entrene y evalúe sistemas similares, publicamos las anotaciones de pose y comportamiento junto con los marcos correspondientes.

Recopilamos tres conjuntos más de datos de video experimentales utilizados solo para la evaluación: Continuo, Vista múltiple y Marcha. Los datos de vídeo continuo son de 14 días en 32 jaulas. Ocho animales son ratones knockout Eif2b5R191H/R191H homocigotos de 1 año de edad sobre un fondo C57BL/6N55; ocho son controles knockout heterocigotos de 1 año de edad; ocho son ratones C57BL/6N de 1 año; y ocho son ratones C57BL/6N de 2 meses. Los ratones knockout tienen una deleción que provoca déficits motores55,56,57. Los ratones knockout y los controles heterocigotos son compañeros de camada con un entorno C57BL/6N, pero han sido endogámicos durante varias generaciones. Cada ratón tiene tres atributos: edad (12 o 3 meses), knockout (totalmente knockout o no) y antecedentes (ya sea un compañero de camada con knockout o un C57BL/6N). Los datos de vídeo Multiview son 35 fotogramas multiview consecutivos de un único ratón C57BL/6N en un equipo de captura personalizado (descrito a continuación). Tenga en cuenta que la información de profundidad del sensor Kinect es demasiado ruidosa para usarla como verdad sobre el terreno por sí sola. En su lugar, sólo utilizamos los valores RGB en la configuración de vistas múltiples. Los datos del video de Gait son de un solo mouse C57BL/6N caminando sobre una cinta de correr con cámaras instaladas debajo con las correspondientes herramientas de análisis comerciales (DigiGait) con una cámara adicional montada arriba (GoPro) que usamos para el análisis. Los datos de vídeo de Multiview y Gait se capturaron a 30 fotogramas por segundo. Estos conjuntos de videos experimentales solo se utilizan para demostrar la utilidad de nuestro método y no se publicarán. Todos los experimentos están aprobados por un Comité Institucional de Cuidado y Uso de Animales.

Vale la pena señalar que existe una gran cantidad de literatura sobre la velocidad y la frecuencia de locomoción del ratón. Aunque la longitud y la frecuencia de la zancada dependen de la velocidad, se ha observado en múltiples estudios que la frecuencia de la zancada cae entre 3 y 10 HZ58,59,60, lo que significa que la frecuencia Nyquist de los movimientos típicos del ratón es inferior a 24 HZ. Por lo tanto, una cámara de 24 HZ es suficiente para registrar muchos comportamientos, incluida la locomoción, pero para algunos movimientos más rápidos que están fuera del alcance de este estudio (por ejemplo, la dinámica de los bigotes), se podría usar una cámara más rápida. Los algoritmos no dependen de la velocidad de fotogramas de la cámara.

Izquierda: los nombres de los puntos clave 2D y los marcadores codificados por colores correspondientes que se muestran en la interfaz de etiquetado. Centro: una imagen etiquetada de un mouse con las leyendas de los puntos clave a la izquierda. Derecha: la tomografía computarizada de alta resolución segmentada para el hueso en colores claros y segmentada para la piel en colores más oscuros con las ubicaciones de los puntos clave correspondientes en una postura neutra.

Diez científicos y técnicos participaron en la anotación de puntos clave y comportamiento. Se les pidió que vieran los videoclips y los etiquetaran según las 7 etiquetas de comportamiento (consulte la Tabla 1 para ver la lista). Se les indicó que dibujaran un cuadro delimitador alrededor del animal y etiquetaran los puntos clave correspondientes a las articulaciones del esqueleto en 3D (Fig.1). Los puntos clave no conjuntos se definen de la siguiente manera. El punto de la columna inferior se encuentra en el punto medio entre las dos articulaciones de la cadera y en la columna. La columna superior se define de manera similar entre las dos articulaciones de los hombros. La columna media está a medio camino entre los puntos superior e inferior de la columna. Se pidió a los anotadores que marcaran su mejor estimación cuando se ocluyen puntos clave. El objetivo era obtener de expertos etiquetas posiblemente ruidosas, en lugar de ninguna etiqueta.

Las imágenes de TC incluyen ratones de diferentes edades y pesos. Los ratones se agruparon según el peso y el sexo, con 10 por grupo. Las hembras del grupo 1 pesaron \(15,7 \pm 0,74\) gy los machos pesaron \(18,4 \pm 0,98\) g. Las hembras del grupo 2 pesaron \(24,9 \pm 1,8\) gy los machos pesaron \(23,2 \pm 1,36\) g. Las hembras del grupo 3 pesaron \(28,0 \pm 2,52\) gy los machos pesaron 27,3 ± 0,97 g. Las hembras del grupo 4 pesaron \(35,3 \pm 6,11\) gy los machos pesaron \(38,7 \pm 3,00\) g.

Los cuadros de video consisten en un 39% de sujetos C57BL/6N y el resto de Diversity Outbred. La Tabla 1 muestra la distribución de etiquetas de comportamiento entre los cuadros de video. La Figura 2 muestra las ubicaciones agregadas de los ratones. Dada la naturaleza nocturna de los ratones, la mayoría de los fotogramas de vídeo (96%) pertenecen al ciclo nocturno. Dado que enfatizamos el análisis de pose durante el movimiento del mouse, más de la mitad de las anotaciones son mouse que se mueve sobre ruedas.

Un mapa de calor de todos los puntos clave del mouse anotados que se muestran en la jaula de inicio. Cada punto representa un punto clave. La mayoría de las actividades ocurren en la rueda y cerca del comedero.

Los datos utilizados para entrenar y evaluar la estimación de pose 2D y 3D se publican como parte de esta publicación. Los datos para demostrar la utilidad en algunas tareas biológicamente relevantes no se publicarán porque son específicos de este artículo y más grandes de lo que se puede compartir fácilmente. No creemos que esto limite la capacidad de reproducir nuestro método o evaluar el rendimiento para la estimación de poses 2D y 3D. Específicamente, publicamos los 5460 cuadros anotados de 455 videos anotados para entrenar y evaluar la pose 2D y las 80 tomografías computarizadas utilizadas para construir la forma anterior. Puede solicitar acceso a los datos a través de este enlace: https://google.github.io/mouse-pose-analysis-dataset/.

Hay algunos conjuntos de datos de ratones y ratas de tamaño comparable disponibles públicamente. El conjunto de datos de comportamiento del ratón del MIT61 contiene 10,6 h de vídeo de vista lateral etiquetado continuamente (8 vídeos diurnos y 4 vídeos nocturnos) para los ocho comportamientos de interés: beber, comer, arreglarse, colgarse, micromovimiento, retroceder, descansar y caminar. Los ratones están alojados individualmente en su jaula. No hay etiquetas de puntos clave.

El conjunto de datos de Caltech Mouse Social Interactions (CalMS21)32 consta de 6 millones de fotogramas de poses rastreadas sin etiquetar de ratones que interactúan en jaulas domésticas, así como más de 1 millón de fotogramas con poses rastreadas y las correspondientes anotaciones de comportamiento a nivel de fotograma. Se etiquetan siete puntos clave (la nariz, las orejas, la base del cuello, las caderas y la cola).

El conjunto de datos Rat 7M35 contiene 10,8 h de vídeos de 6 ratas diferentes y 30 vistas de cámara, por un total de aproximadamente 7 millones de fotogramas, en una amplia gama de poses de ratas. Los fotogramas se capturan a partir de 20 marcadores adheridos a los animales utilizando una serie de cámaras.

El conjunto de datos PAIR-R24M34 contiene 24,3 millones de fotogramas de vídeo RGB y captura de movimiento real en 3D de interacciones diádicas en ratas de laboratorio de 18 pares distintos de ratas y 24 puntos de vista diferentes. Cada cuadro proporciona las posiciones 3D de 12 puntos de referencia corporales y está asociado con una de las 11 categorías de comportamiento y 3 categorías de interacción entre animales.

Los dos primeros conjuntos de datos tienen pocos o ningún punto clave etiquetado. Si bien los dos últimos tienen más puntos clave etiquetados, contienen imágenes de campo abierto en lugar de imágenes de jaulas domésticas. El conjunto de datos de análisis de postura del ratón es el primer conjunto de datos a gran escala de ratones de laboratorio en su jaula doméstica con un conjunto completo de anotaciones de comportamiento y puntos clave.

Nuestro proceso de extracción de características (que se muestra en la Fig. 3) incluye tres etapas: detección del cuadro delimitador, predicción de pose 2D y optimización de pose 3D. Se ha demostrado que estas etapas son efectivas para la estimación de la pose humana en 3D25,62,63. Publicamos los modelos de aprendizaje automático y el código de la canalización en https://github.com/google/mouse-pose-analysis.

Arriba: diagrama de tubería. Las cajas rectangulares son algoritmos y procesos. Las elipses son resultados intermedios y finales del oleoducto. Abajo: Representación pictórica del oleoducto. Opera sobre fotogramas de un vídeo (panel izquierdo). Para cada cuadro ejecutamos un detector de objetos 2D entrenado para detectar ratones (segundo panel, cuadro que indica una detección). Aplicamos un modelo de pose 2D para detectar puntos clave del mouse en la ubicación detectada (tercer panel, mapa de calor coloreado que indica ubicaciones de juntas con colores arbitrarios). Finalmente, optimizamos para la pose 3D del mouse (panel derecho, los puntos azules son picos de los mapas de calor de puntos clave en la etapa anterior, los puntos rojos son puntos clave 3D proyectados desde la pose optimizada, malla 3D gris superpuesta en la imagen).

Adaptamos un detector de disparo único64 para detectar el ratón y una red de reloj de arena apilada22 para inferir la pose 2D del ratón, similar a otros trabajos que adaptan modelos de pose humana a animales de laboratorio9,11.

Tanto el modelo de detección como el de pose requieren datos de entrenamiento, que generamos etiquetando 20 posiciones de articulaciones a lo largo del cuerpo, y tomamos el cuadro mínimo que abarca todos los puntos como cuadro delimitador. Los modelos se entrenan previamente en COCO65 y los cabezales de predicción para puntos clave humanos se reemplazan por aquellos para puntos clave de ratón. Para los datos de video continuo, etiquetamos 3670 imágenes para el conjunto de entrenamiento y 628 para el conjunto de prueba. Para los datos de video de Gait, ajustamos el modelo de video continuo en un conjunto de entrenamiento de 329 imágenes etiquetadas adicionales y probamos en 106 imágenes. Los fotogramas se seleccionan manualmente y luego se anotan para cubrir la diversidad de imágenes de entrada en diferentes jaulas y momentos.

Evaluamos nuestro modelo de pose con la puntuación de similitud de punto clave de objeto (OKS) utilizada en COCO65: \(\sum _{i}\exp (-\textbf{d}_i^2 / (2\textbf{k}_i^2\ textbf{s}^2)) / 20\), donde \(\textbf{d}_i\) es la distancia euclidiana entre la predicción y la verdad fundamental, \(\textbf{s}\) es la escala del objeto como La raíz cuadrada del área del cuadro delimitador y la caída por punto clave, \(k_i\), se establece en la mediana humana de 0,08 para todos los puntos clave (consulte http://cocodataset.org/#keypoints-evalforfurtherOKSdetails). Esta configuración equivale a medir la proporción de puntos clave predichos con un cierto radio del punto de verdad fundamental proporcional al tamaño del cuadro delimitador. El radio disminuye, lo que requiere predicciones más precisas, para umbrales OKS más altos y tamaños de cuadros delimitadores más pequeños. La precisión se calcula como el porcentaje de puntos clave pronosticados mayores que un umbral de puntuación OKS/radio de píxeles en la Tabla 2.

Adaptamos la estrategia de optimización de poses 3D humanas20 a ratones porque estrategias de optimización similares tienen éxito con poses 2D inferidas y relativamente pocos datos reales en 3D25.

La pose 3D se define en una cadena cinemática, que consta de 18 de las 20 articulaciones de la Fig. 1 (se excluyen las orejas). Todas las articulaciones se modelan como esféricas, lo que da como resultado un total de 54 ángulos de articulación.

Dado que la cámara y la lente están fijadas a cada jaula, precalibramos los parámetros intrínsecos y extrínsecos, que están disponibles en el sitio web del conjunto de datos. Actualizamos iterativamente los ángulos de las articulaciones 3D \(\textbf{a}\) y las longitudes de los huesos \(\textbf{l}\) en la cadena cinemática, representada por \(T(\textbf{a}, \textbf{l} )\), para minimizar la distancia entre las ubicaciones de los puntos clave 2D de entrada y las ubicaciones de las juntas 3D proyectadas (Ec. 1).

Mejoramos la estabilidad y convergencia de la optimización de pose 3D utilizando la forma previa \(p_s\) y la pose previa \(p_p\). Los antecedentes se construyen de manera similar al modelo SMPL25. Construimos la pose antes a partir de una reconstrucción de múltiples vistas de la pose 3D (ver más abajo), aumentada con modelos hechos a mano, que tienen ángulos de articulación establecidos en un software de modelado 3D para que coincida con la pose aparente del ratón en un conjunto de imágenes que cubren Poses que pueden no aparecer en los videos de vista múltiple. A partir de estas poses 3D, alineamos y escalamos las poses para que el vector desde la base del cuello hasta la mitad de la columna se defina como el eje x y la unidad de longitud, y luego ajustamos un modelo de mezcla gaussiana con 5 componentes para los datos. \(\lambda _p\) se configuró en un valor pequeño para que la pose anterior tuviera un efecto débil similar a mantener los pies hacia el suelo, pero sin limitar las posturas recuperadas a la distribución de la mezcla pequeña.

Para construir la forma antes, recopilamos todas las longitudes de los huesos de las tomografías computarizadas en el conjunto de datos, que cubre ratones de diferente sexo, edad y peso. Ajustamos un modelo de mezcla gaussiana de 7 componentes a las longitudes para formar la forma anterior.

La optimización está sobreparametrizada donde el tamaño total y la distancia a la cámara se confunden, lo que puede dar como resultado una escala arbitraria y rotaciones físicamente inverosímiles. Resolvemos la complicación restringiendo al animal a una distancia fija de la cámara. Limitaciones de escena similares son un enfoque común para reconstruir poses 3D físicamente significativas28,30.

Para generar datos de pose 3D reales sobre el terreno para su validación y construcción de una pose antes, construimos una plataforma de captura 3D de múltiples vistas personalizada. Una cámara RGB+de profundidad de arriba hacia abajo (Kinect) y dos cámaras RGB laterales con sincronización sincronizada están calibradas con campos de visión superpuestos de una jaula de mouse. Etiquetamos las posiciones de las articulaciones 2D en cuadros sincronizados desde cada campo de visión y triangulamos la ubicación 3D de cada posición de las articulaciones para minimizar los errores de reproyección. Las reconstrucciones multivista se utilizan para evaluar la calidad de la reconstrucción de vista única. Se utiliza un conjunto separado y más grande para construir la pose anterior.

El modelo de ratón mutante knock-in Eif2b5R191H/R191H utilizado en el estudio se genera en la cepa de fondo C57BL/6J55. Se sabe que los mutantes Eif2b tienen defectos motores, como mayor deslizamiento en una barra de equilibrio, menor tiempo de suspensión de la rejilla invertida, menor duración del rotarod y una zancada diferente55,56,57. En este estudio, comparamos los mutantes homocigotos (KO) R191H con sus compañeros heterocigotos (HET) para demostrar que podemos detectar déficits locomotores en un modelo de ratón conocido con sus hermanos genéticamente similares. Los ratones se midieron a los 3 y 12 meses. También medimos un conjunto de ratones C57BL/6J (WT) y los comparamos con el grupo HET de la misma edad. Los ratones HET no se retrocruzaron un número suficiente de veces para controlar la deriva genética. Como resultado, las comparaciones entre los grupos HET y WT no pueden distinguir las diferencias entre los fenotipos causados por deriva y mutaciones, pero cualquier diferencia observada apunta a la sensibilidad de nuestro método.

Para evaluar qué representaciones conservan información sobre la dinámica del movimiento, entrenamos un modelo de red neuronal artificial de caja negra para predecir atributos biológicos en los datos de video continuo. Como queremos estudiar la marcha y no otros factores, limitamos el análisis a secuencias cuando el animal está sobre o cerca de la rueda durante el ciclo nocturno, cuando los ratones están más activos. Entrenamos y predecimos etiquetas en intervalos de 10 s, pero evaluamos el rendimiento a través de las puntuaciones de predicción agregadas para cada animal para normalizar la cantidad de tiempo en la rueda. Los datos se dividen en conjuntos de entrenamiento (63057 segmentos) y de prueba (32163 segmentos) con conjuntos separados de ratones en cada uno. Para cada representación de datos que probamos, entrenamos una red neuronal convolucional con un tamaño de núcleo 24 para predecir cada etiqueta de forma independiente. Entrenamos los modelos utilizando el optimizador Adam66 con una suma de pérdidas binarias de entropía cruzada por atributo durante 5 épocas. Realizamos un barrido de hiperparámetros sobre la cantidad de capas en la red [2, 3 o 4], la cantidad de unidades ocultas en cada capa [32, 64, 128, 256] y la tasa de aprendizaje [0.0001, 0.00001, 0.000001 ] utilizando la mitad del conjunto de entrenamiento para la validación. Informamos la mejor precisión para cada representación en el conjunto de prueba.

Las mediciones directas de los parámetros de la marcha se obtienen mediante un sistema comercial (DigiGait). Usamos la longitud de zancada agregada del informe Posture Plot, así como las mediciones de longitud de zancada individuales del sistema comercial. Calculamos medidas similares a partir de nuestro método calculando la duración de las zancadas de la postura reconstruida y multiplicándolas por la velocidad conocida de la cinta para calcular la longitud de la zancada. La duración agregada de la zancada se calcula como la longitud de onda de la magnitud máxima del espectro de Fourier y las duraciones de las zancadas individuales se calculan como tiempos de pico a pico.

Comparación de reconstrucciones de vista múltiple y de vista única. Las barras de error son \(\pm 1\) SE. Los tres paneles superiores muestran tres vistas del mouse en el mismo momento. Los puntos rojos son reconstrucciones de triangulación y los puntos cian de nuestra reconstrucción de vista única. Se muestran como ejemplos cuatro de 20 articulaciones (0: cola, 1: ruido, 2: pata izquierda y 3: pata derecha).

Evaluamos cuantitativamente la calidad de nuestras poses 3D en el conjunto de datos de video Multiview. Después de determinar la pose 3D real del terreno a partir de múltiples vistas (consulte la sección "Métodos"), calculamos qué tan bien reconstruimos la pose solo desde la vista de arriba hacia abajo. La pose 3D inferida se registra en la pose real del terreno y cuantificamos el error en la pose 3D inferida en milímetros en la Fig. 4, que muestra el RMSE de 35 mediciones por articulación. Las barras de error son 1 error estándar. Los errores en la cola, el hombro y la cabeza son menores que los del tobillo, la cadera y la muñeca, cuyas posturas 2D son más ruidosas debido a la oclusión. El error medio para cada junta es inferior a 10 mm. Como la longitud corporal promedio de los ratones es de aproximadamente 10 cm, esto representa menos del 10% de error relativo. No podemos encontrar otra referencia de pose monocular en 3D que enumere números con los que comparar. Aunque estas cifras permiten mejorar, demostramos con más resultados que esta precisión es suficiente para permitir predicciones de salud y extracción de parámetros de la marcha.

Después de inferir las poses 3D, mostramos que las representaciones extraídas son suficientes para inferir diferencias sutiles en edad, antecedentes genéticos y knockouts heterocigotos versus homocigotos. Utilizamos atributos de datos de video continuo para evaluar la facilidad con la que los modelos pueden predecir atributos biológicos a partir de diferentes características: el cuadro delimitador 2D, los puntos clave 2D, los puntos clave 3D y los ángulos de las articulaciones 3D. Entrenamos una variedad de redes neuronales artificiales en cada representación y presentamos los mejores resultados para cada característica en un conjunto de 16 animales en la Tabla 3. De estos, los ángulos de articulación 3D superan a los demás al poder clasificar perfectamente cada animal en el conjunto de prueba, mientras que los demás cometen de uno a tres errores en los 16 animales del conjunto de prueba.

Para validar aún más nuestro método, comparamos las mediciones de las zancadas de nuestro sistema con las mediciones de un sistema DigiGait que toma imágenes directamente de los pies desde abajo. Inferimos las posturas 3D vistas desde arriba usando nuestro método, estimamos las zancadas y comparamos el resultado con las mediciones de zancada directa realizadas por el sistema DigiGait en la Fig. 5. Descubrimos que podemos recapitular múltiples mediciones directas.

Arriba a la izquierda: un ejemplo de serie temporal de la posición del pie en unidades arbitrarias. La estructura periódica de la marcha es claramente visible. Los puntos rojos indican los picos utilizados para calcular la longitud de la zancada. Arriba a la derecha: la frecuencia máxima en la reconstrucción de la posición del pie \(\times \), la velocidad de la correa (azul, sólida) y la longitud de la zancada del gráfico de postura DigiGait (naranja, discontinua). Abajo a la izquierda: la distribución de las longitudes de zancada de la reconstrucción de la postura (azul oscuro) y DigiGait (naranja claro). Las líneas verticales discontinuas, negras, indican umbrales atípicos para el modelado estadístico. Abajo a la derecha: longitudes de zancada según la velocidad de la cinta para correr para la postura reconstruida (azul, sólido) y DigiGait (naranja, discontinuo). Las barras de error indican ±1 SEM.

La longitud de zancada estimada a partir de la magnitud del espectro de Fourier de la posición del pie durante varios segundos coincide muy bien con la longitud de zancada agregada del Posture Plot. Debido a que el análisis de espectro se agrega con el tiempo, debería ser más preciso que los análisis de un solo paso y evita el ruido de muestreo debido a la velocidad de fotogramas limitada que utilizamos (24 fps). Sin embargo, no podemos calcular estadísticas a partir de un número agregado, por lo que también comparamos estimaciones de zancadas individuales más ruidosas.

Medimos los tiempos pico a pico para estimar las longitudes de zancada individuales y comparar la distribución con las mediciones directas. Excluyendo 13 valores atípicos asimétricos más allá de 2,3 \(\sigma \) de la media, las mediciones de nuestro sistema no fueron significativamente diferentes de las mediciones directas (ANOVA de 2 vías, efecto principal del sistema de medición: df = 289, t\(=- \) 0,8, \(p=0,424\)). Si bien las estadísticas no pueden demostrar que las distribuciones sean idénticas, podemos afirmar que nuestras mediciones son similares a las del sistema comercial, excepto que los valores atípicos de DigiGait son avances cortos mientras que los nuestros son avances largos.

Aprendemos y evaluamos inferir el comportamiento de ratones en un conjunto de 1254 videos de entrenamiento, 400 videos de validación y 400 videos de prueba etiquetados manualmente. Utilizamos intencionalmente un pequeño conjunto de datos para imitar la necesidad común en la investigación biológica de reutilizar componentes para resolver nuevas tareas con datos etiquetados limitados disponibles. Como el comportamiento a menudo se puede inferir a partir de un solo cuadro, lo comparamos con una red neuronal convolucional además de las características extraídas de baja dimensión. Extraemos incrustaciones de ResNet para 12 fotogramas consecutivos, promediamos las características a lo largo del tiempo y predecimos el comportamiento con un MLP de 2 capas. Utilizamos redes convolucionales como se describe en la sección "Predicción de atributos biológicos" para inferir el comportamiento a partir de las características extraídas de baja dimensión. Entrenamos con el optimizador Adam durante 25 épocas. Encontramos en la Tabla 4 que las salidas del cuadro delimitador de nuestra tubería de pose pueden inferir el comportamiento mejor que adaptar una red neuronal convolucional profunda. Las representaciones de puntos clave en 2D y 3D también funcionan casi igual de bien. Los modelos con mayor frecuencia confunden clases con poses similares, pero diferentes cantidades de movimiento, como clasificar “caminar/correr a través de la jaula” como “de pie/en el fondo” o “dormir” como “rascarse/arreglarse”, como se ve en la Fig. 6. Una hipótesis es que restringir la entrada solo a las ubicaciones del cuadro delimitador ayuda al modelo a evitar el sobreajuste de detalles irrelevantes y detectar mejor pequeños cambios en la posición. Un beneficio de utilizar nuestro método es que las diferentes etapas del proceso ofrecen diferentes niveles de granularidad y evitan el costo computacional de ejecutar múltiples redes neuronales convolucionales u otras costosas redes neuronales solo en píxeles. Algunas tareas pueden funcionar mejor con representaciones detalladas de los ángulos de las articulaciones, mientras que esta pequeña tarea de clasificación de comportamiento puede utilizar la ubicación y el movimiento del cuadro delimitador para clasificar en menos dimensiones.

Matriz de confusión representativa para la clasificación de comportamientos. Cada fila representa la clasificación prevista para una etiqueta positiva verdadera determinada. Cada columna es una predicción de salida diferente. Esta matriz de confusión particular es para el modelo Imágenes, pero el patrón es consistente en todos los tipos de entrada.

Aquí, presentamos un método que infiere la pose 3D de los ratones a partir de videos de vista única, describiendo cada componente de nuestro proceso analítico y su rendimiento general. Evaluamos el rendimiento de nuestro método en términos de la precisión del resultado principal: puntos clave (por ejemplo, Tabla 2). Sin embargo, los puntos clave 3D no son fenotipos significativos por sí mismos, por lo que evaluamos la capacidad de estos resultados para capturar cambios biológicamente relevantes en el comportamiento del ratón. Para dos perturbaciones biológicas que se sabe que afectan la marcha (edad y mutación de Eif2B), los resultados de múltiples etapas de nuestro método (cuadros delimitadores, puntos clave 2D, puntos clave 3D y ángulos articulares 3D) pudieron predecir el estado biológico (Tabla 3). ). Es importante destacar que hubo pocas ventajas al convertir puntos clave 2D en puntos clave 3D, pero hubo una ventaja considerable al convertir puntos clave 3D en ángulos de articulación 3D. Más allá de demostrar la eficacia de nuestro método particular, este resultado agregó información sobre qué aspecto de los datos de pose puede capturar mejor la biología. Demostramos que los ángulos de las articulaciones 3D permiten predecir los atributos relacionados con la salud de los ratones más fácilmente que otras características.

Nuestro método ofrece oportunidades convincentes para una monitorización continua y no invasiva. Además de la utilidad de las estimaciones de postura como entradas consolidadas para la clasificación de atributos biológicos en caja negra, nuestro sistema también proporciona una solución alternativa al hardware personalizado para determinar parámetros de la marcha, como la longitud de la zancada (Fig. 5). El trabajo futuro incluye mejorar la precisión de la pose 3D y extender este método a las interacciones sociales de los animales.

Los modelos de aprendizaje automático en nuestra cartera se entrenaron y evaluaron a través de videos de ratones en una diversidad limitada de contextos visuales. Aunque son potencialmente robustos en entornos nuevos, estos modelos pueden requerir un reentrenamiento con datos adicionales que coincidan con los nuevos entornos visuales en algunos casos. Para permitir la extensión de nuestro enfoque, o enfoques similares, proporcionamos imágenes de ratones individuales con puntos clave 2D anotados; vídeos etiquetados de seguimiento con múltiples ratones; y tomografías computarizadas anatómicas utilizadas para construir nuestra forma previamente (Sección "Disponibilidad de datos"). Esperamos que este conjunto de datos de análisis de la postura del ratón y los modelos y códigos que lo acompañan sirvan como un valioso recurso comunitario para permitir nuevas investigaciones.

Burn, D. Libro de texto de Oxford sobre trastornos del movimiento (Oxford University Press, 2013).

Reservar Google Académico

Deacon, RM Medición de la coordinación motora en ratones. J.Visual. Exp. 29, e2609 (2013).

Google Académico

Gould, TD, Dao, DT y Kovacsics, CE La prueba de campo abierto. En Fenotipos relacionados con el estado de ánimo y la ansiedad en ratones 1 a 20 (Springer, 2009).

Capítulo Google Scholar

Dorman, CW, Krug, HE, Frizelle, SP, Funkenbusch, S. y Mahowald, ML Una comparación de los sistemas de imágenes digigait™ y Treadscan™: evaluación del dolor mediante análisis de la marcha en monoartritis murina. J. Dolor Res. 7, 25 (2014).

PubMed Google Académico

Xu, Y. et al. Evaluación del dolor y analgésicos en la marcha: comparación de los sistemas de imágenes de la marcha digigait™ y catwalk™. Neurociencias. Toro. 35, 401–418 (2019).

Artículo PubMed PubMed Central Google Scholar

Bains, RS y cols. Evaluación del comportamiento del ratón a lo largo del ciclo de luz/oscuridad utilizando herramientas automatizadas de análisis en la jaula. J. Neurosci. Métodos 300, 37–47 (2018).

Artículo ADS PubMed PubMed Central Google Scholar

Jhuang, H. y col. Fenotipado automatizado del comportamiento de ratones en jaulas domésticas. Nat. Comunitario. 1, 1-10 (2010).

ADS del artículo Google Scholar

Kabra, M., Robie, AA, Rivera-Alba, M., Branson, S. & Branson, K. Jaaba: Aprendizaje automático interactivo para la anotación automática del comportamiento animal. Nat. Métodos 10, 64 (2013).

Artículo CAS PubMed Google Scholar

Mathis, A. et al. Deeplabcut: estimación de postura sin marcadores de partes del cuerpo definidas por el usuario con aprendizaje profundo. Nat. Neurociencias. 21, 1281 (2018).

Artículo CAS PubMed Google Scholar

Noldus, LP, Spink, AJ y Tegelenbosch, RA Ethovision: un sistema de seguimiento de vídeo versátil para la automatización de experimentos de comportamiento. Comportamiento. Res. Métodos Instrumento. Computadora. 33, 398–414 (2001).

Artículo CAS PubMed Google Scholar

Pereira, TD et al. Estimación rápida de la pose de los animales mediante redes neuronales profundas. Nat. Métodos 16, 117-125 (2019).

Artículo CAS PubMed Google Scholar

Richardson, CA El poder de las tecnologías de jaulas conductuales automatizadas para caracterizar la progresión de enfermedades en ratones de laboratorio: una revisión. Aplica. Animación. Comportamiento. Ciencia. 163, 19-27 (2015).

Artículo de Google Scholar

Dunn, TW y cols. El aprendizaje profundo geométrico permite crear perfiles cinemáticos en 3D entre especies y entornos. Nat. Métodos 18, 564 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Hong, W. y col. Medición automatizada de los comportamientos sociales del ratón mediante detección de profundidad, seguimiento de vídeo y aprendizaje automático. Proc. Nacional. Acad. Ciencia. 112, E5351-E5360 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Salem, G., Krynitsky, J., Hayes, M., Pohida, T. y Burgos-Artizzu, X. Estimación de pose tridimensional para ratones de laboratorio a partir de imágenes monoculares. Traducción IEEE. Proceso de imagen. 28, 4273–4287 (2019).

Artículo ADS MathSciNet PubMed PubMed Central MATH Google Scholar

Sheets, AL, Lai, P.-L., Fisher, LC y Basso, DM Evaluación cuantitativa del comportamiento del ratón en 3D y la función motora en campo abierto después de una lesión de la médula espinal mediante seguimiento de movimiento sin marcadores. PloS One 8, e74536 (2013).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wiltschko, AB y cols. Mapeo de estructuras de menos de un segundo en el comportamiento del mouse. Neurona 88, 1121-1135 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Johnson, MJ, Duvenaud, DK, Wiltschko, A., Adams, RP y Datta, SR Composición de modelos gráficos con redes neuronales para representaciones estructuradas e inferencia rápida. En: Avances en los sistemas de procesamiento de información neuronal, 2946–2954 (2016).

Liu, Z. y col. Hacia una predicción natural y precisa del movimiento futuro de humanos y animales. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 10004–10012 (2019).

Bregler, C. & Malik, J. Seguimiento de personas con giros y mapas exponenciales. En Actas. Conferencia de la IEEE Computer Society de 1998 sobre visión por computadora y reconocimiento de patrones (n.º de catálogo 98CB36231), 8–15 (IEEE, 1998).

Cao, Z., Hidalgo, G., Simon, T., Wei, S. -E. & Sheikh, Y. OpenPose: estimación de pose 2D de varias personas en tiempo real utilizando Part Affinity Fields. En: preimpresión de arXiv arXiv:1812.08008 (2018).

Newell, A., Yang, K. y Deng, J. Redes de relojes de arena apiladas para la estimación de la pose humana. En Conferencia europea sobre visión por computadora, 483–499 (Springer, 2016).

Wei, S. -E., Ramakrishna, V., Kanade, T. y Sheikh, Y. Máquinas de pose convolucionales. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 4724–4732 (2016).

Loper, M., Mahmood, N., Romero, J., Pons-Moll, G. & Black, MJ Smpl: un modelo lineal de varias personas con piel. Transmisión ACM. Grafico. 34, 248 (2015).

Artículo de Google Scholar

Bogo, F. et al. Manténgalo simple: estimación automática de la pose y forma humana en 3D a partir de una sola imagen. En Conferencia europea sobre visión por computadora, 561–578 (Springer, 2016).

Pavlakos, G., Zhu, L., Zhou, X. y Daniilidis, K. Aprender a estimar la pose y la forma humana en 3D a partir de una imagen de un solo color. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 459–468 (2018).

Tung, H. -Y., Tung, H. -W., Yumer, E. y Fragkiadaki, K. Aprendizaje autosupervisado de la captura de movimiento. En Avances en sistemas de procesamiento de información neuronal, 5236–5246 (2017).

Arnab, A., Doersch, C. y Zisserman, A. Explotación del contexto temporal para la estimación de la pose humana en 3D en la naturaleza. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 3395–3404 (2019).

Kanazawa, A., Zhang, JY, Felsen, P. y Malik, J. Aprendizaje de dinámica humana 3D a partir de vídeo. En Visión por computadora y reconocimiento de patrones (CVPR) (2019).

Zanfir, A., Marinoiu, E. y Sminchisescu, C. Estimación monocular de pose y forma en 3D de varias personas en escenas naturales: la importancia de las limitaciones de múltiples escenas. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 2148–2157 (2018).

Grieco, F. et al. Medición del comportamiento en la jaula del hogar: diseño del estudio, aplicaciones, desafíos y perspectivas. Frente. Comportamiento. Neurociencias. 15, 735387. https://doi.org/10.3389/fnbeh.2021.735387 (2021).

Artículo PubMed PubMed Central Google Scholar

Sun, JJ y cols. El conjunto de datos de comportamiento de múltiples agentes: interacciones sociales diádicas del ratón. arXiv:2104.02710 [cs] (2021). ArXiv:2104.02710.

Segalin, C. y col. La línea de software del sistema de reconocimiento de acciones del mouse (MARS) para el análisis automatizado de comportamientos sociales en ratones. eLife 10, e63720. https://doi.org/10.7554/eLife.63720 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Marshall, JD y cols. El conjunto de datos PAIR-R24M para la estimación de poses 3D de múltiples animales. Tecnología. Representante, bioRxiv. https://doi.org/10.1101/2021.11.23.469743 (2021). Sección: Nuevos Resultados Tipo: artículo.

Dunn, TW y cols. El aprendizaje profundo geométrico permite la creación de perfiles cinemáticos 3D entre especies y entornos. Nat. Métodos 18, 564–573. https://doi.org/10.1038/s41592-021-01106-6 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Munea, TL et al. El progreso de la estimación de la pose humana: un estudio y una taxonomía de modelos aplicados en la estimación de la pose humana 2D. Acceso IEEE 8, 133330–133348. https://doi.org/10.1109/ACCESS.2020.3010248 (2020).

Artículo de Google Scholar

Ben Gamra, M. & Akhloufi, MA Una revisión de técnicas de aprendizaje profundo para la estimación de pose humana en 2D y 3D. Imagen Vis. Computadora. 114, 104282. https://doi.org/10.1016/j.imavis.2021.104282 (2021).

Artículo de Google Scholar

Liu, W., Bao, Q., Sun, Y. y Mei, T. Avances recientes en la estimación de la pose humana monocular 2D y 3D: una perspectiva de aprendizaje profundo. Computación ACM. Supervivencia.https://doi.org/10.48550/arXiv.2104.11536 (2021).

Artículo de Google Scholar

Tian, Y., Zhang, H., Liu, Y. y Wang, L. Recuperación de malla humana 3D a partir de imágenes monoculares: una encuesta. Arxivhttps://doi.org/10.48550/arXiv.2203.01923 (2022).

Mathis, A. et al. DeepLabCut: estimación de pose sin marcadores de partes del cuerpo definidas por el usuario con aprendizaje profundo. Nat. Neurociencias. 21, 1281-1289. https://doi.org/10.1038/s41593-018-0209-y (2018).

Artículo CAS PubMed Google Scholar

Pereira, TD et al. Estimación rápida de la pose de los animales mediante redes neuronales profundas. Nat. Métodos 16, 117–125. https://doi.org/10.1038/s41592-018-0234-5 (2019).

Artículo CAS PubMed Google Scholar

Graving, JM y cols. DeepPoseKit, un conjunto de herramientas de software para una estimación rápida y sólida de la postura de los animales mediante el aprendizaje profundo. eLife 8, e47994. https://doi.org/10.7554/eLife.47994 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Liu, X. y col. OptiFlex: estimación de la postura de los animales basada en vídeo mediante aprendizaje profundo mejorado por flujo óptico. Tecnología. Representante, bioRxiv (2020). https://doi.org/10.1101/2020.04.04.025494. Sección: Nuevos Resultados Tipo: artículo.

Kreiss, S., Bertoni, L. y Alahi, A. OpenPifPaf: campos compuestos para detección de puntos clave semánticos y asociación espacio-temporal. Traducción IEEE. Intel. Transp. Sistema.https://doi.org/10.1109/TITS.2021.3124981 (2021).

Artículo de Google Scholar

Wu, A. y col. Deep Graph Pose: un modelo gráfico profundo semisupervisado para mejorar el seguimiento de las posturas de los animales. En Avances en sistemas de procesamiento de información neuronal (eds Larochelle, H. et al.) 6040–6052 (Curran Associates Inc., 2020).

Google Académico

Zimmermann, C., Schneider, A., Alyahyay, M., Brox, T. & Diester, I. FreiPose: un marco de aprendizaje profundo para la captura precisa del movimiento animal en espacios 3D. Tecnología. Rep., (2020). https://doi.org/10.1101/2020.02.27.967620. Sección: Nuevos Resultados Tipo: artículo.

Huang, R. y col. El aprendizaje automático clasifica las características cinemáticas predictivas en un modelo de neurodegeneración en ratón. Ciencia. Rep. 11, 3950. https://doi.org/10.1038/s41598-021-82694-3 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Karashchuk, P. y col. Anipose: un conjunto de herramientas para una estimación robusta de poses 3D sin marcadores. Representante celular 36, 109730. https://doi.org/10.1016/j.celrep.2021.109730 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Xu, C., Govindarajan, LN, Zhang, Y. & Cheng, L. Lie-X: estimación, seguimiento y reconocimiento de acciones de objetos articulados basados en imágenes de profundidad en grupos de mentiras. En t. J. Computación. Visión 123, 454–478. https://doi.org/10.1007/s11263-017-0998-6 (2017).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Ebbesen, CL y Froemke, RC Mapeo automático de campos sociales receptivos multiplexados mediante aprendizaje profundo y videografía 3D acelerada por GPU. Nat. Comunitario. 13, 593. https://doi.org/10.1038/s41467-022-28153-7 (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Tsuruda, Y. et al. Seguimiento de partes del cuerpo en 3D del mouse basado en video RGB-D desde debajo de un campo abierto. En: 2021, 43.ª Conferencia Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC), 7252–7255, https://doi.org/10.1109/EMBC46164.2021.9630565 (2021). ISSN: 2694-0604.

Gosztolai, A. et al. LiftPose3D, un enfoque basado en el aprendizaje profundo para transformar posturas bidimensionales en tridimensionales en animales de laboratorio. Nat. Métodos 18, 975–981. https://doi.org/10.1038/s41592-021-01226-z (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Bregler, C., Malik, J. & Pullen, K. Adquisición y seguimiento de cinemática animal y humana basados en giros. En t. J. Computación. Visión 56, 179–194 (2004).

Artículo de Google Scholar

Wong, YL y cols. El activador eif2b previene los defectos neurológicos causados por una respuesta crónica al estrés integrada. eLife 8, e42940. https://doi.org/10.7554/eLife.42940 (2019).

Artículo PubMed PubMed Central Google Scholar

Dooves, S. y col. Los astrocitos son fundamentales en los mecanismos patogénicos de la desaparición de la materia blanca. J.Clin. Investigando. 126, 1512-1524 (2016).

Artículo PubMed PubMed Central Google Scholar

Geva, M. y col. Un modelo de ratón para la leucodistrofia del factor de iniciación de la traducción 2b en eucariotas revela un desarrollo anormal de la materia blanca del cerebro. Cerebro 133, 2448–2461 (2010).

Artículo PubMed Google Scholar

Batka, RJ y cols. La necesidad de velocidad en los análisis de locomoción de roedores. Un átomo. Registro 297, 1839–1864. https://doi.org/10.1002/ar.22955 (2014).

Artículo de Google Scholar

Heglund, NC y Taylor, CR Velocidad, frecuencia de zancada y costo de energía por zancada: ¿Cómo cambian con el tamaño del cuerpo y la marcha? J. Exp. Biol. 138, 301–318. https://doi.org/10.1242/jeb.138.1.301 (1988).

Artículo CAS PubMed Google Scholar

Herbin, M., Hackert, R., Gasc, J.-P. & Renous, S. Parámetros de marcha de la cinta de correr versus locomoción sobre el suelo en un mouse. Comportamiento. Res. cerebral. 181, 173–9. https://doi.org/10.1016/j.bbr.2007.04.001 (2007).

Artículo PubMed Google Scholar

Jhuang, H. y col. Fenotipado automatizado del comportamiento de ratones en jaulas domésticas. Nat. Comunitario. 1, 68. https://doi.org/10.1038/ncomms1064 (2010).

Artículo ADS CAS PubMed Google Scholar

Lassner, C. y col. Unir a la gente: cerrar el círculo entre representaciones humanas en 3D y 2D. En: Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 6050–6059 (2017).

Varol, G. y col. Aprendiendo de los humanos sintéticos. En: Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 109–117 (2017).

Liu, W. y col. Ssd: Detector multibox de disparo único. En: Conferencia europea sobre visión por computadora, 21–37 (Springer, 2016).

Lin, T. -Y. et al. Microsoft coco: objetos comunes en contexto. En: Conferencia europea sobre visión por computadora, 740–755 (Springer, 2014).

Kingma, DP & Ba, J. Adam: Un método de optimización estocástica. arXiv preprintarXiv:1412.6980 (2014).

Descargar referencias

Google, 1600 Amphitheatre Parkway, Mountain View, CA, 94043, EE. UU.

Bo Hu, Bryan Seybold, Shan Yang, Avneesh Sud y David A. Ross

Calico Life Sciences LLC, 1170 Veterans Blvd., South San Francisco, CA, 94080, EE. UU.

Yi Liu, Karla Barron, Paulyn Cha, Marcelo Cosino, Ellie Karlsson, Janessa Kite, Ganesh Kolumam, Joseph Precious, Joseph Zavala-Solorio, Chunlian Zhang y J. Graham Ruby

Imágenes traslacionales, Neuroscience Discovery, Abbvie, 1 N. Waukegan Rd., North Chicago, IL, 60064-1802, EE. UU.

Xiaomeng Zhang, Martin Voorbach y Ann E. Tovcimak

También puedes buscar este autor en PubMed Google Scholar.

BH, BS y SY escribieron el texto principal del manuscrito. YL, KB, PC, MC, EK, JK, GK, JP, JZS y CZ recopilaron los datos descritos en la sección Fotogramas de vídeo. XZ, MV y AT recopilaron los datos y escribieron el texto de la Sección CT Scans. DR y JR editaron el manuscrito. Todos los autores revisaron el manuscrito.

Correspondencia a Bo Hu.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Hu, B., Seybold, B., Yang, S. et al. Postura del mouse en 3D a partir de un video de vista única y un nuevo conjunto de datos. Representante científico 13, 13554 (2023). https://doi.org/10.1038/s41598-023-40738-w

Descargar cita

Recibido: 25 de noviembre de 2022

Aceptado: 16 de agosto de 2023

Publicado: 21 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-40738-w

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.