INTRODUCCION
En los últimos años han ido apareciendo nuevas aplicaciones en el mundo de las telecomunicaciones, que requieren una continua mejora de los equipos terminales y de los canales de comunicación. El desarrollo y la explotación de nuevos sistemas de comunicación como la videoconferencia o la videotelefonía, deben tratar de compaginarse con la necesidad de aprovechar canales de transmisión de baja capacidad, que en un principio fueron diseñados para transmitir voz o texto [16]. Algunos ejemplos son la red digital de servicios integrados (ISDN, con tasa de transmisión de 64 Kbps), las redes telefónicas públicas (PSTN's, a 28,8 Kbps) o las redes de telefonía móvil (GSM, a 10 Kbps). La necesidad anterior ha impulsado el diseño de técnicas de codificación que permitan trabajar con unas tasas de transmisión restringidas, manteniendo una calidad aceptable.

Una de las características más importantes de las señales de vídeo es que presentan una gran redundancia espacial y temporal. El objetivo de las técnicas de compresión de vídeo es reducir esa redundancia para disminuir así el ancho de banda necesario para transmitir la señal.

La redundancia espacial se da dentro de una misma imagen y supone que el valor de cada píxel está muy relacionado con el de sus píxeles vecinos. Las imágenes naturales están compuestas básicamente por áreas limitadas por contornos. Estas áreas suelen ocupar la mayor parte de la imagen, y tienen la característica de que al recorrer sus píxeles, el color y la iluminación cambian muy suavemente. Actualmente se emplea la DCT [22] (Discrete Cosine Transform) para reducir la redundancia espacial. La redundancia temporal se refiere a la fuerte correlación que hay entre píxeles vecinos a lo largo del tiempo. En una secuencia se lleva a cabo un muestreo temporal, que debe cumplir el criterio de Nyquist para que el observador no detecte dicho muestreo. Esto supone que la diferencia entre dos cuadros consecutivos de una secuencia sea muy baja, existiendo a veces áreas que no cambian en toda la secuencia. Además, los cambios entre cuadros suelen obedecer más al movimiento de los objetos de la imagen, que a la aparición de nuevos contenidos. Las técnicas de estimación y compensación de movimiento son las que tratan de reducir la redundancia temporal.

Tratando de combinar las técnicas de estimación y compensación de movimiento con la codificación mediante DCT, surge el modelo de codificación híbrido [4][11], cuyo diagrama de bloques puede verse en la figura:
Diagrama de bloques de un codificador híbrido.
EM : Estimación de movimiento
CM : Compensación de movimiento
DCT : Discrete Cosine Transform
IDCT : Inverse Discrete Cosine Transform
Q : Cuantificador
IQ : Cuantificador Inverso
VLC : Variable Length Code
VM : Vectores de movimiento
En el modelo anterior, el bloque de estimación del codificador estima el movimiento entre dos cuadros sucesivos de una secuencia; el bloque de compensación calcula la predicción, y entonces se transmite al decodificador la información de movimiento junto al error de la predicción codificado mediante la DCT. Dicho error consiste en la diferencia entre el cuadro reconstruido y el cuadro real, y es lo que se llama diferencia con el cuadro desplazado o DFD (Displaced Frame Difference). La DCT hace un análisis armónico de esta imagen, y extrae una serie de coeficientes que representan el peso de sus distintas frecuencias espaciales. Esos coeficientes se cuantifican, lo que provoca una reducción del nivel de detalle respecto a la imagen original. Sin embargo, el ojo humano pierde su capacidad de detectar el detalle con la frecuencia, por lo que la cuantificación de los coeficientes de las frecuencias más altas puede ser realizada de forma más grosera sin afectar en exceso a la calidad. Por tanto la única pérdida de información en este mecanismo se debe a esta cuantificación de los coeficientes. El rendimiento de la DCT es muy grande gracias a que los valores de los píxeles de la DFD van a ser muy bajos y en muchos casos nulos. En el decodificador se emplea la información recibida para construir el cuadro actual, basándose en el cuadro anteriormente reconstruido.

El interés de este proyecto se centra en los bloques de estimación y compensación de movimiento. El objetivo es partir de unos modelos de estimación y compensación ya diseñados, y aplicar sobre ellos un algoritmo iterativo con vistas a mejorar la estimación. De este modo se consigue una reconstrucción de mayor calidad, el error disminuye, y por tanto el rendimiento de la DCT aumenta y se transmite menos información al decodificador. Los modelos de estimación y compensación de movimiento de partida están basados en deformación de mallas, técnica que también es conocida como interpolación por control de malla o CGI [11] (Control Grid Interpolation):
  • El primero de ellos emplea una malla regular triangular.
  • El segundo usa una malla triangular adaptada al contenido visual de la escena, mediante la adecuada elección de los nodos de la malla.
  • Los esquemas basados en segmentación están recibiendo un creciente interés [15], porque permiten las discontinuidades de movimiento, frente a los dos modelos anteriores que imponen la conectividad global de la malla. Por ello, este tercer modelo está basado en objetos y trabaja con imágenes segmentadas.
Puede verse que los modelos anteriores constituyen un recorrido desde modelos de primera generación, hacia otros más cercanos a la segunda generación. Sobre todos ellos se ha aplicado un proceso iterativo llamado ajuste hexagonal o hexagonal matching [16] (en realidad a los dos últimos modelos se ha aplicado el ajuste poligonal, que es una modificación del ajuste hexagonal para adaptarlo al caso de mallas no regulares), con el objetivo de refinar los resultados de la estimación de movimiento. Esto permite una mejor reconstrucción, y una reducción del error de la imagen predicha respecto a la real.