INTRODUCCION |
En los últimos años han ido apareciendo nuevas aplicaciones en el mundo de las telecomunicaciones,
que requieren una continua mejora de los equipos terminales y de los canales de comunicación. El
desarrollo y la explotación de nuevos sistemas de comunicación como la videoconferencia o la videotelefonía,
deben tratar de compaginarse con la necesidad de aprovechar canales de transmisión de baja capacidad,
que en un principio fueron diseñados para transmitir voz o texto [16].
Algunos ejemplos son la red
digital de servicios integrados (ISDN, con tasa de transmisión de 64 Kbps), las redes telefónicas
públicas (PSTN's, a 28,8 Kbps) o las redes de telefonía móvil (GSM, a 10 Kbps). La necesidad anterior ha
impulsado el diseño de técnicas de codificación que permitan trabajar con unas tasas de transmisión
restringidas, manteniendo una calidad aceptable.
Una de las características más importantes de las señales de vídeo es que presentan una gran
redundancia espacial y temporal. El objetivo de las técnicas de compresión de vídeo es reducir
esa redundancia para disminuir así el ancho de banda necesario para transmitir la señal.
La redundancia espacial se da dentro de una misma imagen y supone que el valor de cada píxel está
muy relacionado con el de sus píxeles vecinos. Las imágenes naturales están compuestas básicamente
por áreas limitadas por contornos. Estas áreas suelen ocupar la mayor parte de la imagen, y tienen
la característica de que al recorrer sus píxeles, el color y la iluminación cambian muy
suavemente. Actualmente se emplea la DCT
[22] (Discrete Cosine Transform) para reducir la
redundancia espacial. La redundancia temporal se refiere a la fuerte correlación que hay entre píxeles vecinos a
lo largo del tiempo. En una secuencia se lleva a cabo un muestreo temporal, que debe cumplir el
criterio de Nyquist para que el observador no detecte dicho muestreo. Esto supone que la diferencia
entre dos cuadros consecutivos de una secuencia sea muy baja, existiendo a veces áreas que no cambian
en toda la secuencia. Además, los cambios entre cuadros suelen obedecer más al movimiento de los objetos
de la imagen, que a la aparición de nuevos contenidos. Las técnicas de estimación y compensación de
movimiento son las que tratan de reducir la redundancia temporal.
Tratando de combinar las técnicas de estimación y compensación de movimiento con la codificación
mediante DCT, surge el modelo de codificación híbrido [4][11], cuyo diagrama de bloques puede
verse en la figura:
|
Diagrama de bloques de un codificador híbrido.
|
|
EM : Estimación de movimiento
CM : Compensación de movimiento
DCT : Discrete Cosine Transform
IDCT : Inverse Discrete Cosine Transform
Q : Cuantificador
IQ : Cuantificador Inverso
VLC : Variable Length Code
VM : Vectores de movimiento
|
En el modelo anterior, el bloque de estimación del codificador estima el movimiento entre dos cuadros
sucesivos de una secuencia; el bloque de compensación calcula la predicción, y entonces se transmite al
decodificador la información de movimiento junto al error de la predicción codificado mediante la DCT.
Dicho error consiste en la diferencia entre el cuadro reconstruido y el cuadro real, y es lo que se llama
diferencia con el cuadro desplazado o DFD (Displaced Frame Difference). La DCT hace un análisis armónico
de esta imagen, y extrae una serie de coeficientes que representan el peso de sus distintas frecuencias espaciales.
Esos coeficientes se cuantifican, lo que provoca una reducción del nivel de detalle respecto a la imagen
original. Sin embargo, el ojo humano pierde su capacidad de detectar el detalle con la frecuencia, por lo que
la cuantificación de los coeficientes de las frecuencias más altas puede ser realizada de forma más grosera
sin afectar en exceso a la calidad. Por tanto la única pérdida de información en este mecanismo se debe a
esta cuantificación de los coeficientes. El rendimiento de la DCT es muy grande gracias a que los valores de los
píxeles de la DFD van a ser muy bajos y en muchos casos nulos. En el decodificador se emplea la información
recibida para construir el cuadro actual, basándose en el cuadro anteriormente reconstruido.
El interés de este proyecto se centra en los bloques de estimación y compensación de movimiento. El
objetivo es partir de unos modelos de estimación y compensación ya diseñados, y aplicar sobre ellos un
algoritmo iterativo con vistas a mejorar la estimación. De este modo se consigue una reconstrucción de
mayor calidad, el error disminuye, y por tanto el rendimiento de la DCT aumenta y se transmite menos
información al decodificador. Los modelos de estimación y compensación de movimiento de partida están
basados en deformación de mallas, técnica que también es conocida como interpolación por control de
malla o CGI [11] (Control Grid Interpolation):
- El primero de ellos emplea una malla regular triangular.
- El segundo usa una malla triangular adaptada al contenido visual de la escena, mediante la adecuada
elección de los nodos de la malla.
- Los esquemas basados en segmentación están recibiendo un creciente interés [15], porque
permiten las discontinuidades de movimiento, frente a los dos modelos anteriores que imponen la
conectividad global de la malla. Por ello, este tercer modelo está basado en objetos y trabaja con
imágenes segmentadas.
Puede verse que los modelos anteriores constituyen un recorrido desde modelos de primera generación, hacia
otros más cercanos a la segunda generación. Sobre todos ellos se ha aplicado un proceso iterativo llamado
ajuste hexagonal o hexagonal matching [16] (en realidad a los dos últimos modelos se ha aplicado
el ajuste poligonal, que es una modificación del ajuste hexagonal para adaptarlo al caso de mallas no regulares),
con el objetivo de refinar los resultados de la estimación de movimiento. Esto permite una mejor reconstrucción,
y una reducción del error de la imagen predicha respecto a la real.
|
|