de cuong multimedia

1

Một Số Câu Hỏi Trong Đề Thi

Câu 1. Hãy phát biểu định luật về độ chói, vận dụng định luật về độ chói tính màu tổng hợp với ……

– Định luật về độ chói: Độ chói của màu tổng hợp bằng tổng độ chói của các màu thành phần

LΣ =LR +LG+LB

r = r’/m

g = g’/m

b = b’/m

trong đó m = r`+g`+b` , m là độ chói của màu

r’, g’, b’ lần lượt là số lượng các màu cơ bản R, G, B, còn gọi là modul của các màu đó

Câu 2. Anh/Chị hãy trình bày kiến trúc tổng quát của bộ mã hoá - giải mã âm thoại

- Đối với bộ mã hóa, tín hiệu âm thoại đầu vào được xử lý và phân tích nhằm thu được các thông số đại diện cho một khung truyền. Các thông số ngày được mã hóa và lượng tử với mã chỉ số nhị phân và được gửi đi như là một chuỗi bit đã được nén. Các chỉ số này được đóng gói và biểu diễn thành chuỗi bit, chúng được sắp xếp thứ tự truyền dựa vào các thông số đã quyết định trước và được truyền đến bộ giải mã. - Bộ giải mã thực hiện việc phân tích chuỗi bit nhận được, các chỉ số nhị phân được phục hồi sau quá trình phân tích và dùng để kết hợp với các thông số tương ứng của bộ giải mã để có được các thông số đã được lượng tử. Các thông số giải mã này sẽ kết hợp với nhau và được xử lý để tạo lại tín hiệu âm thoại tổng hợp

Câu 3: Trình bày quá trình số hóa âm thanh? Phân biệt lượng hóa và mã hóa? Cho ví dụ? Về nguyên tắc có mấy loại nén âm thanh?

Số hoá âm thanh gồm 2 quá trình: lấy mẫu và mã hoá 1. Lấy mẫu Tín hiệu tương tự liên tục theo thời gian nhưng trong quá trình xử lý tín hiệu, thông thường ta xử lý trên tín hiệu số. Do đó cần phải thực hiện chuyển đổi tín hiệu liên tục thành tín hiệu rời rạc để xử lý. Quá trình này gọi là lấy mẫu tín hiệu (sampling), đó là thay tín hiệu liên tục bằng biên độ của nó ở những thời điểm cách đều nhau, gọi là chu kỳ lấy mẫu. Các giá trị này sẽ được chuyển thành số nhị phân để có thể xử lý được. Vấn đề ở đây là phải lấy mẫu như thế nào để có thể khôi phục lại tín hiệu gốc. Tín hiệu lấy mẫu của tín hiệu gốc s(t) biểu diễn là s(nT) với T là chu kỳ lấy mẫu. s(nT) = s(t)u(t)

2

(1.1)

1.1. Tần số lấy mẫu

Xét tín hiệu sin có tần số f và quá trình lấy mẫu với các chu kỳ lấy mẫu khác nhau. Ta thấy tỷ số 1/chu kỳ lấy mẫu sẽ là tần số lấy mẫu. Vậy tần số lấy mẫu chính là số mẫu ta thu được trong một khoảng thời gian 1 giây.

Như vậy, ta thấy rằng nếu tần số lấy mẫu càng cao thì dạng của tín hiệu càng có khả năng khôi phục giống như tín hiệu gốc. Tuy nhiên, nếu tần số càng cao thì cần phải dùng dung lượng lớn hơn để lưu trữ và đồng thời tốc độ xử lý sẽ chậm lại do cần xử lý số lượng dữ liệu lớn. Từ đó, ta cần xác định tần số lấy mẫu sao cho có thể khôi phục lại gần đúng dạng tín hiệu với yêu cầu tốc độ xử lý giới hạn trong mức cho phép.

Hình 1.2 – Lấy mẫu tín hiệu với các tần số khác nhau

http://peter020787.files.wordpress.com/2011/11/12.jpg


3

Ta có định lý lấy mẫu phát biểu như sau:

“Một tín hiệu không chứa bất kỳ thành phần tần số nào lớn hơn hay bằng một giá trị fm có thể biểu diễn chính xác bằng tập các giá trị của nó với chu kỳ lấy mẫu T = 1/2fm“

Như vậy, tần số lấy mẫu phải thoả mãn điều kiện fs ≥ 2fm trong đó fm là thành phần tần số lớn nhất có trong tín hiệu. Tần số giới hạn này được gọi là tần số Nyquist và khoảng (-fs/2,fs/2) gọi là khoảng Nyquist. Trong thực tế , tín hiệu trước khi lấy mẫu sẽ bị giới hạn bằng một mạch lọc để tần số tín hiệu nằm trong khoảng Nyquist.

Ví dụ như tín hiệu âm thanh thường nằm trong khoảng (300,3400) Hz nên người ta sẽ đưa tí hiệu qua mạch lọc thông thấp để loại các thành phần tần số bậc cao và thực hiện lấy mẫu ở tần số tối thiểu là 6,8 KHz.

Thông thường trong các file âm thanh số (WAV) có tần số lấy mẫu là 44,1KHz.

1.2 Lượng tử hoá

Lượng tử hoá là quá trình xấp xỉ các giá trị của tín hiệu lấy mẫu s(nT) bằng bội số của một giá trị q (q gọi là bước lượng tử). Nếu q không thay đổi thì quá trình lượng tử gọi là đồng nhất. Quá trình này thực hiện bằng hàm bậc thang mô tả như sau:

Hình 1.3 – Hàm lượng tử với bước lượng tử q = 1

Số lượng các bước lượng tử (số bội số của q) càng lớn sẽ làm cho dung lượng lưu trữ tăng lên cao nhưng bù lại khả năng khôi phục giống như tín hiệu gốc càng cao, tín hiệu âm thanh càng trung thực. Từ đó, ta cần xác định số bước lượng tử sao cho có thể khôi phục lại gần đúng dạng tín hiệu với yêu cầu tốc độ xử lý giới hạn trong mức


4

cho phép. Trong thực tế với loại file âm thanh định dạng WAV có số bước lượng tử là 256 (với loại 8 bít) hoặc 65536 (với loại 16 bít).

Vậy độ phân giải chính là số lượng bước lượng tử của cường độ. Độ phân giải của file wav chính là 256 (với loại 8 bít) và 65536 (với loại 16 bit).

2) Mã hoá

Tín hiệu ở ngõ ra bộ lượng tử hóa được đưa đến bộ mã hóa, bộ mã hóa sẽ gán một số nhị phân cho mỗi mức lượng tử. Quá trình này gọi là mã hóa.

Có nhiều phương pháp mã hóa khác nhau nhưng trong đa số hệ thống xử lý tín hiệu số sử dụng phương pháp bù 2. Một ví dụ đối với N = 3 như sau:

Phân biệt lượng tử hóa và mã hóa khác nhau ở chỗ:

- Lượng tử hóa: Chuyển tín hiệu rời rạc ở trên -> tín hiệu rời rạc theo thời gian và biên độ

- Còn mã hóa: Chuyển tín hiệu số thành tín hiệu liên tục để nghe được

Câu 4: Trình bày giải thuật nén âm thanh theo thuật toán cosin.

Ảnh được chia thành k khối 8×8, điểm (x,y) được kí hiệu là pxy. Nếu số hàng của ảnh không chia hết cho 8 , các hàng phía cuối được lặp lại một số lần.

DTC hai chiều được áp dụng cho các khối ảnh Bi. Kết quả là khối các vecter W(i) gồm 64 hệ số của phép biến đổi w(i)j ; j=0,1,…,63; k vecter W(i) là các hàng của ma trận W


5

64 cột của ma trận W kí hiệu là C(0), C(1), . . . , C(63); k phần tử của C(j) là w(1)j

, w(2)j,….. ,w(k)j , các hệ số thứ nhất của vecter C(0) chứa k hệ số DC.

Mỗi vecter C(j) được lượng hóa riêng lẻ ta thu được vecter Q(j) gồm các hệ số lượng hóa , các phần tử của Q(j) được viết vào dòng kết quả nén, phụ thuộc vào từng trường hợp kích thước mã được gán thay đổi để làm xuất hiện nhiều chữ số 0, nhờ đó hiệu quả nén tăng cao

Câu 5 : Nêu nguyên tắc nén dữ liệu video; Trình bày một số nguyên tắc nén cơ bản.

1- Nguyên tắc nén video

Để nén dữ liệu video người ta dựa vào hai nguyên tắc :

Vứt bỏ dữ liệu dư thừa về không gian (spatial redundancy) mà nó có trên mỗi ảnh. Thực chất bỏ bớt các phần giống nhau trên một ảnh

Vứt bỏ dữ liệu dư thừa theo thời gian (temporal redundancy), điều xảy ra do các ảnh video cạnh nhau tương đối giống nhau. Thực chất bỏ bớt các phần giống nhau trên các ảnh cạnh nhau (sử dụng ảnh I, B, P)

2- Một số phương pháp nén trực quan đơn giản dữ liệu video a. Phương pháp Subsampling Bộ mã hóa (encoder) chọn ra các ảnh khác nhau và viết nó vào dòng nén (compressed stream) cách làm này cho hệ số nén bằng 2. Bộ giải mã đưa vào các ảnh và nhân nó lên thành hai ảnh. b. Differencing (mã các điểm khác nhau): Ảnh được so với ảnh đứng trước nó, nếu sự khác nhau giữa chúng nhỏ (một số ít điểm), khi đó bộ mã chỉ mã các điểm khác nhau bằng cách viết 3 số vào dòng nén cho mỗi điểm, gồm tọa độ điểm ảnh và giá trị khác nhau của hai điểm ảnh. Nếu sự khác nhau giữa hai ảnh là lớn, trên ảnh hiện thời người ta ghi dòng ra nguyên dạng. Nếu sự sai khác giữa cường độ điểm ảnh trong ảnh trước và ảnh hiện thời nhỏ hơn ngưỡng nào đó, điểm được coi là không khác nhau.

c. Block Differencing (mã các khối khác nhau)


6

Đây là phương pháp tốt hơn phương pháp differencing, ảnh được chia thành nhiều khối, trong mỗi khối B của ảnh hiện thời được so với khối P tương ứng ở ảnh đứng trước nó. Nếu hai khối khác nhau nhiều hơn số nào đó, thì B được nén bằng cách ghi lại tọa độ ảnh của khối, tiếp theo u là các giá trị của các điểm ảnh hoặc phần sai khác của các điểm ảnh vào dòng nén. Ưu điểm của tọa độ khối nhỏ hơn ghi tọa độ điểm ảnh và tọa độ khối chỉ ghi một lần. Ở bên trong giá trị của tất cả các điểm ảnh, ngay cả khi các điểm ảnh không thay đổi cũng phải viết vào dòng ra. Mặc dù các các giá trị này được coi là khác nhau nên chúng nhỏ. Do đó phương pháp này, làm nhỏ rất nhiều kích thước khối.

d. Motion Compensation (bù chuyển động):

Chúng ta biết rằng sự khác nhau giữa các ảnh liên tiếp trong fiml (movie) rất nhỏ vì nó là kết quả của chuyển động của camera quay hoặc giữa hai ảnh, đặc tính này được khai thác để làm tốt hơn cho việc nén ảnh. Nếu bộ mã hóa phát hiện ra rằng phần P của ảnh trước đó chuyển đến vị trí khác trong ảnh hiện thời, thì P có thể nén bằng cách ghi tiếp theo 3 trường (item) vào dòng nén, vị trí trước của nó, vị trí hiện thời và thông tin để xác định các biên của P. Phần sau chúng ta sẽ nói đến bù chuyển động dựa vào (Manning 98)

Về nguyên tắc một phần có thể có mẫu bất kỳ. Trong thực tế chúng ta giới hạn các khối có kích thước như nhau (có thể hình vuông, chữ nhật), bộ mã hóa sẽ scan lần lượt các khối trên ảnh hiện thời. Với mỗi khối B nó đi tìm trên ảnh trước đó khối C giống hệt (nếu nén không mất thông tin) hoặc gần giống (nếu nén có mất dữ liệu). Phát hiện ra khối như thế, bộ mã hóa sẽ viết vào dòng ra sự sai khác giá vị trí hiện thời và vị trí đã gặp trước đó. Sự sai khác này cho ở dạng

(Cx − Bx, Cy − By) = (Δx, Δy). Nó được gọi là vecter dịch chuyển

Bù chuyển động rất hiệu quả nếu object dịch chuyển nhưng không thay đổi tỷ lệ hoặc không quay. Sự thay đổi nhanh cường độ sang (illuminate) từ ảnh này sang ảnh khác cũng làm giảm hiệu quả của phương pháp này. Nói chung bù chuyển động cũng là kỹ thuật nén làm mất dữ liệu.

e. Frame Segmentation (phân đoạn ảnh):

Ảnh hiện thời được phân chia thành các khối không chồng nhau (nonoverlapping blocks), các khối có thể là vuông hay chữ nhật, sau đó ta coi rằng chuyển động trong video chủ yếu theo đường ngang (horizontal), như vậy các khối ngang sẽ làm giảm số vecter chuyển động không làm giảm tỉ lệ nén. Kích thước khối là quan trọng vì khối lớn sẽ làm giảm cơ hội tìm ra cái giống nó, khối quá nhỏ thì có quá nhiều vecter chuyển động, trong thực tế người ta lấy kích thước là bội mũ của 2 để tiện sử lý trong phần mềm như 2, 4, 8, 16..

7

f. Search Threshold (tìm theo ngưỡng):

Mỗi khối B trong ảnh hiện thời trước tiên được so với bản sao C trong ảnh trước nó, nếu chúng giống nhau hoặc sự khác nhau giữa chúng dưới ngưỡng qui định khi đó bộ mã hóa coi như khối không có chuyển động.

- Block Search (tìm khối) Đây là quá trình mất nhiều thời gian do vậy khi thiết kế thuật toán cần lưu ý. Nếu khối B hiện thời trong ảnh hiện thời, lúc đó cần tìm trong ảnh trước khối giống hoặc gần giống với B. Việc tìm kiếm được hạn chế trong một vùng nhỏ (gọi là vùng tìm kiếm) quanh khối B, vùng này được xác định bởi tham số di chuyển cực đại dx, dy. các tham số này ấn định khoảng cách tính bằng pixel theo chiều ngang và chiều thẳng đứng cực đại giữa khối B và khối bất kỳ giống B trong ảnh trước.Nếu B là hình vuông cạnh b, thì vùng tìm kiếm chứa (b + 2dx)(b + 2dy) pixel và sẽ có

(2dx+1)(2dy +1) hình khác nhau, chồng nhau bxb hình vuông. Số khối cần tuyển chọn (candidate) trong vùng này tỉ lệ với dxdy. Hình dưới đây minh họa vùng tìm kiếm.

- Distortion measure (Đo độ sai khác)

Đây là phần quan trọng đối với bộ mã hóa, độ đo sai lệch cho phép chọn khối thích hợp nhất với khối B, nó phải đơn giản, nhanh và tin cậy. Có một vài cách chọn dẽ đề cập ở section 4.14

Độ sai khác tuyệt đối trung bình (mean absolutw error) được tính trung bình theo sự sai khác tuyệt đối giữa Bij trong khối B và điểm tương ứng Cij trong khối tuyển chọn C (candidate block C)


8

Độ đo này được tính cho mỗi khối trong số (2dx+1)(2dy +1) khối khác nhau và b xb khối cần lựa chọn (candidate) có giao. Nếu độ đo của khối Ck nhỏ hơn ngưỡng thì nó được coi là giống B

Trái lại sẽ không có khối nào giống B và B được mã không bù chuyển động.

Một cách tự nhiên phát sinh câu hỏi ở đây là điều gì sẽ xảy ra khi khối trong ảnh hiện thời không trùng với với khối nào trong ảnh trước. Câu trả lời là chúng ta hãy tưởng tượng camera dịch lia từ trái qua phải, đối tượng mới được đưa vào từ bên phải trong thời gian lia, khôi bên phải của ảnh có thể chứa các đối tượng không có trong ảnh trước.

- Độ sai khác trung bình bình phương (mean square difference) là cho ở dạng:

- Độ đo PDC (Pel difference Classification (PDC)

- Pel ở đây được coi là điểm ảnh, tương đương pixel

- Độ đo PDC nó phân loại sự sai khác theo các diểm ảnh, cụ thể là sai khác theo hàng, sau đó sai khác theo cột



9

Câu 6. Ảnh số hiển thị trên màn hình VGA có kích thước 1280 x 800 điểm, số lượng các mức xám là 1024. Hỏi có thể được lưu lại trong bộ nhớ với kích thước bao nhiêu Bytes.

- Mức xám là 1024 tương ứng với (10 bits/mẫu) //=210

(Cơ sở lý thuyết: Số lượng mức xám có thể gán cho 1 điểm ảnh L thường được lựa chọn L=2k (K là 1 số nguyên dương)

- Số lượng Bits được sử dụng để biểu diễn 1 ảnh số được xác định theo công thức:

b=MxNxK =1280 x 800 x 10=10240000 bits

- Số Byte để lưu trữ là : 1280000 bytes

Câu 7. Hỏi số lượng Bytes để biểu diễn một ảnh số là bao nhiêu? với Ảnh số hiện thị trên màn hình VGA có kích thước 800 x 600 điểm, số lượng mức xám là 4096.

Mức xám là 4096 tương ứng với (10 bits/mẫu) //=212

(Cơ sở lý thuyết: Số lượng mức xám có thể gán cho 1 điểm ảnh L thường được lựa chọn L=2k (K là 1 số nguyên dương)

Số lượng Bits được sử dụng để biểu diễn 1 ảnh số được xác định theo công thức:

b=MxNxK = 800x600x12 = 5760000

Câu 8. Bóng đèn sợi tóc có hệ số phát sáng là 8 15 lumen/walt với công suất

p =100 walt, và với hàm độ nhạy phổ của mắt người cảm nhận tốt nhất tia bức xạ.

a – Theo công thức (1) tính quang thông :

Theo giả thiết hàm độ nhạy của mắt người là tốt nhất nên ta có V(lamda)=1 (mặt người cảm nhận tốt nhất tia bức xạ có bước sóng bằng 555nm)



10

Từ (1) => =kp=(815) *100=(800 đến 1500) (lumen)

b. Tìm độ sáng trung bình (Itb) nguồn sáng trên.

Câu 9. Độ chói là gì? Cho độ chói của vật phát sáng là Bóng đèn TV 40 – 80. Hãy xác định độ sáng trên 10 m2.

– Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức độ sáng của nguồn sáng.

–Cho độ chói của vật phát sáng là Bóng đèn TV 40 – 80. Hãy xác định độ sáng trên 10 m2.

LG: – Theo công thức độ chói

=> Độ sáng I0 = L0 * S = (40 – 80)*10 =400 – 800 (cendela)

Câu 10. Cho thông điệp:

“BBCAACADBDCADAEEEABACDBACADCBADABEABEAAA"

Hãy sử dụng phương pháp nén không mất thông tin Shannon – Fano để nén thông điệp trên.




11

Tần suất xuất hiện của các ký tự trong thông điệp lần lượt bằng:

A: 15; B: 8; C: 6; D: 6; E: 5.

=> A: 00; B: 01; C: 10; D: 110; E: 111.

- Entropy

= 0,375 * 1,41 + 0,175 *2,51 + 0,15*2,73 + 0,15*2,73 + 0,125*3

= 2,162(bits)

Chiều dài trung bình




12

= 2,162/2,225 = 97,16%

Số lượng bit dùng để chứa chuỗi 2*15+2*8+2*6+3*6+3*5=91 (bits).

Nếu dùng mã ASCII: 40×8=320 (bits).

Tỷ lệ nén: 91/320 = 28,43%

Câu 11. Cho thông điệp:

“BBCAACADBDCADAEEEABACDBACADCBADABEABEAAA"

Hãy sử dụng phương pháp nén không mất thông tin Huffman để nén thông điệp trên.

Tần suất xuất hiện của các ký tự trong thông điệp lần lượt bằng:

A: 15; B: 8; C: 6; D: 6; E: 5.

=> A: 0; B: 100; C: 101; D: 110; E: 111.




13

- Entropy:

= 0,375 * 1,41 + 0,175 *2,51 + 0,15*2,73 + 0,15*2,73 + 0,125*3

= 2,162(bits)

- Chiều dài trung bình:

= 1*0,375+ 3*0,175 + 3*0,15 + 3*0,15 + 3*0,125

= 2,175 (bits).

- Hiệu suất lập mã:

= 2,162/2,175 = 99,40%

Mã Huffman là mã có tính prefix ( mã tiền tố).

Số lượng bit dùng để chứa chuỗi mã:

1*15 + 3*8 + 3*6 + 3*6 + 3*5 = 90 (bits)

Nếu dùng mã ASCII: 40×8=320 (bits).




14

Tỷ lệ nén: 90/320=28,12%

Câu 12. Trình bày tóm tắt quá trình nén ảnh JPEG . Tại sao cơ chế mã hóa của JPEG chiếm ưu thế trong các ứng dụng thời gian thực?

Quá trình nén ảnh JPEG

1- Chuyển đổi không gian màu

- Chuyển ảnh từ không gian màu RGB sang không gian màu ( brightness, Hue, Saturation). Lý do mắt người nhận ra những thay đổi nhỏ của thành phần luminance nhưng không nhậy cảm với sự thanh đổi của thành phần chrominance, người ta dựa vào điều này để bỏ bớt dữ liệu của thành phần chrominance . Việc chuyển đổi không gian màu trong Jpeg và Mpeg được thực hiện theo công thức sau :

sử dụng ba tham số Y, Cb, Cr ; Y ứng với brightness (Độ sáng, độ chói) Cb,Cr là hai thành phần ứng với Hue (sắc màu) và Saturation(độ đậm nhạt). với y thuộc khoảng [16, 235], khi đó việc chuyển không gian màu được thực hiện theo công thức sau:

Y = (77/256)R + (150/256)G + (29/256)B,

Cb = −(44/256)R − (87/256)G + (131/256)B + 128,

Cr = (131/256)R − (110/256)G − (21/256)B + 128;

Phép chuyển ngược từ YCbCr theo công thức :

R=Y+1.371(Cr − 128) ;

G=Y − 0.698(Cr − 128) − 0.336(Cb − 128) ;

B=Y+1.732(Cb − 128).

2- Giảm độ phân giải

Sau khi chuyển đổi không gian màu , người ta giảm độ phân giải của ảnh gốc, để làm giảm dữ liệu của thành phần Hue và Saturation. Việc làm này có thể theo các tỉ lệ khác nhau. ví dụ độ phân giải có thể thay đổi theo tỉ lệ 2:1 giữa hàng và cột

3. – Chia ảnh thành các khối 8 x8

Ảnh màu được chia thành các khối 8 x8 , coi khối này là một đơn vị dữ liệu. các đơn vị dữ liệu được nén riêng biệt. Trong trường hợp kích thước ảnh không là bội của 8, ta thêm hàng vào hàng cuối ảnh, thêm cột vào cột cuối bên phải.

15

4- Thực hiện biến đổi cosin trên sơ đồ zizag

Sử dụng phép biến đổi cosin để biến đổi trên khối 8 x8 ( đơn vị dữ liệu ).

Phép biến đổi dược thực hiện trên mảng 8 x 8 hay trên đơn vị dữ liệu ảnh theo công thức sau :

Khi giải nén sử dụng phép biến đổi cosin ngược theo công thức

5.- Lượng hóa :

Sau khi biến đổi cosin trên các đơn vị dữ liệu ta nhận được dãy có 64 thành phần , các

thành phần này gọi là các hệ số lượng tử hay hệ số QC ( quantization coefficient -QC) .Các hệ số QC được làm tròn về dạng số nguyên. Sau đó người sử dụng nhiều khĩ thuật khác nhau để giảm kích thước dữ liệu của các thành phần này. Chẳng hạn kỹ thuật lưu giữ sự sai khác tương đối của các hệ số QC hoặc sử dụng các bảng lượng hóa màu đã được khuyến cáo bởi nhóm Jpeg.

6- Sử dụng kỹ thuật nén

Sử dụng kỹ thuật nén RLE hoặc mã Hufman, mã số học để mã các hệ số QC. Mã số học được coi là kỹ thuật mã tối ưu.



16

Câu 13. Hãy đưa ra số ứng dụng của chuẩn MPEG-4.

Khả năng phân cấp và phân chia độc lập các khung hình thành các đối tượng khiến cho MPEG-4 trở thành một công cụ hữu hiệu trong việc tạo thuận lợi cho các ứng dụng trên Internet nói riêng và trên môi trường mạng nói chung (kể cả các mạng LAN, WAN, Intranet…) đó là các ứng dụng:

Truyền thông multimedia theo dòng (Multimedia stream), trong đó dòng audio và video sẽ được biến đổi thích nghi với yêu cầu băng thông và chất lượng hình nhờ loại bỏ những đối tượng (hình ảnh, âm thanh) không cần thiết khỏi dòng dữ liệu và đồng bộ các thông tin được nhúng trong dòng dữ liệu đó. Thêm vào đó, MPEG-4 sẽ cho phép người sử dụng khả năng tương tác trực tiếp với dòng dữ liệu (dừng tiến hay lùi nhanh, kích chuột để kích hoạt các tuỳ chọn video và audio…)

Lưu giữ và phục hồi dữ liệu audio và video: do MPEG-4 phân chia các khung hình thành các đối tượng, việc trình duyệt Browser trên cơ sở nội dung (đối tượng) mong muốn sẽ được thực hiện một cách dễ dàng và nhờ vậy, các ứng dụng lưu giữ hay phục hồi thông tin trên cơ sở nội dung MPEG-4 sẽ được thuận lợi hơn;

Truyền thông báo đa phương tiện: các thông báo dưới dạng text, audio và video MPEG-4 sẽ được truyền đi với yêu cầu băng thông ít hơn, và có khả năng tự điều chỉnh chất lượng cho phù hợp với khả năng băng thông của thiết bị giải mã;

Thông tin giải trí: những sự trình diễn nghe nhìn tương tác (thế giới ảo, trò chơi tương tác …) có thể được triển khai trên cơ sở chuẩn MPEG-4 sẽ làm giảm yêu cầu về băng thông và làm cho thế giới ảo trở nên sinh động và giống như thực tế trên các trang web;

Ngoài các ứng dụng trên môi trường mạng nói chung và môi trường tương tác nói riêng – theo APB (04/2004) – các đài truyền hình Nhật Bản như NHK, TBS, NTV TV Asahi, Fuji và TV Tokyo đã chính thức chấp nhận đưa chuẩn MPEG-4/H.264 cho phát sóng số mặt đất cho thu di động, đây cũng là một khả năng lớn còn tiềm ẩn trong chuẩn mã hoá và trình diễn video này.

Công nghệ encode H264 mang đến chất lượng tương đương chuẩn MPEG-2 và MPEG-4 nhưng dung lượng nhỏ hơn 1,5 đến 4 lần. Dịch vụ chia sẻ Clip.vn mới đây đã triển khai chuẩn này trên website của mình.

Một số trang chia sẻ video nổi tiếng thế giới như YouTube, Todou… cũng đã chuyển từ kỹ thuật nén FLV chạy trên Flash Player sang H264 kể từ khi Flash Player hỗ trợ định dạng MP4 của H264.

17

Một ưu điểm nổi bật của công nghệ này là các tập tin MP4 có thể chạy trực tiếp trên các thiết bị di động như điện thoại, PDA… mà không phải cài thêm bất cứ phần mềm giải mã nào.

Câu 14. Truyền thông đa phương tiện là gì? Hãy nêu một số ứng dụng của truyền thông đa phương tiện vào việc học tập của bạn.

Lịch sử:

- Sản phẩm của công nghệ Multimedia đã và đang xâm nhập ngày càng sâu, rộng vào mọi lĩnh vực của đời sống xã hội. - Sức mạnh của các sản phẩm do công nghệ Multimedia mang lại là sự đa dạng phong phú của các dạng thông tin. - Ý tưởng đặt nền móng cho lĩnh vực công nghệ này đã có từ năm 1945. Bắt nguồn từ câu hỏi của Vanner Brush, giám đốc cơ quan nghiên cứu phát triển khoa học của chính phủ Mỹ lúc bấy giờ: “liệu có thể chế tạo được loại thiết bị cho phép lưu trữ các dạng thông tin để thay cho sách”. - Năm 1960 Ted Nelson và Andrries Van Dam đã công bố công trình nói về kỹ thuật truy nhập dữ liệu dưới cái tên gọi Hypertext và Hypermedia. - Bộ quốc phòng Mỹ thành lập tổ chức DARPA (US deference advanced Research Prọject Agency) để nghiên cứu về công nghệ Multimedia. - Năm 1978 phòng thí nghiệm khổng lồ MIT Media Laboratory chuyên nghiên cứu về công nghệ Multimedia được thành lập. - Từ những nỗ lực không ngừng của các nhà khoa học, công nghệ đã cho phép người ta gặt hái được nhiều kết quả có tính chất nền móng cho lĩnh vực Multimedia . - Những kết quả này đã nhanh chóng được triển khai ứng dụng trong các lĩnh vực truyền hình, viễn thông v.v...

- Khái niệm: Đa phương tiện là tích hợp của văn bản, âm thanh, hình ảnh của tất cả các loại và phần mềm có điều khiển trong một môi trường thông tin số.

- Định nghĩa: đa phương tiện là kỹ thuật mô phỏng và sử dụng đồng thời nhiều dạng phương tiện chuyển hoá thông tin và các tác phẩm từ các kỹ thuật đó

Mô hình truyền thông con người:

18

Dữ liệu Multimedia

Thông thường chúng ta thường ghi nhận thông tin ở dạng văn bản , các văn bản

này được mã hoá và lưu giữ trên máy tính, khi đó chúng ta có dữ liệu dạng văn

bản. Một câu hỏi đặt ra nếu thông tin chúng ta thu nhận được ở một dạng khác

như âm thanh (voice) , hình ảnh (Image) thì dữ liệu của nó ở dạng nào? Chính

điều này dẫn đến một khái niệm mới ta gọi đó là dữ liệu Multimedia.

Dữ liệu Multimedia là dữ liệu ở các dạng thông tin khác nhau.

Ví dụ dữ liệu Multimedia là các dữ liệu ở các dạng thông tin như

- Âm thanh (Sound)

- Hình ảnh (image)

-Văn bản (text).

- Kết hợp của cả ba dạng trên.

Công nghệ Multimedia

Một cách đơn giản công nghệ Multimedia là công nghệ xử lý dữ liệu multimedia

Chúng ta cần lưu ý rằng khái niệm xử lý dữ liệu trong công nghệ thông tin bao

hàm các công việc sau: mã hóa, lưu trữ, vận chuyển, biến đổi, thể hiện dữ liệu.

Với ý nghĩa đó công nghệ Multimedia là công nghệ mã hóa, lưu trữ, vận chuyển,

biến đổi, thể hiện dữ liệu multimedia.

19

Câu 15. Giả sử ta có ảnh video có:

Dữ liệu ảnh: độ phân giải 360x288, độ sâu của ảnh (deepth) 24bits/pixel, tốc độ refresh rate (làm tươi ảnh) 24 frame/s.

Dữ liệu âm thanh: tốc độ lấy mẫu 44 KHz, độ phân giải 16bits/sample.

Mode stereo.

Với đầu đọc có tốc độ 2Mbit/s, tỷ lệ nén ảnh là bao nhiêu (theo chuẩn MPEG -1).

Khi đó tốc độ đọc phần dữ liệu ảnh là: 360*288*24*24=59719680 (bits/s);

Tốc độ đọc dữ liệu âm thanh: 2*44000*16=1408000 (bits/s)

Như vậy để đọc cả âm thanh và hình cần tốc độ khoảng 61.1 (Mbit/s).

Tốc độ đầu đọc =2 (Mbit/s).

Như vậy tỷ lệ nén theo chuẩn MPEG 1 là: 61.1/2=30.5 lần (Chưa tính đến thời gian giải nén).

Câu 16. Các giai đoạn chính trong xử lý ảnh.

Các giai đoạn chính trong xử lý ảnh

1- Thu nhận hình ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong tòan bộ

quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các

giai đoạn sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp

theo sẽ bị giảm.

Thiết bị thu nhận có thể là các ông ghi hình chân không (vidicon, plumbicon v.v.)

hoặc thiết bị cảm biến quang điện bán dẫn CCD (Charge-Coupled Device).

2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh

để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm

nổi đường biên, khử nhiễu v.v.

3- Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là

một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện

tách quá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức tạp,

còn ngược lại nếu quá trình phân đoạn được thực hiện quá thô hoặc phân đọan sai thì

kết quả nhận được cuối cùng sẽ không chính xác.

4- Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đoạn hình ảnh. Các vật

thể sau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh

giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô

tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình

dạng bên ngòai của chi tiết ảnh như độ cong, các góc cạnh v.v. Biểu diễn vùng thường

20

được sử dụng khi chúng ta quan tâm tới đặc tính bên trong của vùng ảnh như đường

vân (texture) hay hình dạng skeletal.

5- Nén ảnh - bao gồm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu

trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh

số.

6- Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó (ví dụ các phương tiện giao thông có trong ảnh).

Câu 17. Nêu nguyên tắc nén dữ liệu video; trình bày một số nguyên tắc nén video dạng MPEG.

Nguyên tắc nén dữ liệu video:

Nén về cơ bản là một quá trình trong đó số lượng số liệu (data) biểu diễn lượng thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số liệu dư thừa trong tín hiệu video. Các chuỗi ảnh truyền hình có nhiều phần ảnh giống nhau. Vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua mà không làm mất thông tin hình ảnh. Đó là các phần xóa dòng, xóa mành, vùng ảnh tỉnh hoặc chuyển động rất chậm,vùng ảnh nền giống nhau, mà ở đó các phần tử liên tiếp hoặc khác nhau rất ít. Ngoài ra, để tăng hệ số nén ảnh động, chuyển động trong ảnh truyền hình phải được dự báo, khi đó, ta chỉ cần truyền các thông tin về hướng và mức độ (vector) chuyển động của các vùng ảnh khác nhau. Các phần tử lân cận trong ảnh thường giống nhau, do đó chỉ cần truyền các thông tin biến đổi. Các hệ thống nén sử dụng đặc tính này của tín hiệu video và các đặc trưng của mắt người (là kém nhạy với sai số trong hình ảnh có nhiều chi tiết và các phần tử chuyển động). Quá trình giải nén ảnh là quá trình xấp xỉ để khôi phục ảnh gốc

Một số nguyên tắc nén video dạng MPEG:

Nén tín hiệu video theo chuẩn MPEG (Moving Picture Experts Group) là phương phápnén ảnh động không những làm giảm dư thừa không gian (như JPEG) mà còn làm giảm dư thừa thời gian giữa các khung ảnh, đây là khác biệt so với JPEG là chuẩn nén ảnh tĩnh chỉ làm giảm dư thừa thông gian trong một khung ảnh. Chuẩn MPEG định nghĩa một khái niệm mới là “nhóm các khung ảnh” (GOP) để giải quyết dư thừa thời gian và cho phép truy xuất ngẫu nhiên khi mã hoá MPEG dùng để lưu trữ. Trong chuẩn MPEG, người ta quy định 3 loại khung ảnh phụ thuộc vào phương pháp nén: nén trong khung ảnh (khung I), nén ước đoán (khung P) và nén nội suy hai chiều theo thời gian (khung B). Khung I luôn luôn là khung ảnh đầu tiên trong nhóm GOP, tạo điểm truy xuất ngẫu nhiên chuẩn.

Câu 18. Khái niệm QoS trong truyền thông multimedia?Các tham số cơ bản ảnh hưởng đến chất lượng dịch vụ truyền thông multimedia?

Khái niệm QoS trong truyền thông media?

21

– Khái niệm: Chất lượng dịch vụ (QoS) là một thuật ngữ dùng để chỉ chất lượng của một hệ thống truyền thông hay một kết nối truyền thông trong mạng viễn thông. – Nhu cầu về QoS: Theo truyền thống, khi nhu cầu về băng thông tăng lên, hiện tượng nghẽn mạng có thể xảy ra. Ta có thể giải quyết bằng cách tăng băng thông kết nối hoặc dùng thiết bị phần cứng khác thay thế. Nhược điểm cách này là không chỉ ra cách thức để ưu tiên một loại traffic này so với một traffic khác. –QoS là một công cụ tổng thể được dùng để bảo vệ, ưu tiên một số traffic quan trọng hoặc các traffic đòi hỏi xử lý nhanh về thời gian. QoS sẽ mô tả cách thức packet được chuyển mạch (forward) như thế nào. –Các ứng dụng khác nhau sẽ có các nhu cầu khác nhau cho việc truyền dữ liệu. Ví dụ web, video, audio… Khi một packets đi từ host này đến host kia, một gói tin (packet) có thể gặp các vấn đề: + Delay: do routers xử lý tìm kiếm trong bảng routing table, thời gian packet truyền trên đường truyền. + Jitter: các packets không đến đúng như thời gian dự định. Các dữ liệu dạng audio sẽ bị ảnh hưởng nhiều bởi vấn đề này. + Loss: mất packets –Trong các mạng số liệu, QoS được đánh giá qua các tham số chính sau: + Độ sẵn sàng của dịch vụ +Độ trễ +Độ biến động trễ +Thông lượng +Tỷ lệ tổn thất gói (packet loss rate): tỷ lệ các gói bị mất, bị hủy, và bị lỗi khi đi trong mạng. –Chất lượng dịch vụ được áp dụng cho từng luồng dữ liệu riêng biệt hoặc một nhóm luồng Luồng được xác định dựa vào 5 thông tin: giao thức lớp vận chuyển, địa chỉ IP nguồn, địa chỉ IP đích, chỉ số cổng nguồn, chỉ số cổng đích. –Các yếu tố ảnh hưởng tới chất lượng dịch vụ truyền thông multimedia là: + các thành phần mạng + cơ chế xử lý ở các thiết bị đầu cuối + cơ chế điều khiển trong mạng

Câu 19. Anh/chị hãy trình bày các kiểu khung hình cơ bản của mã hóa video Mpeg? Đặc tính và mối quan hệ giữa các kiểu khung hình đó?

Các kiểu khung hình cơ bản của mă hóa video MPEG la :I,P,B,d

Đặc tính và mối quan hệ giữa các kiểu khung hình đó - Ảnh loại P (Predicted-picture): Là ảnh được mã hóa có bù chuyển động từ ảnh I hoặc ảnh P phía trước. Ảnh P cung cấp cho hệ số nén cao hơn ảnh I và có thể sử dụng làm một ảnh so sánh cho việc bù chuyển động cho các ảnh P và B khác.

22

- Ảnh loại I (Intra-picture): Là ảnh được mã hóa riêng, tương tự như việc mã hóa ảnh tĩnh trong JPEG. Ảnh I chứa đựng dữ liệu để tái tạo lại toàn bộ hình ảnh vì chúng được tạo thành bằng thông tin của chỉ một ảnh và để dự báo cho ảnh B,P. Ảnh I cho phép truy cập ngẫu nhiên, tuy nhiên cho tỷ lệ nén thấp nhất - Ảnh loại B ( Bi-directional predicted picture): Là ảnh được mã hóa sử dụng bù chuyển động từ các ảnh I hoặc P ở phía trước và ở phía sau. Ảnh B cho tỷ lệ nén cao nhất. - Ảnh loại D ( Dc-coded picture): Là ảnh được sử dụng trong MPEG-1 và MPEG-4 nhưng không được sử dụng trong MPEG-2. Nó giống như ảnh I, tuy nhiên chỉ có thành phần một chiều ở đầu ra DCT được thể hiện. Nó cho phép dò tìm nhanh nhưng chất lượng ảnh thấp.

Câu 20. Anh/Chị hãy trình bày các phương pháp mã hóa entropy? So sánh với mã hóa nguồn?

Kỹ thuật mã hóa entropy(không tổn thất thông tin)

–Kỹ thuật này chỉ quan tâm đến độ đo tin trong dữ liệu mà không quan tâm đến ngữ nghĩa của tin. Sau đây là một số kỹ thuật mã hoá entropy hay dùng trong hệ thống xử lý video:

- Mã hoá chiều dài dải liên tục (RLC – Run Length Coding): các chuỗi điểm ảnh có cùng độ chói (mức màu) sẽ được mã hoá bằng cặp thông tin (độ chói, chiều dài chuỗi).

- Mã hoá bằng các loại bỏ trùng lặp: các chuỗi đặc biệt được thay thế bằng cờ và số đếm lặp.

- Mã hoá dùng mẫu thay thế: đây là dạng mã hoá thống kê mà nó thay thế các mẫu hay lặp lại bằng một mã.

- Mã hóa với độ dài (của từ mã) thay đổi (VLC- Variable-Length Coding). Phương pháp này còn được gọi là mã hóa Huffman. Nguyên lý của nó dựa trên xác suất xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh và việc gán một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài hơn cho các giá trị còn lại. Khi thực hiện giải nén, các thiết lập mã trùng hợp sẽ được sử dụng để tạo lại giá trị tín hiệu ban đầu. Mã hóa và giải mã Huffman có thể thực hiện một cách dễ dàng bằng cách sử dụng các bảng tìm kiếm. Như vậy, mã Huffman dựa trên nguyên tắc “ký tự có tần số suất hiện càng cao thì số bit mã hoá càng ngắn”.

de cuong multimedia

Documents