Bài giảng xử lý tiếng nói phạm văn sự năm 2024

LỜI NÓI ĐẦU Tiếng nói là một phƣơng tiện trao đổi thông tin tiện ích vốn có của con ngƣời. Ƣớc mơ về những "máy nói", "máy hiểu tiếng nói" đã không chỉ xuất hiện từ những câu truyện khoa học viễn tƣởng xa xƣa mà nó còn là động lực thôi thúc của nhiều nhà khoa học, nhóm nghiên cứu trên thế giới. Hoạt động nghiên cứu và xử lý tiếng nói đã trải qua gần một thế kỷ cùng với nhiều thành tựu to lớn trong việc xây dựng phát triển các kỹ thuật công nghệ, hệ thống xử lý tiếng nói. Tuy vậy, việc có đƣợc một "máy nói" mang tính tự nhiên [về giọng điệu, phát âm...] cũng nhƣ một "máy hiểu tiếng nói" thực thụ vẫn còn khá xa vời.

Xu thế phát triển của công nghệ hội tụ ở thế kỷ 21 càng thôi thúc hơn nữa việc hoàn thiện công nghệ để có thể đạt đƣợc mục tiêu của con ngƣời về lĩnh vực xử lý tiếng nói. Chính vì thế, việc nắm bắt đƣợc các kỹ thuật cơ bản cũng nhƣ các công nghệ tiến tiến cho việc xử lý tiếng nói trở nên thực sự cần thiết cho sinh viên chuyên ngành Xử lý Tín hiệu và Truyền thông nói riêng, sinh viên chuyên ngành Kỹ thuật Điện - Điện tử cũng nhƣ Khoa học Máy tính nói chung. Với mục đích đó, bài giảng môn học Xử lý tiếng nói đƣợc biên soạn nhằm trang bị cho sinh viên các khái niệm cơ bản quan trọng và cần thiết cũng nhƣ nhằm giới thiệu cho sinh viên một cách tổng quan về các công nghệ tiên tiến, xu thế nghiên cứu và phát triển của lĩnh vực xử lý tiếng nói. Trong lần tái bản này, cuốn sách đƣợc phân chia lại thành 5 chƣơng:

  1. Một số khái niệm cơ bản.
  2. Phân tích tín hiệu tiếng nói.
  3. Mã hóa tiếng nói.
  4. Tổng hợp tiếng nói.
  5. Nhận dạng tiếng nói. Cuốn bài giảng này là những kinh nghiệm đúc rút của các tác giả trong quá trình giảng dạy và nghiên cứu tại Học viện Công nghệ Bƣu chính Viễn thông. Cuốn bài giảng còn là kết quả của những nỗ lực đóng góp đầy nhiệt huyết của các thầy cô giáo, những đồng nghiệp tại Khoa Kỹ thuật Điện tử, của các em sinh viên. Mặc dù với sự cố gắng nỗ lực hết sức, nhƣ do kinh nghiệm còn nhiều hạn chế, nhóm tác giả không tránh khỏi những sai sót và nhầm lẫn. Nhóm tác giả chân thành mong muốn nhận đƣợc những đóng góp từ đồng nghiệp và các em sinh viên để hoàn thiện hơn trong phiên bản sau.

Mọi góp ý xin gửi về: Bộ môn Xử lý Tín hiệu và Truyền thông, Khoa Kỹ thuật Điện tử I, Học viện Công nghệ Bƣu chính Viễn thông, Km10 Đƣờng Nguyễn Trãi, Hà Đông, Hà Nội hoặc gửi email về địa chỉ supv@ptit.edu.

PTIT

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC TỪ VIẾT TẮT

ADC Analog Digital Converter Bộ chuyển đổi tƣơng tự - số

ADM Adaptive Delta Modulation Điều chế Delta thích nghi

ADPCM Adaptive Differential PCM Điều xung mã vi sai thích nghi

CSR Continuous Speech Recognition Nhận dạng tiếng nói liên tục

DCT Discrete Cosine Transform Biến đổi Cosine rời rạc

DFT Discrete Fourier Transform Biến đổi Fourier rời rạc

DM Delta Modulation Điều chế Delta

DTFT Discrete Time FT Biến đổi Fourier với thời gian rời rạc

DPCM Differential PCM Điều chế xung mã vi sai

FFT Fast FT Biến đổi Fourier nhanh

FIR Finite Impulse Response Bộ lọc đáp ứng hữu hạn

FT Fourier Transform Biến đổi Fourier

HMM Hidden Markov Model Mô hình Markov ẩn

IDFT Inverse Discrete FT Biến đổi Fourier rời rạc ngƣợc

IDTFT Inverse DTFT Biến đổi Fourier với thời gian rời rạc

ngƣợc

IFT Inverse FT Biến đổi Fourier ngƣợc

LMS Least Mean Square Bình phƣơng trung bình tối thiểu

LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính

LTI Linear Time-Invariant Bộ lọc tuyến tính không thay đổi

theo thời gian

MFCC Mel frequency cepstral

coefficient

Các hệ số cepstral tần số Mel

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

PAM Pulse Amplitude Modulation Điều chế biên độ xung mã

SNR Signal to Noise Ratio Tỷ số tín hiệu trên nhiễu

ST Short-time Transform Biến đổi ngắn hạn

PTIT

DANH MỤC CÁC TỪ VIẾT TẮT

STFT Short-time FT Biến đổi Fourier ngắn hạn TDNN Time delay Neural Network Mạng nơ-ron với thời gian trễ TD-PSOLA Time-domain PSOLA Phƣơng pháp chồng lấn đồng bộ pitch trong miền thời gian

PTIT

MỤC LỤC

  • CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI ...................................................
    • 1. MỞ ĐẦU................................................................................................
    • 1. KHÁI NIỆM CHUNG VỀ PHÂN TÍCH TIẾNG NÓI..........................
      • 2.2 Mô hình phân tích tín hiệu tiếng nói ..................................................
      • 2.2 Phân tích ngắn hạn .............................................................................
      • 2.2 Hàm cửa sổ phân tích .........................................................................
    • 1. CÁC PHÂN TÍCH CƠ BẢN TRONG MIỀN THỜI GIAN ..................
      • 2.3 Năng lƣợng ngắn hạn .........................................................................
      • 2.3 Độ lớn biên độ ngắn hạn ....................................................................
      • 2.3 Vi sai độ lớn biên độ ngắn hạn...........................................................
      • 2.3 Tốc độ trở về không ...........................................................................
      • 2.3 Giá trị hàm tự tƣơng quan ..................................................................
    • 1. PHÂN TÍCH PHỔ TÍN HIỆU TIẾNG NÓI ..........................................
      • 2.4 Cấu trúc phổ của tín hiệu tiếng nói ....................................................
      • 2.4 Phân tích spectrogram ........................................................................
    • 1. PHÂN TÍCH DỰ ĐOÁN TUYẾN TÍNH ..............................................
    • 1. XỬ LÝ ĐỒNG HÌNH ............................................................................
      • SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI ......................................... 2. ÁP DỤNG MỘT SỐ PHÉP PHÂN TÍCH ĐỂ XÁC ĐỊNH CÁC THAM
        • 2.7 Một số phƣơng pháp xác định các tần số formant .............................
        • 2.7 Xác định formant từ phân tích STFT .................................................
        • 2.7 Xác định formant từ phân tích LPC ...................................................
        • 2.7 Một số phƣơng pháp xác định tần số cơ bản......................................
        • 2.7 Sử dụng hàm tự tƣơng quan ...............................................................
        • 2.7 Sử dụng Vi sai độ lớn biên độ ngắn hạn ............................................
        • 2.7 Sử dụng tốc độ trở về không ..............................................................
        • 2.7 Sử dụng phân tích STFT ....................................................................
        • 2.7 Sử dụng phân tích Cepstral ................................................................ MỤC LỤC
    • 1. CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG ...........................................
  • CHƢƠNG 3: MÃ HÓA TIẾNG NÓI ..........................................................................
    • 1. KHÁI NIỆM CHUNG VỀ MÃ HÓA TIẾNG NÓI ...............................
    • 1. MỘT SỐ PHƢƠNG PHÁP MÃ HÓA DẠNG SÓNG ..........................
      • 3.2 PCM ...................................................................................................
      • 3.2 DPCM ................................................................................................
      • 3.2 DM .....................................................................................................
      • 3.2 APCM ................................................................................................
      • 3.2 ADPCM .............................................................................................
      • 3.2 ADM ..................................................................................................
      • 3.2 Mã hóa dạng sóng trong miền tần số .................................................
    • 1. MỘT SỐ PHƢƠNG PHÁP MÃ HÓA THAM SỐ................................
    • 1. PHƢƠNG PHÁP MÃ HÓA LAI GHÉP ...............................................
    • 1. MỘT SỐ PHƢƠNG PHÁP MÃ HÓA TIẾNG NÓI TỐC ĐỘ THẤP ..
    • 1. ĐÁNH GIÁ CHẤT LƢỢNG MÃ HÓA TIẾNG NÓI ...........................
    • 1. CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG ...........................................
  • CHƢƠNG 4. TỔNG HỢP TIẾNG NÓI.......................................................................
    • 1. MỞ ĐẦU................................................................................................
    • 1. CÁC PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI ................................
      • 4.2 Tổng hợp trực tiếp ..............................................................................
      • 4.2 Tổng hợp tiếng nói theo Formant.......................................................
      • 4.2 Tổng hợp tiếng nói theo phƣơng pháp mô phỏng bộ máy phát âm ...
    • 1. HỆ THỐNG TỔNG HỢP CHỮ VIẾT SANG TIẾNG NÓI ...............
    • 1. MỘT SỐ ĐẶC ĐIỂM CỦA VIỆC TỔNG HỢP TIẾNG VIỆT ..........
    • 1. CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG .........................................
  • CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI.................................................................

CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN

CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN

  1. MỞ ĐẦU

Tiếng nói là phƣơng tiện trao đổi thông tin chính yếu giữa con ngƣời và con ngƣời. Phƣơng thức thông tin bằng tiếng nói đƣợc sử dụng một cách rộng rãi. Việc trao đổi thông tin thông qua tín hiệu tiếng nói cho phép truyền tải thông tin một cách nhanh chóng hơn. Một ngƣời bình thƣờng có thể nói trung bình hơn 100 từ trong một phút, trong khi đó chỉ có thể viết đƣợc trung bình khoảng 50 từ trong vòng một phút.

Thông tin tiếng nói đơn giản mà hiệu quả. Tiếng nói là phƣơng tiện trao đổi đầy ma lực: Bản thân ngôn từ [cách hành văn] đã vốn chứa đựng một sắc thái biểu cảm, nhƣng thông qua ngôn ngữ nói nó còn có khả năng truyền tải cả sắc thái, thái độ [vui, buồn,...]

Mặt khác, con ngƣời có vẻ ngày càng lƣời hơn. Nhu cầu sử dụng tiếng nói thay vì các thao tác bằng tay để thực hiện công việc, chẳng hạn nhƣ điều khiển, đang tăng một cách mạnh mẽ hơn bao giờ hết. Điều này đặc biệt càng đúng với sự phát triển nhanh chóng của công nghệ khoa học hiện nay. Chúng ta không còn lạ lẫm với các ứng dụng điều khiển các thiết bị trong nhà thông minh bằng cử chỉ và giọng nói. Thậm chí, Google còn cho phép chúng ta có khả năng lái xe bằng cách chỉ cần ra lệnh bằng giọng nói.

Để có thể phát huy đƣợc thế mạnh, sự tiện dụng của phƣơng tiện giao tiếp này, đặc biệt là có thể hiểu, nắm bắt và từng bƣớc có khả năng xây dựng và triển khai các hệ thống giao tiếp bằng giọng nói thì rất cần thiết phải có đƣợc những kiến thức cơ bản về xử lý tiếng nói. Trong chƣơng này, trƣớc hết chúng ta sẽ làm quen với một số khái niệm cơ bản của hệ thống xử lý tiếng nói. Những khái niệm cơ bản này sẽ là nền tảng để nghiên cứu và tìm hiểu sâu hơn trong các chƣơng tiếp theo.

  1. TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI

Để đơn giản có cái nhìn tổng quát về hệ thống xử lý tiếng nói và trả lời đƣợc câu hỏi “Xử lý tiếng nói là gì?”, hãy quan sát quá trình chúng ta thực hiện giao tiếp bằng giọng nói. Nếu chúng ta đóng vai trò ngƣời nói, những thông điệp mong muốn truyền tải đƣợc định hình tại bộ não. Não sẽ thực hiện việc phân tích thông điệp này và đƣa các tín hiệu để điều khiển các bộ phận phát âm tƣơng ứng hoạt động nhằm “tổng hợp” ra âm thanh mong muốn để truyền tải thông điệp. Ở phía ngƣời nghe, âm thanh mang thông tin đƣợc thu nhận bởi cơ quan cảm thụ sẽ cảm thụ, thông qua các tín hiệu thần kinh truyền đến não để “nhận dạng” và “suy diễn” nhằm hiểu thông tin. Một cách tổng quát, hệ thống thông tin bằng tiếng nói của con ngƣời có thể mô tả nhƣ hình 1. Mặc dù cho đến nay, con ngƣời vẫn chƣa hoàn toàn hiểu một cách toàn diện về quá trình tạo, cảm nhận

PTIT

CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN

tiếng nói của con ngƣời nhƣng một số quá trình và cách thức thực hiện cơ bản có thể đƣợc tóm lƣợc nhƣ hình 1.

Hình 1 Sơ lƣợc hệ thống thông tin tiếng nói của con ngƣời

Hình 1 Tóm lƣợc một số quá trình xử lý trong hệ thống thông tin bằng tiếng nói

PTIT

CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN

1.3 Bản chất của tiếng nói

Âm thanh tiếng nói cũng nhƣ âm thanh nói chung trong thế giới tự nhiên xung quanh ta, về bản chất đều là những sóng âm đƣợc lan truyền trong một môi trƣờng vật lý nhất định [thƣờng là không khí].

Tuy nhiên đó là những hiểu biết phía bên ngoài, phần kết quả, về hệ thống tạo tín hiệu tiếng nói. Để đơn giản, chúng ta bỏ qua khía cạnh tâm thần [neurology] của quá trình tạo tiếng nói. Do đó, có thể coi nguồn gốc của quá trình tạo tín hiệu tiếng nói là quá trình hoạt động của hệ thống phát âm. Khi ta nói dây thanh trong hầu dao động. Những dao động này đƣợc truyền qua hệ thống tuyến âm, một hệ thống đóng vai trò nhƣ một bộ lọc cơ học, tạo nên những sóng âm truyền tải thông tin tiếng nói. Sóng âm này, về bản chất là những dao động cơ học, lan truyền trong không khí đến phía ngƣời nghe.

Nhƣ chúng ta đã đƣợc học trong chƣơng trình vật lý phổ thông, sóng âm là sóng cơ học và thuộc loại sóng dọc. Sóng âm chỉ có thể lan truyền trong môi trƣờng có vật chất [không khí, nƣớc, ...]. Về cơ bản nó cũng có các tham số nhƣ một sóng cơ học thông thƣờng nhƣ tần số, chu kỳ, bƣớc sóng. Một số tham số cơ bản của sóng đƣợc minh họa trong hình 1.

Hình 1 Một số tham số cơ bản của sóng cơ học Cũng cần lƣu ý rằng, sóng âm thanh tiếng nói phức tạp hơn rất nhiều. Bản chất của sự thay đổi liên tục để truyền tải thông điệp khiến cho các tham số cơ bản đề cập ở trên luôn thay đổi thậm chí ngay trong khoảng thời gian rất ngắn.

Sóng âm thanh mà con ngƣời có thể cảm nhận đƣợc nằm trong một dải tần số rất rộng, khoảng từ 16Hz đến 20000Hz. Những sóng âm dao động có tần số nhỏ hơn 16Hz đƣợc gọi là sóng hạ âm. Những sóng âm có tần số lớn hơn 20000Hz đƣợc gọi là sóng siêu âm. Mặc dù hầu hết con ngƣời không cảm nhận đƣợc sóng hạ âm và không sử dụng trong thông tin, một số ngƣời có khả năng cảm nhận sóng hạ âm sẽ có những cảm giác bồn chồn lo lắng áp lực. Cũng tƣơng tự, con ngƣời không cảm nhận đƣợc sóng siêu âm, nhƣng sóng siêu âm có khá nhiều ứng dụng thực tế nhƣ phát hiện chẩn đoán trong ảnh y tế, định vị phát hiện kẻ thù trong hệ thống sonar trên các tàu ngầm, ...

PTIT

CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN

1.3 Cấu tạo của hệ thống phát âm

Tiếng nói là kết quả của sự phối hợp hoạt động giữa não, hệ dây thần kinh và các bộ phận trong hệ thống phát âm. Hệ thống phát âm gồm hai phần chính là phổi và hệ thống tuyến âm.

Phổi có nhiệm vụ giãn/ép hơi nhằm tạo lực cần thiết cho dây thanh thực hiện dao động. Nó đƣợc coi là nguồn kích thích dao động của dây thanh. Khi nói, lồng ngực mở rộng và thu hẹp, không khí đƣợc đẩy từ phổi vào khí quản, luồng khí này bị ép và đi qua cặp dây thanh tạo ra dao động. Dao động này tạo ra sự xáo trộn của luồng hơi, sau khi truyền qua hệ thống tuyến âm thì phát xạ ra ở môi.

Tuyến âm có thể đƣợc coi nhƣ một ống âm học [gồm các đoạn ống với độ dài bằng nhau và thiết diện các mặt cắt khác nhau mắc nối tiếp, còn gọi là bộ lọc cơ học] với đầu vào là các dây thanh [còn gọi là thanh môn] và đầu ra là môi. Hình 1 minh họa cấu trúc và các bộ phận của hệ thống tuyến âm. Tuyến âm có hình dạng thay đổi và đƣợc điều khiển co thắt để thay đổi nhƣ một hàm theo thời gian. Các mặt cắt của tuyến âm đƣợc xác định bằng vị trí của lƣỡi, môi, hàm, vòm miệng và tiết diện của những mặt cắt này thay đổi từ 0cm 2 [khi ngậm môi] đến khoảng 20cm 2 [khi hở môi]. Tuyến mũi tạo thành một tuyến âm phụ trợ cho việc truyền âm thanh, nó bắt đầu từ vòm miệng và kết thúc ở các lỗ mũi. Khi vòm miệng hạ thấp, tuyến mũi đƣợc nối với tuyến âm về mặt âm học và tạo nên tiếng nói âm mũi.

Thanh quản là tập hợp các cơ và sụn động bao quanh một khoang nằm ở phần trên của khí quản. Các dây thanh giống nhƣ là một đôi môi đối xứng nằm ngang thanh quản. Cặp môi này có thể khép kín hoàn toàn thanh quản hoặc mở ra tạo ra độ mở hình tam giác gọi là thanh môn. Bình thƣờng không khí qua thanh quản một cách tự do trong quá trình thở hoặc trong quá trình phát âm những âm câm hoặc vô thanh. Khi phát âm những âm hữu thanh, cặp môi này đóng mở liên tục một cách không tuần hoàn [còn gọi là dao động] để tạo ra âm thanh. Những rung động dây thanh liên tiếp đƣợc truyền qua tuyến âm. Dao động dây thanh sẽ đƣợc điều biến thông qua sự thay đổi hình dạng và tiết diện của tuyến âm để tạo ra những âm khác nhau. PTIT

CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN Âm vô thanh: Là âm khi phát ra không có thanh, dây thanh không rung hoặc rung đôi chút hoặc dao động không có tần số cơ bản. Khi phát âm các âm vô thanh, chúng ta tạo ra giọng nhƣ giọng thở, ví dụ “h”, “p” hay “th”.

Âm bật: Để phát ra âm bật [còn gọi âm nổ], đầu tiên dây thanh đóng kín, tạo nên một áp suất không khí lớn, sau đó có sự mở khiến không khí đƣợc giải phóng một cách đột ngột tạo ra các âm thanh bật.

Cũng cần chú ý, có một số âm khác không đơn giản phân loại đƣợc vào một trong ba nhóm âm trên bởi vì chúng là âm tổ hợp của các yếu tố của các âm đó. Chẳng hạn âm thanh khi phát âm chữ “kh”, âm đƣợc tạo ra do sự mở hẹp của thanh môn và sự co thắt và mở hẹp của vòm miệng.

1.3 Cấu tạo của hệ thống cảm nhận tiếng nói

Trong hệ thống cảm nhận tiếng nói, tai là một bộ phận quan trọng và là khối đầu tiên trong hệ thống. Không giống nhƣ các cơ quan tham gia vào quá trình tạo ra tiếng nói nhƣ miệng, mũi, phổi, các cơ quan mà ngoài chức năng tham gia tạo tín hiệu tiếng nói còn thực hiện các chức năng khác nhƣ ăn, ngửi, thở. Tai, một cơ quan trong hệ thống thính giác của con ngƣời, chỉ sử dụng cho chức năng nghe. Tai ngƣời đặc biệt nhạy cảm với những tần số tín hiệu tiếng nói nằm trong vùng nghe [trong khoảng xấp xỉ từ 200 – 5600Hz]. Tai ngƣời là một máy thu tự nhiên tuyệt hảo, nó có thể phân biệt đƣợc những sự khác biệt rất nhỏ về thời gian và tần số của những âm thanh nằm trong vùng tần số này.

Tai gồm có ba phần: tai ngoài, tai giữa và tai trong. Tai ngoài làm nhiệm vụ dẫn hƣớng những thay đổi áp xuất tiếng nói vào trong màng nhĩ. Nói cách khác, tai ngoài giống nhƣ một bộ ăn-ten làm nhiệm vụ thu nhận những dao động âm của tiếng nói truyền đến. Dao động âm, thể hiện ở áp suất hay dao động các phần tử không khí sẽ đƣợc biến đổi thành chuyển động cơ học ở tai giữa. Những chuyển động cơ học ở tai giữa đƣợc chuyển đổi thành những luồng điện trong nơron thính giác dẫn đến não để thực hiện quá trình phân tích và bóc tách thông tin.

Tai ngoài: là phần phía bên ngoài của tai, bao gồm loa tai [pinna – vành tai] và lỗ tai [meatus - ống tai ngoài]. Loa tai hầu nhƣ không hoặc rất ít có vai trò đối với độ thính của tai, nhƣng có chức năng bảo vệ lối vào ống tai và dƣờng nhƣ cũng tham gia vào khả năng khu biệt các âm, đặc biệt là ở những tần số cao hơn. Với cấu trúc vành rộng cùng các rãnh xoáy, nó có nhiệm vụ nhƣ một ăn-ten thực hiện thu tập năng lƣợng âm và dẫn hƣớng vào tai giữa thông qua ống tai ngoài. Ống tai ngoài đƣợc nối ở phần cuối hõm của vành tai, nó là một ống ngắn có hình dáng thay đổi có chiều dài khoảng 2 làm đƣờng dẫn cho các tín hiệu âm thu nhận đƣợc đến tai giữa. Ống tai ngoài có hai chức năng chính. Chức năng thứ nhất là bảo vệ các cấu trúc phức tạp và dễ bị tổn thƣơng cơ học của tai giữa. Chức năng thứ hai là đóng vai trò nhƣ một bộ lọc cơ học cộng hƣởng hình ống vốn

PTIT

CHƢƠNG 1. MỘT SỐ KHÁI NIỆM CƠ BẢN

ƣu tiên cho việc truyền các âm có tần số cao giữa 3000 Hz và 12000Hz. Chức năng này là quan trọng đối với việc tiếp nhận tiếng nói và đặc biệt trợ giúp cho việc tiếp nhận các âm xát, vì đặc điểm của các âm này đƣợc tạo ra bởi nguồn kích thích không có chu kỳ và phổ năng lƣợng của chúng nằm trong trong khu phổ này. Sự cộng hƣởng, nói cách khác là khuếch đại, ở ống tai ngoài góp phần vào độ thính chung của tai ở vùng tần số giữa 500Hz và 4000Hz, vốn là một dải tần có chứa nhiều dấu hiệu chính đối với cấu trúc âm vị học.

Xƣơng búa

Thần kinh thính giác

Ốc tai

Xƣơng đe Xƣơng bàn đạp

Màng nhĩ Vòi Ot-tat

Cửa sổ hình bầu dục

Hình 1 Cấu trúc hệ thính giác ngoài Tai giữa bao gồm một khoang nằm trong cấu trúc hộp sọ có chứa màng nhĩ [eardrum]

  • màng ở đầu phía trong của ống tai ngoài, một bộ ba khúc xƣơng liên kết với nhau, còn đƣợc gọi là xƣơng vồ [mallet], xƣơng đe [anvil] và xƣơng bàn đạp [stirrup] [cũng có thuật ngữ là xƣơng tai [auditory ossicle]] và cấu trúc cơ liên kết. Mục đích của tai giữa là biến đổi những thay đổi áp suất âm [những dao động âm] đƣợc thu nhận từ tai ngoài dẫn vào thành những dịch chuyển cơ khí tƣơng ứng. Quá trình biến đổi này bắt đầu ở màng nhĩ, dao động âm làm dịch chuyển màng nhĩ. Sự dịch chuyển này đƣợc truyền đến các xƣơng tai, vốn đóng vai trò nhƣ một hệ thống đòn bẩy cơ học khéo léo truyền những dịch chuyển này đến cửa hình bầu dục, ô cửa ở giao tiếp giữa tai trong và chất dịch trong lỗ tai.

Với cơ chế hoạt động đòn bẩy của các xƣơng tai, và đặc biệt là vùng diện tích bề mặt của màng nhĩ lớn hơn nhiều so với cửa hình bầu dục, việc truyền hiệu ứng của năng lƣợng âm học giữa 500Hz và 4000Hz đƣợc đảm bảo. Kết quả làm tăng đến mức tối đa khả năng thính của tai ở vùng tần số này. Hệ cơ gắn với các xƣơng tai cũng hoạt động để bảo vệ tai chống lại những dao động âm lớn nhờ hoạt động của cơ chế phản xạ âm học. Khi các âm có biên độ khoảng 90dB và lớn hơn truyền đến tai, hệ cơ kết hợp và sắp xếp

Chủ Đề