استخراج ویژگی های صوتی

هدف از پردازش سیگنال های صوتی طبقه بندی آنها می باشد . مسایل مرتبط با طبقه بندی سیگنال های صوتی در دنیای امروز عموما در راستای حل مسائل یاد شده در زیر مطرح می باشند :
• دسته بندی اصوات موسیقی
• دسته بندی نوع موسیقی
• آوا نویسی ابزار موسیقی
• تقسیم بندی موسیقی
• تشخیص گوینده
• تشخیص زبان
• بازیابی صدا
• تشخیص مفهوم
• تقسیم بندی تصاویر با استفاده از صدا و …
اما در مورد پردازش سیگنال های صوتی مربوط به انسان شاید گام اول تقسیم بندی این سیگنال های polyphonic می باشد که در این زمینه روش های متنوعی وجود دارد.اما این روش ها دارای یک هسته اصلی می باشند که در ادامه به آن پرداخته می شود.
اولین گام در طبقه بندی استخراج ویژگی هایی است که قرار است طبقه بندی بر اساس آن انجام شود.هر چقدر ویژگی های استخراج شده بتوانند تمایز بین سیگنال های مختلف را بهتر نشان دهند به طبع عملیات طبقه بندی با سهولت و کارایی بالاتری امکان پذیر است.با توجه به این مطالب می توان عمده عملیات تشخیص سیگنال اعم از صوتی و … را در دو بخش اساسی قرار داد :
• استخراج ویژگی ها
• طبقه بندی بر اساس مدل ها
در بخش طبقه بندی استفاده از مدل های آماری و در واقع یافتن یک مدل معتبر در مورد سیگنال های موجود می تواند کاری بس دشوار و سنگین ،همراه با محاسبات بالا باشد.در این راستا به منظور طبقه بندی می توان از مدل های معتبر موجود مثل HMM و یا روش های مبتنی بر شبکه های عصبی استفاده کرد.حال اگر فرض را در این مرحله بر استفاده از شبکه های عصبی قرار دهیم این بخش خود به دو زیر بخش تقسیم می شود :
• آموزش شبکه بر مبنای نمونه های موجود
• تقسیم بندی نمونه های جدید با استفاده از شبکه آموزش دیده
در پست بعدی با چند نمونه از ویژگی های صوتی آشنا خواهیم شد.

معرفی ویژگی های صوتی :
این مرحله در پردازش انواع سیگنال ها اجتناب ناپذیر می باشد.یک سیگنال در یک بازه زمانی حاوی داده های نامربوط بسیاری می باشد که به صورت مستقیم می توان از آنها برای طبقه بندی استفاده کرد.مشکل اصلی در این زمینه یافتن ویژگی های موثری است که به روند طبقه بندی سرعت و دقت بالاتری بخشند.زیرا ویژگی های ضعیف علاوه بر دشوار ساختن عملیات طبقه بندی ، موجب دریافت نتایج ضعیف می گردند.در این راستا در ادامه انواع ویژگی های سیگنال های صوتی به اجمال مورد بررسی قرار می گیرند.
ویژگی های طیفی
ویژگی های طیفی ویژگی هایی هستند که یک طیف را در بازه های زمانی کوچک قابل تمایز می سازند.این ویژگی ها به خصوص درباره طبقه بندی سیگنال های صوتی بسیار موثر می باشند.اگر چه ویژگی های متفاوتی در مسایل مختلف قابل بحث هستند ، اما در مورد موضوعاتی مانند تشخیص آوا ها و ابزار های موسیقی ویژگی های موقتی از جایگاه ویژه ای برخوردارند.
در استخراج ویژگی های طیفی فاز مربوط به طیف قابل حذف است و به این منجر به 50 در صد کاهش اطلاعات خواهد شد.همچنین ساختار مناسب طیف در اکثر مواقع قابل حذف می باشد.همچنین می توان بسیاری از اطلاعات نامربوط دیگر را حذف نمود.تنها چیزی که باقی می ماند طیف ضخیم مربوط به توزیع انرژی می باشد که در طبقه بندی سیگنال های صوتی از اهمیت بالایی بر خوردار می باشد و در واقع پایه ای برای تشخیص ویژگی های گفتار و آوا های صوتی می باشد.
ضرایب Cepstral
ضرایب Cepstral که با c(k) نشان داده می شوند یک راه بسیار مناسب برای مدل کردن توزیع انرژی طیف می باشند.این ضرایب به صورت زیر قابل محاسبه اند :
C(k)=IDFT{log|DFT{x(n)}|}
که DFT تبدیل فوریه و IDFT معکوس آن می باشد.در نرم افزار MATLAB این ضرایب به صورت زیر قابل محاسبه اند :
c = real(ifft( log( abs( fft(x)))));
از آنجا که دقت عددی تولید شده بسیار کم اهمیت می باشد در فرمول بالا جز حقیقی به عنوان c در نظر گرفته شده است.
ضرایب Cepstral در فریم های کوتاهی در طول زمان محاسبه می شوند که البته مدل های محاسبه شده با محاسبه میانگین و واریانس هر ضریب در طول زمان قابل افزایش است.فقط از M ضریب اول Cepstral به عنوان ویژگی استفاده می شود.در مورد این ضرایب نکات زیر حائز اهمیت است :
• در صورت استفاده از کلیه ضرایب طیف به صورت دقیق به دست می آید.
• شمای طیف ضخیم با استفاده از ضرایب ابتدایی به دست می آید.
• دقت مدل سازی با توجه به تعداد ضرایب تعیین می شود.
• اولین ضریب که انرژی می باشد دور انداخته می شود.
معمولا M=f/2000 تخمین خوبی برای M می باشد که f در این فرمول فرکانس می باشد.
مشکل عمده در استفاده از ضرایب Cepstral خطی بودن مقیاس فرکانس می باشد.زیرا معمولا فرکانس هایی که در محدوده 100 تا 200 هرتز و 10 تا 20 کیلو هرتز هستند دارای اهمیت می باشند که ضرایب Cepstral این محدوده را به حساب نمی آورند.در این شرایط به نظر می آید که مقیاس لگاریتمی از فرکانس بتواند عملکرد بهتری داشته باشد.برای حل این مشکل باید توجه داشت که عمدتا ما به دنبال تشابهات و عدم تشابهات در مورد ادراک ها برای طبقه بندی هستیم ضمن اینکه ویژگی های مرتبط استخراج شده از این ادراک ها ما را به سمت یک کلاس بندی مطلوب هدایت می کند.بنابراین در راستای رسیدن به هدف نیاز به مرغوب سازی ویژگی ها با اعمال اندکی تغییر در آنها احساس می شود. البته باید توجه داشت که اعمال تغییرات کوچک در ویژگی ها منجر به اعمال تغییرات کوچک در داده های ادراکی می شود(و بالعکس).به دلیل پایین بودن وضوح این تغییرات به خاطر مناسب نبودن مقیاس نیاز به ضرایبی با درجه وضوح بالاتری در نشان دادن این تغییرات جزیی داریم . این نیاز منجر به استفاده از ضرایب جدیدی تحت عنوان ضرایب Mel-frequency cepstralمی شود که به طور کامل کمبود های یاد شده را پوشش می دهد.در ادامه به بررسی تاثیر انواع مقیاس ها بر روی کیفیت خواهیم پرداخت.
حال اگر در حوزه فرکانسی از مقیاس لگاریتمی استفاده شود به این ترتیب فاصله بین نت ها با وضوح بیشتری نسبت به حالت قبل قبل قابل مشاهده است.در واقع به داده های ادراکی نزدیک تر است.
همانطور که دیده شد استفاده از مقیاس لگاریتمی در دامنه و فرکانس منجر به وضوح بیشتر می شود.اعمال این تغییر بر روی ضرایب Cepstral منتهی به تولید یک سری از ویژگی های جدیدی خواهد شد که در قسمت بعد به آن پرداخته خواهد شد.

ضرایب Mel-Frequency cepstral
این ضرایب نوع بهبود یافته از ضریب cepstral می باشند.
مراحل کار برای تولید این ضرایب به این صورت است که پس از پنجره بندی و ایجاد فریم ها از سیگنال ورودی تبدیل فوریه گسسته بر روی هر یک از این فریم ها اعمال شده و حاصل به filterbank داده می شود.این فیلتر بر روی دامنه فرکانس ها اعمال شده و آن را یکنواخت می سازد.
یک راه برای تولید Mel-frequency درونیابی بر روی فرکانس گسسته اصلی می باشد.پس از اعمال فیلتر و سپس تبدیل cosine گسسته(DCT) MFCC بدست آمده است.
مقیاس مورد استفاده در فرکانس Mel به صورت زیر محاسبه می شود :
Mel(f)=2595log(1+f/700)
پس از محاسبه این ضریب در ادامه به پاره ای از دلایل موفقیت این ضریب خواهیم پرداخت.
یکی از دلایل کارایی بالا این ضریب در درجه وضوح بالای آن می باشد.به این معنی که تغییرات جزیی با استفاده از این مقیاس اثر خود را به خوبی نشان می دهند.نقطه قوت دیگر این روش در استفاده از DCT می باشد که علاوه بر اینکه spectral fine structure را حذف می کند و باعث خلاصه سازی داده ها می شود همبستگی بین ویژگی ها را از بین برده و عملیات طبقه بندی را بهبود می بخشد.
MFCC در کنار سایر ویژگی ها می تواند به صورت یک بردار پیوسته از ویژگی ها بیان شود.به عنوان یکی از ویژگی های مورد استفاده در کنار MFCC می توان به مرکز ثقل طیف اشاره کرد.
ویژگی دیگر قابل بررسی درباره طیف پهنای باند آن می باشد.
به عنوان ویژگی های دیگر به خصوص در باره صدا های موزون می توان به بی نظمی طیفی اشاره کرد که در واقع انحراف از دامنه های موزون طیف می باشد.
ویژگی های زمانی
در این بخش به توصیف ویژگی های زمانی یک سیگنال صوتی و تحولات آن با گذشت زمان می پردازیم.این ویژگی دارای اثرات مشخص تری می باشد.برای استخراج این ویژگی یک سطح میانی از سیگنال ورودی با خصوصیات زیر در نظر می گیریم :
• Power envelope سیگنال با سرعت 100 هرتز تا 1 کیلو هرتز نمونه برداری شده است.
• یا Power envelopes سیگنال دارای 3 تا 40 زیرباند می باشد.
• فاز و ساختار مناسب طیف از آن حذف شده اند.
در راستای استخراج ویژگی ها دو مسئله به عنوان نمونه قابل طرح است.مسئله اول دسته بندی اصوات صوتی می باشد.در این مسئله ویژگی های زمانی قابل استخراج بدین شرحند :
• ویژگی زمان خیز :که فاصله زمانی بین شروع تا لحظه ماکسیمم شدن دامنه می باشد.
• شروع غیر همزمانی در فرکانس های متفاوت
• نوسان فرکانسی
• نوسان دامنه ای
امادر مورد مسئله دوم که طبقه بندی عمومی سیگنال های صوتی می باشد ، ویژگی های قابل استخراج بدین شرحند :
• نوسان دامنه ای
• MFCC ویژگی های زمانی
در ادامه پس از آشنایی با چند ویژگی زمانی به ویژگی هایی که در دامنه زمانی محاسبه می شوند می پردازیم.
در پاره ای از اوقات به دلیل کم کردن حجم محاسباتی نیاز به یک سری از ویژگی های بسیار روشن و سهل وصول و تا حد ممکن دوری از تبدیل فوریه در استخراج ویژگی ها می باشد.اولین ویژگی از این دسته Zero-crossing rate می باشد.
این ویژگی تا حد زیادی با مرکز ثقل طیف در ارتباط می باشد.
به عنوان یک ویژگی دیگر از ویژگی های زمانی قابل استخراج از سیگنال می توان Short-time energy را نام برد.این ویژگی یکی از ضعیف ترین ویژگی های سیگنال های صوتی می باشد که البته در صورت تنوع آماری می تواند مفید واقع شود.

Advertisements
  1. #1 توسط 83202200 در ژوئن 11, 2010 - 7:00 ب.ظ.

    سلام
    مطلب خیلی برای من مفید بود.
    متشکرم

پاسخی بگذارید

در پایین مشخصات خود را پر کنید یا برای ورود روی شمایل‌ها کلیک نمایید:

نشان‌وارهٔ وردپرس.کام

شما در حال بیان دیدگاه با حساب کاربری WordPress.com خود هستید. بیرون رفتن / تغییر دادن )

تصویر توییتر

شما در حال بیان دیدگاه با حساب کاربری Twitter خود هستید. بیرون رفتن / تغییر دادن )

عکس فیسبوک

شما در حال بیان دیدگاه با حساب کاربری Facebook خود هستید. بیرون رفتن / تغییر دادن )

عکس گوگل+

شما در حال بیان دیدگاه با حساب کاربری Google+ خود هستید. بیرون رفتن / تغییر دادن )

درحال اتصال به %s

%d وب‌نوشت‌نویس این را دوست دارند: