1- مقدمه
درصورتیکه علاقه به کار در حوزهی صدا دارید، لازم است تا در ابتدا با تعدادی از مفاهیم پایهای در خصوص صدای دیجیتال آشنا شوید، در این گزارش به بررسی این مفاهیم خواهیم پرداخت:
صدا نوسان فشار هوا است. صدای دیجیتالی شده یک گراف از تغییرات فشار هوا در طول زمان است. برای اینکه بتوان این موضوع را بهتر درک کرد، با استفاده از sound Recorder در سیستم عامل ویندوز صدایی کوتاه ضبط کرده و به تغییر نوسان نوار سبز رنگ توجه کنید. وقتی که این نوار تا انتها پر میشود نشان دهندهي زیاد بودن فشار هوا است که گوشها قادر به شناسایی بلندی صدا خواهند بود و زمانی که این نوار در وسط و روبه پایین باشد، تغییری در فشار هوا ایجاد نشده است.
2- تبدیل صدای آنالوگ به دیجیتال
یکی از توابع اصلی موجود در کارت صدا[1] (واسطهای صدا) تبدیل کردن فرمت آنالوگ به دیجیتال است. موج صدا دارای اطلاعاتي بینهایتی از جمله گامها[2]، حجم صدا[3] و مدتزمان پخش[4] است. کامپیوترها توانایی پردازش این اطلاعات بینهایتی را ندارند، بنابراین سیگنال صدا باید قبل از اینکه از آن استفاده شود به فرمی که برای کامپیوتر قابل درک است تبدیل شود [3].
در شکل (1)به خوبی میتوان این وضعیت را مشاهده نمود. شکل موج قرمز رنگ نشاندهندهي موج صدایی است که توسط خواننده یا یک ابزار آکوستیکی تولید میشود. تغییرات تدریجی موج قرمز نمیتواند بوسیلهي کامپیوتر پردازش شود، بنابراین باید از تقریبی که توسط مستطیلهای خاکستری برای موج صدای قرمز در نظر گرفته میشود استفاده کرد.
شکل (1): شکل موجی که توسط کامپیوتر تخمین زده میشود[1].
این شکل نشاندهندهي مفهوم واقعی از موج صدا است و نشاندهندهي دادهي واقعی ضبطشدهي صدا نیست. در هنگام تبدیل کردن سیگنال از آنالوگ به دیجیتال[5] واسط صدا یا کارت صدا، بالا یا پایین بودن کیفیت صدا را با استفاده از نرخ نمونهبرداری و کنترل فرمت نمونهبرداری تشخیص میدهد. با بزرگتر شدن مقدار دادهي صدا، کارت صدا بهتر میتواند سیگنال اصلی که از میکروفن دریافت میشود را تقريب بزند. در ادامهي این گزارش مفاهیم نرخ نمونهبرداری و فرمت نمونهبرداری که اجزای اصلی در تشخیص کیفیت صدا هستند را توضیح خواهیم داد. بهعنوان مثال، یک واسط صدا که در داخل مادربردهای امروزی تعبیه میشود ممکن است از انواع فرمتهای نمونهبرداری و نرخهای نمونهبرداری (مانند 24/192) پشتیبانی کند اما دلیل بر خوب بودن نمیشود. در سطح حرفهای، با اتصال FireWire به یک واسط صدا با فرمت نمونهبرداری 16 بیتی و نرخ نمونهبرداری 44.1 کیلوهرتزی که استاندارد است میتوانيم صدای بهتری داشته باشیم [3].
3- نمونهبرداری
زمانی که صدایی به وسیلهي میکروفن ضبط میشود، میکروفن نوسان فشار هوا را به نوسانات ولتاژ برق تبدیل میکند که کارت صدا هر از چندگاه (در بازهاي مشخص) آن را اندازه گرفته و به عدد تبدیل میکند این عمل با نام نمونهبرداری[6] شناخته میشود. زمانی که صدایی (خواننده یا یک ابزار آکوستیکی) پخش میشود، پردازش بصورت معکوس عمل خواهد کرد، به این صورت که نوسان ولتاژ بجای میکروفن به پخشکنندهها (بلندگو)[7] میرود و توسط مخروط[8] بلندگوها به فشار هوا تبدیل شده که قابل شنیده شدن است.
نمونهبرداری یکی از واحدهای مهم داده در صدا است. برای درک بهتر این مفهوم از مثال تصویر که محسوستر است استفاده میکنیم، در سیستمهای کامپیوتری دادههای تصویر (مانند فیلم) به شکل سریالی از تصاویر ذخیره میشوندکه با نام فریم خوانده میشود و آنها را یکی پس از دیگری نمایش میدهند و با نرخی از پیش تعیینشده به نام نرخ فریم میتوان آن را تغییر داد. در سیستمهای کامپیوتری دادهي صدا هم بصورت سریالی از صدا با نام sampleذخیره میشود و آنها را یکی پس از دیگری با نرخی از پیش تعیینشده به نام نرخ نمونهبرداری ميتوان پخش كرد.
4- نرخ نمونهبرداری
به سرعتی که صدا را از ولتاژها نمونهبرداری میکند نرخ نمونهبردای[1] گفته میشود و با واحد کیلوهرتز kHz بیان میشود. یک کیلوهرتز شامل هزار نمونه در ثانیه است. نرخ نمونهبرداری به تعداد نمونههای پخششده در هر ثانیه گفته میشود. نرخ نمونهبرداری که برروی CDهای صوتی استفاده میشود 44.1 یا 44100 است که هر دو دارای یک معنی هستند. نرخهای نمونهبرداری معمولاً 44.1، 48 و 96 است. نرخهای نمونهبرداری دیگری مانند 22 و 88.2 و 192 هم وجود دارندکه زیاد عمومی نیستند.
از آنجایی که بازهي شنوایی انسانبین 20 تا Hz 20000 است بنابراین زمانی که در حال ضبط موسیقی یا موارد آکوستیکی هستیم، بهترین نرخ نمونهبرداری موج صوت 44.1CD، 48، 88.2 یا 96 kHz خواهد بود. بطور تقریبی میتوان گفت که نرخی دو برابر از نتیجهي قضیه نایکوئیست[2] مورد احتیاج است. توجه به این نکته لازم است که نمونهبرداری با نرخی بیش از 50 یا 60 kHzنمیتواند حامل اطلاعات مفیدی برای شنوندهي انسانی باشد. به همین دلیل تولیدکنندگان حرفهای تجهیزات صوتی از نرخی در محدودهي 50kHzاستفاده میکنند [5].
5- فرمت نمونهبرداری
فرمت نمونهبرداری یا عمق بیت یا بیت در هر نمونه[11] به تعداد بیتهای استفاده شده جهت توضیح هر نمونه[12] گفته میشود. با بزرگتر شدن تعداد بیتها، دادهي بیشتری در هر نمونه ذخیره خواهد شد. فرمت نمونهبرداری معمولاً 16 بیت و 24 بیت است. نمونههاي 8 بیتی کیفیت بسیار پایین دارند و معمولاً در مودم[13]ها استفاده میشدند، نمونههای 32 بیتی هم موجود هستند اما در بیشتر واسطهای صوتی پشتیبانی نمیشوند [4].
در صداي 16 بیتی، 65,536 ( ) سطح داده وجود دارد و با بزرگتر شدن اندازهي بيت، تعداد سطحها (انرژی) با مضرب دو بزرگتر میشوند. زمانی که به 24 بیت میرسیم، دارای 16,777,216 ( ) سطح داده هستیم.
توجه به این نکته مهم است که در صدا (صوت)[14] هیچ چیزی بطور مستقیم دربارهی فرکانس صدا، گام[15] و درکی از بلندی صدا[16] ذخیره نمیشود. البته میتوان با اجرا کردن الگوریتمهای مشخصی بر روی این نمونهها این مقادیر را تا حدودی تعیین کرد اما این موارد قابل خواندن از روی فایل نیست [3].
CD-DA استاندارد صدای CD است که دارای نرخ دادهای 16 بیتی با فرکانس 44.1 کیلوهرتز است، به این معنی که دادهي صدا در هر ثانیه شامل 44100 نمونه با عمق بیت 16 است، به عبارت دیگر دارای 44100 قطعه است و هرکدام دارای 65,536 سطح داده هستند. CD-DA همچنین بصورت استریو[17] است و از کانالهای چپ و راست استفاده میکند، بنابراین مقدار دادهي صدا در هر ثانیه دو برابر مونو[18] و جایی که از صدای تک کاناله استفاده میشود است.
6- نرخ بیت
نرخ بیت به تعداد بیتها یا مقدار دادهای برمیگردد که در یک بازهي زمانی مشخصی پردازش میشود و در حوزهي صدا با واحد کیلوبیت در هر ثانیه (یا kb/s kbps)اندازهگیری میشود. بهعنوان مثال، به موسیقی که گوش میدهید دارای 256 کیلوبیت در ثانیه باشد، به این مفهوم است که در هر ثانیه از موسیقی 256 کیلوبیت داده ذخیرهشده است. برای اینکه بتوانیم یک فایل را انتقال دهیم به نرخ بیت که بیانکنندهي مقدار دادهي مورد نیاز در هر ثانیه است نیاز داریم.
نحوهي محاسبهي نرخ بیت هم برابر است با ضرب نرخ نمونهبرداری در فرمت نمونهبرداری در تعداد کانالها. به عنوان مثال، نرخ بیت CD های صوتی (705.6 kb/s) در حالت تک کاناله است که حاصل ضرب نرخ نمونهبرداری (44.1 kHz) در فرمت نمونهبرداری (16 بیت) است. به عنوان مثال فرمت فایل mp3 هم بطور معمول با نرخ بیت kb/s128فشرده میشود. (کد میشود)
با بالا رفتن میزان نرخ بيت یک فایل صدا، فضای بیشتری از کامپیوتر اشغال میشود، به همین دلیل انواع فرمتهای فشردهسازی ارائه شده است تا بتوان تعداد فایلهای بیشتری در فضایی که در اختیار داریم ذخیره کنیم. این الگوریتمهای فشردهسازی به دو دستهي lossy (با از دست رفتن مقداری از دادهها) و lossless (با حفظ تمامی دادهها) تقسیم میشود [4].
نرخ بیت دادهي صوت PCM از طریق فرمول زیر محاسبه میشود [6].
به عنوان مثال، نرخ بیت ضبطشدهي CD-DA (44.1kHz، 16 bits، 2 channels) به شکل زیر محاسبه میشود[6].
اندازهي طول دادهي صدا PCM از طریق فرمول زیر محاسبه میشود (شامل هدر فایل و متادیتاي فایل) [6].
جهت محاسبهي اندازه بر حسب بایت لازم است تا اندازهي بدست آمده بر حسب بیت را بر هشت تقسیم کنید.
بنابراین، 80 دقیقه معادل 4800 ثانیه از دادهي CD-DA نیاز به ذخیرهي 846،720،000 داده دارد.
واسطهای صوتی جدید ممکن است با 96000 قطعه در ثانیه که هرکدام نزدیک به 17 میلیون سطح داده برای هر قطعه هستند ضبط شود. درنهایت اگر فکر میکنید این اعداد گفته شده باعث بوجود آمدن فایلی با اندازهاي بزرگ میشود درست است و به همین دلیل فرمتهای مختلف فشردهسازی رواج پیدا کرده و محبوبیت زیادی دارند. برای درک بهتر مفاهیم گفته شده و فضای مورد نیاز بر روی دیسک سخت به جدول (1) و (2) توجه فرمایید.
جدول (1): اندازهي فایلها برای Stereo Digital Audio[4]
3 Minute Song |
1 Minute Stereo |
Bit Rate |
Sample Rate |
Bit depth |
30.3 MB |
10.1 MB |
1.35 Mbit/sec |
44,100 |
16 |
33 MB |
11.0 MB |
1.46 Mbit/sec |
48,000 |
16 |
99 MB |
33.0 MB |
4.39 Mbit/sec |
96,000 |
24 |
2.82 MB |
0.94 MB |
0.13 Mbit/sec |
128 k/bit rate |
mp3 |
جدول (2): فضای هارد مورد نیاز برای سه دقیقه موسیقی Multi-track [4]
Songs per 200 GB Hard Disk |
Songs per 20 GB Hard Disk |
File Size per Song |
File Size per |
# of Mono Tracks |
Bit Depth / |
1640 |
164 |
121 MB |
15.1 MB |
8 |
16/44.1 |
1500 |
150 |
132 MB |
16.5 MB |
8 |
16/48 |
500 |
50 |
396 MB |
49.5 MB |
8 |
24/96 |
820 |
82 |
242MB |
15.1 MB |
16 |
16/44.1 |
740 |
74 |
264 MB |
16.5 MB |
16 |
16/48 |
240 |
24 |
792 MB |
49.5 MB |
16 |
24/96 |
نتایجی که میتوان از جدول بالا بدست آورد:
1- ضبط صدای با مشخصات 24/96 بازدهی در حدود وضوحی[19] 250 برابری 16/44.1 ارائه خواهد داد.
2- ضبط صدا با مشخصات 24/96 فضایی در حدود سه برابر 16/44.1 اشغال خواهد کرد.
در نهایت آیا نیاز است تا ضبط صدا را با عمق داده و نرخ نمونهبرداری بالا انجام دهیم؟
بهتر است که ابتدا تفاوت میان این صداها را بیشتر برایتان روشن کنیم. بطور قطع میتوان گفت که کسی نمیتواند مقدار بهتر بودن کیفیت صدای ضبطشده با 24/96 را مشخص کند، به این دلیل که یک فایل 24/96 در مقایسه با 16/44.1 حدود 250 برابر وضوح بیشتری ارائه میدهد اما کیفیت 250 برابر بهتر نشده حتی کیفیت به دو برابر بهتر هم نمیرسد.در حقیقت افراد عادی که در حوزهي موسیقی و صدا فعالیت ندارند این تفاوت را احساس نمیکنند [4]. اگر شما بتوانید تفاوت صدا بین فرمت فایل waveو MP3را تشخیص دهید مطمئناً تفاوت بین نرخ نمونهبرداریهای مختلف را هم درک خواهید کرد!! به عنوان مثال، تفاوت میان kHz22.0 و kHz44.1 در میان علاقهمندان به موسیقی بسیار واضح و مشخص است و یک گوش تمرین دادهشده و قوی تفاوت میان kHz32 و 44.1را هم خواهد فهمید، اما مقایسهي 44.1 kHzبا 96 kHzیک مورد رقمی یا تفکری ذهنی است تا درک واقعی از تفاوت ميان آنها.
7- کانال صدا[20]
گوش انسان صدا را به شکل استریو میشنود و مغز انسان با استفاده از تفاوتهای ریزی که در ورودی صدای چپ با راست وجود دارد میتوان محل انتشار صدا در محیط را تشخیص داد. برای اینکه در صدای دیجیتال نیز بتوانیم این امکان را داشته باشیم در هنگام ضبط و پخش به شکل استریو به دو کانال صدا احتیاج داریم [7].
نکته: تمام ضبطهای صدای استریو به دو کانال احتیاج دارند اما لزوماً تمام ضبطهايي كه با دو کانال انجام ميشوند استریو نیست. به عنوان مثال، زمانی که از میکروفون تک کپسوله برای ضبط بر روی دو کانال استفاده میکنید، نتیجهي نهایی استریو واقعی نیست بلکه مونوی دو کاناله[1] است. در حقیقت صدای ضبطشدهي تک کانالهای است که بر روی دو کانال کپی شده است [7].
8- اندازهي بلاک داده[22]
پخش کردن و ضبط کردن صوت در نرمافزارها بوسیلهي تعدادی بلاک که از دادهي صدا تشکیل شده انجام میشود. اندازهي بلاک صدا یک واحد اتمیک است. منظور از واحد اتمیک واحدی است که در وسط آن وقفهای[23] نمیتواند رخ دهد که در اینجا به بلاک دادهي صدا اطلاق میشود. برای فرمتهای پالس مدولاسیون کد (PCM)، محاسبهي اندازه بلاک بوسیلهي فرمول زیر انجام میشود.
· Block Alignment = Bytes per Sample x Number of Channels [2]
برای مثال، اندازهي بلاک داده برای فرمت 16 بیتPCM به صوت مونو برابر دو است. (دو بایت در هر نمونه × یک کانال). برای فرمت صوت استریو 16 بیت PCM، اندازهي بلاک داده برابر چهار خواهد بود [2].
دادهي نوشته شده و خواندهشده از یک دستگاه باید همیشه از اول بلاک شروع شود. به عنوان مثال، این درست نیست تا پخش داده PCM را از وسط یک نمونه شروع کنیم.