مفاهیم پایه در صدای دیجیتال

سبد خرید خالي مي باشد

66553603-66508073 21 98+

(3 رای‌ها)

1- مقدمه

درصورتی‌که علاقه به کار در حوزه‌ی صدا دارید، لازم است تا در ابتدا با تعدادی از مفاهیم پایه‌ای در خصوص صدای دیجیتال آشنا شوید، در این گزارش به بررسی این مفاهیم خواهیم پرداخت:

صدا نوسان فشار هوا است. صدای دیجیتالی شده یک گراف از تغییرات فشار هوا در طول زمان است. برای اینکه بتوان این موضوع را بهتر درک کرد، با استفاده از sound Recorder در سیستم عامل ویندوز صدایی کوتاه ضبط کرده و به تغییر نوسان نوار سبز رنگ توجه کنید. وقتی که این نوار تا انتها پر می‌شود نشان دهنده‌ي زیاد بودن فشار هوا است که گوش‌ها قادر به شناسایی بلندی صدا خواهند بود و زمانی که این نوار در وسط و روبه پایین باشد، تغییری در فشار هوا ایجاد نشده است.

2- تبدیل صدای آنالوگ به دیجیتال

یکی از توابع اصلی موجود در کارت صدا[1] (واسط‌های صدا) تبدیل کردن فرمت آنالوگ به دیجیتال است. موج صدا دارای اطلاعاتي بی‌نهایتی از جمله گام‌ها[2]، حجم صدا[3] و مدت‌زمان پخش[4] است. کامپیوترها توانایی پردازش این اطلاعات بی‌نهایتی را ندارند، بنابراین سیگنال صدا باید قبل از اینکه از آن استفاده شود به فرمی که برای کامپیوتر قابل درک است تبدیل شود [3].

در شکل (1)به خوبی می‌توان این وضعیت را مشاهده نمود. شکل موج قرمز رنگ نشان‌دهنده‌ي موج صدایی است که توسط خواننده یا یک ابزار آکوستیکی تولید می‌شود. تغییرات تدریجی موج قرمز نمی‌تواند بوسیله‌ي کامپیوتر پردازش شود، بنابراین باید از تقریبی که توسط مستطیل‌های خاکستری ‌برای موج صدای قرمز در نظر گرفته می‌شود استفاده کرد.

شکل (1): شکل موجی که توسط کامپیوتر تخمین زده می‌شود[1].

این شکل نشان‌دهنده‌ي مفهوم واقعی از موج صدا است و نشان‌دهنده‌ي داده‌ي واقعی ضبط‌شده‌ي صدا نیست. در هنگام تبدیل کردن سیگنال از آنالوگ به دیجیتال[5] واسط صدا یا کارت صدا، بالا یا پایین بودن کیفیت صدا را با استفاده از نرخ نمونه‌برداری و کنترل فرمت نمونه‌برداری تشخیص می‌دهد. با بزرگ‌تر شدن مقدار داده‌ي صدا، کارت صدا بهتر می‌تواند سیگنال اصلی که از میکروفن دریافت می‌شود را تقريب بزند. در ادامه‌ي این گزارش مفاهیم نرخ نمونه‌برداری و فرمت نمونه‌برداری که اجزای اصلی در تشخیص کیفیت صدا هستند را توضیح خواهیم داد. به‌عنوان مثال، یک واسط صدا که در داخل مادربردهای امروزی تعبیه می‌شود ممکن است از انواع فرمت‌های نمونه‌برداری و نرخ‌های نمونه‌برداری (مانند 24/192) پشتیبانی کند اما دلیل بر خوب بودن نمی‌شود. در سطح حرفه‌ای، با اتصال FireWire به یک واسط صدا با فرمت نمونه‌برداری 16 بیتی و نرخ نمونه‌برداری 44.1 کیلوهرتزی که استاندارد است می‌توانيم صدای بهتری داشته باشیم [3].

3- نمونه‌برداری

زمانی که صدایی به وسیله‌ي میکروفن ضبط می‌شود، میکروفن نوسان فشار هوا را به نوسانات ولتاژ برق تبدیل می‌کند که کارت صدا هر از چندگاه (در بازه‌اي مشخص) آن را اندازه گرفته و به عدد تبدیل می‌کند این عمل با نام نمونه‌برداری[6] شناخته می‌شود. زمانی که صدایی (خواننده یا یک ابزار آکوستیکی) پخش می‌شود، پردازش بصورت معکوس عمل خواهد کرد، به این صورت که نوسان ولتاژ بجای میکروفن به پخش‌کننده‌ها (بلندگو)[7] می‌رود و توسط مخروط[8] بلندگوها به فشار هوا تبدیل شده که قابل شنیده شدن است.

نمونه‌برداری یکی از واحدهای مهم داده در صدا است. برای درک بهتر این مفهوم از مثال تصویر که محسوس‌تر است استفاده می‌کنیم، در سیستم‌های کامپیوتری داده‌های تصویر (مانند فیلم) به شکل سریالی از تصاویر ذخیره می‌‌شوندکه با نام فریم خوانده می‌شود و آن‌ها را یکی پس از دیگری نمایش می‌دهند و با نرخی از پیش تعیین‌شده به نام نرخ فریم می‌توان آن را تغییر داد. در سیستم‌های کامپیوتری داده‌ي صدا هم بصورت سریالی از صدا با نام sampleذخیره می‌شود و آن‌ها را یکی پس از دیگری با نرخی از پیش تعیین‌شده به نام نرخ نمونه‌برداری مي‌توان پخش كرد.

4- نرخ نمونه‌برداری

به سرعتی که صدا را از ولتاژها نمونه‌برداری می‌کند نرخ نمونه‌بردای[1] گفته می‌شود و با واحد کیلوهرتز kHz بیان می‌شود. یک کیلوهرتز شامل هزار نمونه در ثانیه است. نرخ نمونه‌برداری به تعداد نمونه‌های پخش‌شده در هر ثانیه گفته می‌شود. نرخ نمونه‌برداری که برروی CDهای صوتی استفاده می‌شود 44.1 یا 44100 است که هر دو دارای یک معنی هستند. نرخ‌های نمونه‌برداری معمولاً 44.1، 48 و 96 است. نرخ‌های نمونه‌برداری دیگری مانند 22 و 88.2 و 192 هم وجود دارندکه زیاد عمومی نیستند.

از آنجایی که بازه‌ي شنوایی انسانبین 20 تا Hz 20000 است بنابراین زمانی که در حال ضبط موسیقی یا موارد آکوستیکی هستیم، بهترین نرخ نمونه‌برداری موج صوت 44.1CD، 48، 88.2 یا 96 kHz خواهد بود. بطور تقریبی می‌توان گفت که نرخی دو برابر از نتیجه‌ي قضیه نایکوئیست[2] مورد احتیاج است. توجه به این نکته لازم است که نمونه‌برداری با نرخی بیش از 50 یا 60 kHzنمی‌تواند حامل اطلاعات مفیدی برای شنونده‌ي انسانی باشد. به همین دلیل تولیدکنندگان حرفه‌ای تجهیزات صوتی از نرخی در محدوده‌ي 50kHzاستفاده می‌کنند [5].

5- فرمت نمونه‌برداری

فرمت نمونه‌برداری یا عمق بیت یا بیت در هر نمونه[11] به تعداد بیت‌های استفاده شده جهت توضیح هر نمونه[12] گفته می‌شود. با بزرگ‌تر شدن تعداد بیت‌ها، داده‌ي بیشتری در هر نمونه ذخیره خواهد شد. فرمت نمونه‌برداری معمولاً 16 بیت و 24 بیت است. نمونه‌هاي 8 بیتی کیفیت بسیار پایین دارند و معمولاً در مودم‌[13]ها استفاده می‌شدند، نمونه‌های 32 بیتی هم موجود هستند اما در بیشتر واسط‌های صوتی پشتیبانی نمی‌شوند [4].

در صداي 16 بیتی، 65,536 ( ) سطح داده وجود دارد و با بزرگ‌تر شدن اندازه‌ي بيت، تعداد سطح‌ها (انرژی) با مضرب دو بزرگ‌تر می‌شوند. زمانی که به 24 بیت می‌رسیم، دارای 16,777,216 ( ) سطح داده هستیم.

توجه به این نکته مهم است که در صدا (صوت)[14] هیچ چیزی بطور مستقیم درباره‌ی فرکانس صدا، گام[15] و درکی از بلندی صدا[16] ذخیره نمی‌شود. البته می‌توان با اجرا کردن الگوریتم‌های مشخصی بر روی این نمونه‌ها این مقادیر را تا حدودی تعیین کرد اما این موارد قابل خواندن از روی فایل نیست [3].

CD-DA استاندارد صدای CD است که دارای نرخ داده‌ای 16 بیتی با فرکانس 44.1 کیلوهرتز است، به این معنی که داده‌ي صدا در هر ثانیه شامل 44100 نمونه با عمق بیت 16 است، به عبارت دیگر دارای 44100 قطعه است و هرکدام دارای 65,536 سطح داده هستند. CD-DA همچنین بصورت استریو[17] است و از کانال‌های چپ و راست استفاده می‌کند، بنابراین مقدار داده‌ي صدا در هر ثانیه دو برابر مونو[18] و جایی که از صدای تک کاناله استفاده می‌شود است.

6- نرخ بیت

نرخ بیت به تعداد بیت‌ها یا مقدار داده‌ای برمی‌گردد که در یک بازه‌ي زمانی مشخصی پردازش می‌شود و در حوزه‌ي صدا با واحد کیلوبیت در هر ثانیه (یا kb/s kbps)اندازه‌گیری می‌شود. به‌عنوان مثال، به موسیقی که گوش می‌دهید دارای 256 کیلوبیت در ثانیه باشد، به این مفهوم است که در هر ثانیه از موسیقی 256 کیلوبیت داده ذخیره‌شده است. برای اینکه بتوانیم یک فایل را انتقال دهیم به نرخ بیت که بیان‌کننده‌ي مقدار داده‌ي مورد نیاز در هر ثانیه است نیاز داریم.

نحوه‌ي محاسبه‌ي نرخ بیت هم برابر است با ضرب نرخ نمونه‌برداری در فرمت نمونه‌برداری در تعداد کانال‌ها. به عنوان مثال، نرخ بیت CD های صوتی (705.6 kb/s) در حالت تک کاناله است که حاصل ضرب نرخ نمونه‌برداری (44.1 kHz) ‌در فرمت نمونه‌برداری (16 بیت) است. به عنوان مثال فرمت فایل mp3 هم بطور معمول با نرخ بیت kb/s128فشرده می‌شود. (کد می‌شود)

با بالا رفتن میزان نرخ بيت یک فایل صدا، فضای بیشتری از کامپیوتر اشغال می‌شود، به همین دلیل انواع فرمت‌های فشرده‌سازی ارائه شده است تا بتوان تعداد فایل‌های بیشتری در فضایی که در اختیار داریم ذخیره کنیم. این الگوریتم‌های فشرده‌سازی به دو دسته‌ي lossy‌ (با از دست رفتن مقداری از داده‌ها) و lossless (با حفظ تمامی داده‌ها) تقسیم می‌شود [4].

نرخ بیت داده‌ي صوت PCM از طریق فرمول زیر محاسبه می‌شود [6].

به عنوان مثال، نرخ بیت ضبط‌شده‌ي CD-DA (44.1kHz، 16 bits، 2 channels) به شکل زیر محاسبه می‌شود[6].

اندازه‌ي طول داده‌ي صدا PCM از طریق فرمول زیر محاسبه می‌شود (شامل هدر فایل و متادیتاي فایل) [6].

جهت محاسبه‌ي اندازه بر حسب بایت لازم است تا اندازه‌ي بدست آمده بر حسب بیت را بر هشت تقسیم کنید.

بنابراین، 80 دقیقه معادل 4800 ثانیه از داده‌ي CD-DA نیاز به ذخیره‌ي 846،720،000 داده دارد.

واسط‌های صوتی جدید ممکن است با 96000 قطعه در ثانیه که هرکدام نزدیک به 17 میلیون سطح داده برای هر قطعه هستند ضبط شود. درنهایت اگر فکر می‌کنید این اعداد گفته شده باعث بوجود آمدن فایلی با اندازه‌اي بزرگ می‌شود درست است و به همین دلیل فرمت‌های مختلف فشرده‌سازی رواج پیدا کرده و محبوبیت زیادی دارند. برای درک بهتر مفاهیم گفته شده و فضای مورد نیاز بر روی دیسک سخت به جدول (1) و (2) توجه فرمایید.

جدول (1): اندازه‌ي فایل‌ها برای Stereo Digital Audio[4]

3 Minute Song	1 Minute Stereo	Bit Rate	Sample Rate	Bit depth
30.3 MB	10.1 MB	1.35 Mbit/sec	44,100	16
33 MB	11.0 MB	1.46 Mbit/sec	48,000	16
99 MB	33.0 MB	4.39 Mbit/sec	96,000	24
2.82 MB	0.94 MB	0.13 Mbit/sec	128 k/bit rate	mp3

جدول (2): فضای هارد مورد نیاز برای سه دقیقه موسیقی Multi-track [4]

Songs per 200 GB Hard Disk	Songs per 20 GB Hard Disk	File Size per Song	File Size per Mono Track	# of Mono Tracks	Bit Depth / Sample Rate
1640	164	121 MB	15.1 MB	8	16/44.1
1500	150	132 MB	16.5 MB	8	16/48
500	50	396 MB	49.5 MB	8	24/96
820	82	242MB	15.1 MB	16	16/44.1
740	74	264 MB	16.5 MB	16	16/48
240	24	792 MB	49.5 MB	16	24/96

نتایجی که می‌توان از جدول بالا بدست آورد:

1- ضبط صدای با مشخصات 24/96 بازدهی در حدود وضوحی[19] 250 برابری 16/44.1 ارائه خواهد داد.

2- ضبط صدا با مشخصات 24/96 فضایی در حدود سه برابر 16/44.1 اشغال خواهد کرد.

در نهایت آیا نیاز است تا ضبط صدا را با عمق داده و نرخ نمونه‌برداری بالا انجام دهیم؟

بهتر است که ابتدا تفاوت میان این صداها را بیشتر برایتان روشن کنیم. بطور قطع می‌توان گفت که کسی نمی‌تواند مقدار بهتر بودن کیفیت صدای ضبط‌شده با 24/96 را مشخص کند، به این دلیل که یک فایل 24/96 در مقایسه با 16/44.1 حدود 250 برابر وضوح بیشتری ارائه می‌دهد اما کیفیت 250 برابر بهتر نشده حتی کیفیت به دو برابر بهتر هم نمی‌رسد.در حقیقت افراد عادی که در حوزه‌ي موسیقی و صدا فعالیت ندارند این تفاوت را احساس نمی‌کنند [4]. اگر شما بتوانید تفاوت صدا بین فرمت فایل waveو MP3را تشخیص دهید مطمئناً تفاوت بین نرخ نمونه‌برداری‌های مختلف را هم درک خواهید کرد!! به عنوان مثال، تفاوت میان kHz22.0 و kHz44.1 در میان علاقه‌مندان به موسیقی بسیار واضح و مشخص است و یک گوش تمرین داده‌شده و قوی تفاوت میان kHz32 و 44.1را هم خواهد فهمید، اما مقایسه‌ي 44.1 kHzبا 96 kHzیک مورد رقمی یا تفکری ذهنی است تا درک واقعی از تفاوت ميان آنها.

7- کانال صدا[20]

گوش انسان صدا را به شکل استریو می‌شنود و مغز انسان با استفاده از تفاوت‌های ریزی که در ورودی صدای چپ با راست وجود دارد می‌توان محل انتشار صدا در محیط را تشخیص داد. برای اینکه در صدای دیجیتال نیز بتوانیم این امکان را داشته باشیم در هنگام ضبط و پخش به شکل استریو به دو کانال صدا احتیاج داریم [7].

نکته: تمام ضبط‌های صدای استریو به دو کانال احتیاج دارند اما لزوماً تمام ضبط‌هايي كه با دو کانال انجام مي‌شوند استریو نیست. به عنوان مثال، زمانی که از میکروفون تک کپسوله برای ضبط بر روی دو کانال استفاده می‌کنید، نتیجه‌ي نهایی استریو واقعی نیست بلکه مونوی دو کاناله[1] است. در حقیقت صدای ضبط‌شده‌ي تک کاناله‌ای است که بر روی دو کانال کپی شده است [7].

8- اندازه‌ي بلاک داده[22]

پخش کردن و ضبط کردن صوت در نرم‌افزارها بوسیله‌ي تعدادی بلاک که از داده‌ي صدا تشکیل شده انجام می‌شود. اندازه‌ي بلاک صدا یک واحد اتمیک است. منظور از واحد اتمیک واحدی است که در وسط آن وقفه‌ای[23] نمی‌تواند رخ دهد که در اینجا به بلاک داده‌ي صدا اطلاق می‌شود. برای فرمت‌های پالس مدولاسیون کد (PCM)، محاسبه‌ي اندازه بلاک بوسیله‌ي فرمول زیر انجام می‌شود.

· Block Alignment = Bytes per Sample x Number of Channels [2]

برای مثال، اندازه‌ي بلاک داده برای فرمت 16 بیتPCM به صوت مونو برابر دو است. (دو بایت در هر نمونه × یک کانال). برای فرمت صوت استریو 16 بیت PCM، اندازه‌ي بلاک داده برابر چهار خواهد بود [2].

داده‌ي نوشته شده و خوانده‌شده از یک دستگاه باید همیشه از اول بلاک شروع شود. به عنوان مثال، این درست نیست تا پخش داده PCM را از وسط یک نمونه شروع کنیم.

آخرین‌ها از Super User

آرشیو پشتیبان تبدیل نرخ نمونه برداري صدا (Sampling Rate conversion)