এমপি-থ্রী ফাইল ফরম্যাট

If real is what you can feel, smell, taste and see, then ‘real’ is simply electrical signals interpreted by your brain … Morpheus

আমাদের কাছে আছে হাজারো গান। সেগুলো রাখতে স্টোরেজ কোথায়? সে এক বিশাল সমস্যা। এই সমস্যা থেকে বাঁচাতে এলো ‘এমপেগ অডিও লেয়ার-৩’ নামের একটা প্রযুক্তি। এটা এতোটাই দক্ষ, সিডি কোয়ালিটির একটা গানকে ‘এনকোড’ করতে পারে তার ১০ থেকে ২০ গুন কম সাইজে। ফলে, পঞ্চাশ মেগাবাইটের একটা গান নেমে এলো তিন মেগাবাইটে। অবিশ্বাস্য। উদাহরন দেই একটা। যেখানে সিডিতে একটা গান বাজাতে ট্রান্সফার রেট লাগছে ১৪১২ কিলোবিট প্রতি সেকেন্ডে; সেখানে একটা এমপিথ্রি অনায়াসে বড় ধরনের কোয়ালিটির কম্প্রোমাইজ না করেই সেটা করে দিচ্ছে ১২৮ কিলোবিটে। আসলের ১/১১ তম ভগ্নাংশে। অংকে আসলের ৯% অথবা ৯১% কম্প্রেশনে।

শুরুতে মানুষের কানের কিছু দুর্বলতার সুযোগ নেয়া এই প্রযুক্তি হাত দিয়েছে অনেক জায়গায়। আমরা যেকোন শব্দ কিভাবে শুনি সেটা অনেকটাই নির্ভর করে আমাদের মাথা কিভাবে নেয় সেটার ওপর। কমিউনিকেশন ইঞ্জিনিয়ার হিসেবে এই ‘শব্দের ওয়েভফর্ম’ কিভাবে নেয় আমাদের কান - সেটার বাইরে কিন্তু এই স্টাডি। বিভিন্ন শব্দের ওপর মানুষের ‘পারসেপশন’ কিভাবে কাজ করে সেটার আরেকটা জগত হচ্ছে ‘সাইকো-অ্যাকুস্টিকস’। পড়েছিলাম কোথায় যেন, মানুষ সেটাই শোনে যেটা সে শুনতে চায়। একদম সত্যি। কোনটার পর কি শুনলে মানুষ সেটাকে কিভাবে নেয় সেটাকেও নেয়া হয়েছে এই ‘সাইকো-অ্যাকুস্টিকসে’।

হিয়ারিং রেঞ্জের ভেতরে কান সবচেয়ে ভালো ধরতে পারে ২ থেকে ৫ কিলোহার্টজের রেঞ্জ। বাসার রেডিওর ফ্রিকোয়েন্সি শিফটিংয়ের মতো আমাদের কান ধরতে পারে ২ হার্টজের আপ ডাউন। অনেক ভালো কিন্তু। এদিকে বয়সের সাথে সাথে আমাদের শোনার রেঞ্জ কমে আসে ১৬ কিলোহার্টজের দিকে। আর আমাদের কান (অডিটরি নার্ভ) যা শোনে সেটার এনালাইসিস আর ফিল্টারিং করেই শোনে মাথা। মানে আমাদের ‘অডিটরি নার্ভ’ যা পাঠায় সেটাই কিন্তু নেয় না মাথা। এই মানুষই বের করেছে পরে অনেকগুলো ইফেক্টের হিসেব। সৃষ্টিকর্তা চেয়েছেন মানুষকে। ‘এক্সপ্লোর’ করতে তার সৃষ্টিকে।

ধরুন শুনছেন গান হেডফোনে। শব্দের সোর্স একটাই। আমাদের মোবাইল। এমন একটা ‘টুইক’ করলাম যাতে গানের শব্দ বাম কান থেকে ডান কানে পৌঁছে ৫ মিলিসেকেন্ড পরে। বিভ্রম তৈরী হয় মনে। স্পেশালিস্টরা বলেন, শব্দের ‘থ্রীডি’ গভীরতা আসে ওতে। সেটারও সুযোগ নেয় আমাদের এই কম্প্রেশন। দুটো সাউন্ড সিগনেচার আলাদা করে স্টোর না করে একটাকে করলেই চলে এখানে।

আবার ধরুন, গেলাম একটা কনসার্টে। আমরা দুজন মিলে। যার যা কাজ সেটাই তো চোখে পড়বে বেশি, তাই না? সাউন্ড সিস্টেমে চোখ পড়লো সবার আগে।মনোযোগ সরাতে কিনে দিলেন আইসক্রিম। এই আমাকে। কোথায় কি, ঠিকই খুঁজে বের করলাম স্পিকারগুলোকে। খালি চোখে। পুরো স্টেডিয়ামকে ঘিরে রয়েছে সেগুলো। পেছনে, সামনে, ডানে, বামে। কনসার্ট শুরু হতেই প্রশ্ন জাগলো মনে। মন বলছে সব গান আসছে সামনের স্টেজ থেকে। তাহলে স্পিকার কেন রাখলো ডানে - বামে আর পেছনে?

আসলে শব্দ আসছে সবদিক থেকেই। তবে সেটাকে ‘দেখাতে হবে’ সামনে থেকে। আমাদের গায়ক ‘ডেভিড গিলমোর’ যখন স্টেজে, শব্দ আসাটা দেখাতে হবে সামনে থেকেই। এই ইফেক্টের নাম হচ্ছে ’প্রিসিডেন্স ইফেক্ট’। ব্যাপারটা ধরেছিলেন ‘হেলমুট হ্যাস’ নামের এক ভদ্রলোক। ১৯৪৯ সালে। অনেকে ‘হ্যাস’ ইফেক্ট বলেন এটাকে।

উনি বের করেছিলেন আমাদের কান দুটো একই শব্দ যদি (ক) ৩৫ মিলিসেকেন্ডের মধ্যে আর (খ) সেটার ফারাক লেভেল ১০ ডিবির কাছাকাছি হলে ওই শব্দদুটোকে এক শব্দ বলে ধরে নেবে আমাদের বিজ্ঞ মাথা। কান শুনবে শব্দ দুটোই, মাথা শোনাবে একটাই। এই আমাদেরকে। শব্দ দুটোর মধ্যে যেটা হয়েছে আগে ওর ডাইরেকশনটাই ঠিক ধরে নেবে মাথা। আমাদের মাথার লজিক হচ্ছে, পৃথিবীতে প্রতিটা শব্দের রিফ্লেকশন হয় অল্প বেশি। এখন আসল শব্দ এলো সামনে থেকে আর তার রিফ্লেকশন এলো ধরুন, ডান দিক থেকে। পাগল হয়ে যাবে মাথা। প্রতিটা শব্দে। আর তার রিফ্লেকশনে। আর তাই ওই মিলিসেকেন্ডের আর ডিবির ফারাককে একটা ‘থ্রেশহোল্ড’ ধরে শব্দের আসল নিশানা বের করে মাথা। খারাপ নয় বুদ্ধিটা। সেই বুদ্ধিকে ফাঁকি দিয়ে মানুষ তৈরি করে ইফেক্ট। মানুষই জানে কিভাবে ফাঁকি দিতে হয় নিজের মাথাকে। এধরণের অনেক ইফেক্ট আছে এই ‘সাইকো-অ্যাকুস্টিকস’ নিয়ে।

মনে আছে এমপি-থ্রি’র কথা? এমপি-থ্রি আর ‘সাইকো-অ্যাকুস্টিকসে’র গল্প? পঞ্চাশ মেগাবাইটের গানকে কিভাবে এই মানুষই নিয়ে এনেছে তিন মেগাবাইটের স্টোরেজে? কায়দা করে ফাঁকি দিয়ে। আমাদের এই মাথাকে। কান কি শোনে সেটা নয়, মাথা যেটা বলে সেটাই শুনি আমরা। মজার না? বলবো আরেকটু?

গান থেকে খালি চোখে যতটুকু ফেললে ‘সাধারণ’ কান ধরতে পারবে না সেগুলো ফেলতে ওস্তাদ আমাদের এমপি-থ্রি এনকোডার। ভুল বুঝবেন না, ‘সাধারণ’ আমরা যারা গান শুনি ‘স্টক’ হেডফোনে। অথবা সাধারণ অডিও সিস্টেমে, তারা কেউ ক্রিটিক্যাল লিসেনার নয়। মানে, আছি বসে। শোনার জন্য শোনা। তাদের জন্য এই এমপি-থ্রি ‘গডসেন্ড’। এক মোবাইলেই এঁটে যায় হাজার গান। এর এনকোডার পুরো গানের ‘স্পেকট্রাল এনালাইসিস’ করে বের করে কি ধরনের ফ্রিকোয়েন্সি আছে এতে। ওই ডাটা বের করে মেলানো হয় আমাদের ওই ‘সাইকো-অ্যাকুস্টিকস’ মডেলের কয়েকটা টেবিলে। ‘এনালাইজ’ করে কোন শব্দগুলো ফেললে রা করবে না মাথা, সেগুলো ফেলে দেয়া হয় টুপুস করে। গানে অনেক কিছু থাকে শব্দ হিসেবে - যেগুলো বাজাতে পারে না সাধারণ সিস্টেম। অথবা যারা আমরা শুনি মোবাইলের সাথে দেয়া ‘ফ্রি’ হেডফোনে। সেগুলো তো ফেলা হয় আগেই। ‘ক্রিটিকাল লিসেনিং’য়ে ধরা পড়বে না, এধরনেরও ফ্রিকোয়েন্সি ফেলতে ওস্তাদ আমাদের এই এনকোডার। ফলে সাইজ কমে আসে দশের একভাগে।

ধরুন, আমার সামনে লাইনে দাঁড়িয়ে আছে ছয় ফুটের দশাসই এক মানুষ। তার ঠিক পেছনে আমি। পাঁচ ফুট আট। আপনি তার সামনে থাকলে আমাকে দেখার সম্ভাবনা নেই বললেই চলে। আমি কমিউনিকেশনের মানুষ। ওখান থেকেই উদাহরন দেয়াটা সহজ। ধরুন, লাইসেন্সের বাইরে ট্রান্সমিশন হচ্ছে একটা। যে ফ্রিকোয়েন্সিতে ট্রান্সমিশন হচ্ছে সেটার আউটপুট পাঁচ ওয়াট। ওই অবৈধ ফ্রিকোয়েন্সি ধরার যন্ত্রের ‘লাইন অফ সাইটে’র ঠিক সামনেই পড়ে গেলো বৈধ আরেকটা ট্রান্সমিশন, একই ফ্রিকোয়েন্সিতে। এর পাওয়ার আউটপুট সাত। পারবো কি ধরতে ওই অবৈধ ট্রান্সমিশন? কি মনে হয় আপনার? না।

শব্দের কাহিনী একই ধাঁচের। কাছাকাছি অনেকটাই। অনেক গানেই আমরা শুনতে পাই গায়ক/গায়িকার শ্বাস নেবার শব্দ। ভুল বললাম কি? অথবা, গিটারে আঙ্গুল পিছলে যাবার শব্দ। তবে সেটা ‘কম’ ইনস্ট্রুমেন্ট ব্যবহার করা গানে। আর ‘হাউলি-কাউলি’ গানে চিন্তা করতে পারেন সেটা? কি বলেন? মানে হচ্ছে, দুটো শব্দকে পাশাপাশি রাখলে শুনতে পাবো বড়টাই। তো ‘এমপিথ্রি এনকোডার’ করবে কি? টুপ ফেলে দেবে ছোট শব্দটার ইনফরমেশন। পুরোটাই। কেন নয়? যেটা শুনতে পায় না মাথা, রেখেই বা কি লাভ? যারা অডিও নিয়ে থাকেন পড়ে, তাদের কথা আলাদা। তারা কিন্তু বুঝতে পারেন এই ‘সাটল’ পার্থক্যটা। দুনিয়া ভরা আমাদের মতো ‘সাধারণ’ মানুষে। সেই সুযোগটা নেয় আমাদের বুদ্ধিমান ‘এমপিথ্রি এনকোডার’। ‘সাইকো-অ্যাকুস্টিকসে’র ভাষায় এটা ‘সিমুলটেনাস মাস্কিং’। একটা ঢেকে ফেলছে আরেকটাকে। একসাথে। তাই বাদ দেয়া। ফলে বেচেঁ যায় অনেক স্পেস।

ঠিক ধরেছেন। ‘মাস্কিং’ নামটা এসেছে কিন্তু ওই ঢেকে দেয়া থেকে। বড় শব্দটা ঢেকে ফেলছে ছোটটাকে। আরেকটা জিনিস হয় এখানে। আগেও বলেছিলাম ব্যাপারটা। প্রতিটা শব্দের পর তার ‘ইকো’ আসল শব্দটাকে নষ্ট করে বেশিরভাগ সময়ে। আর তাই আমাদের মাথা ফিল্টার করে ফেলে দেয় খুব কাছাকাছি একই ধরনের শব্দগুলো। সত্যি কিন্তু। বিশ্বাস হচ্ছে না?

ধরুন, কাছাকাছি দুটো শব্দের প্রোফাইল পাওয়া গেল ১০০ আর ১১০ হার্টজে। দুটোর ভলিউমেও আছে ফারাক। আলাদা করে দুটোকে ‘প্লে’ করলে শোনাবে দুটোকেই। পরিস্কার ভাবেই। তবে দুটোকে একসাথে বাজালে আমাদের ‘মাথা’ ফেলে দেবে পরেরটাকে। আগের নিয়মে। কান শুনেছে কিন্তু দুটোকেই। ‘ডিস্টরশন’ এড়াতেই এ ব্যবস্থা। মাথা বলে কথা। বুদ্ধি রাখে মানুষও। ওই সাউন্ড প্রোফাইল ধুপ ফেলে দেয় আমাদের ‘এমপিথ্রি এনকোডার’। কারণ ওইটাও বানিয়েছে মানুষ। না শোনা গেলে লাভ কি রেখে? সিস্টেম করে অনেক বাইট ফেলে দেবার এই ব্যাপারটার নাম ‘টেম্পোরাল মাস্কিং’।

আরেকটা বড় কাহিনী আছে এই ‘বাইট’খেকো এনকোডারের। ‘বাইট’খেকো? হ্যা। মানে ও বসেই থাকে কিভাবে ফেলে দেবে বাড়তি ইনফরমেশন। ভালো করে লক্ষ্য করলেই দেখবেন একটা গানের লেফট আর রাইট চ্যানেল অনেকটাই একরকম। দুই চ্যানেলের মধ্যে ‘কমন’ শব্দের সিগনেচারগুলো বুঝতে পারলে তো কেল্লা ফতে। সাধারণ ‘ষ্টিরিও’ অডিও ফাইলে ‘কমন’ শব্দগুলো লেখা হয় দুবার। আলাদা করে। এতে ফাইল সাইজ যায় বেড়ে। আমাদের এনকোডারের ‘জয়েন্ট ষ্টিরিও’ মোড এনালাইসিস করে নেয় আগে। কতটুকু অংশ ‘ডুপ্লিকেট’ এখানে। মানে, চ্যানেল দুটোতে। আলাদা করে। ‘কমন’ অংশগুলোকে তখন রেকর্ড করা হয় একবারই। সেকারণে ওই অংশগুলো ‘মনো’।

ভালো কথা। কেন মনো? এখানেও চলে এসেছে ‘সাইকো-অ্যাকুস্টিকস’ মডেল। দেখা গেছে মানুষ তার শোনার রেঞ্জে পারেনা দুটো জিনিস। খুঁজে পায়না ওপরের আর নিচের ফ্রিকোয়েন্সিগুলোর আসার ‘ডাইরেকশন’। ভুল বললাম? টেস্ট করা যাক। যে কোন গানের ‘বাস’ সিগনেচার শুনে মনে হয় জিনিষটা আসছে সব দিক থেকে। আর সেকারণেই মিউজিক সিস্টেমে ‘সাব-উফার’ থাকে একটা। আর সেটার প্লেসমেন্ট অতোটা জরুরি নয় বাকি স্পিকারগুলোর মতো। আর সেকারণে ‘বাস’ ‘ট্রেবল’কে ফেলে দেয়া হয় মনোতে। মানুষ যখন বুঝতেই পারে না শব্দগুলো আসছে কোন দিক থেকে, সেখানে স্টোরেজ কেনই বা নষ্ট করা। কি বলেন?

অনেক গল্প হলো এমপি-থ্রি নিয়ে। এর কিছুটা দরকার ছিল ‘হাই-রেজোল্যুশন’ অডিওর সাথে এর ফারাক বোঝানোর ক্ষেত্রে। একটা একশো হলে আরেকটা চল্লিশ। ষাট শতাংশই পাচ্ছি না শুনতে। তবে, একটা জিনিস না বললেই নয়। আমাদের নব্বইয়ের দিকে এই এমপি-থ্রিই ছিলো গডসেন্ড। নোবেল পাওয়ার মতো প্রযুক্তি। ওই সময়ে কচ্ছপ গতির ডায়াল-আপ ইন্টারনেটের ওপর দিয়ে সেরা সেরা গান ঘুরে বেড়িয়েছে পুরো পৃথিবী। আপনার হার্ডড্রাইভ থেকে বন্ধুদের হার্ডড্রাইভে। ওই গানগুলোর কোন লিমিটেশন চোখে পড়েনি আমাদের কাছে। সেটাই স্বাভাবিক। আমাদের পার্সোনাল অডিও ছিলো ওয়াকম্যান। সেটার যন্ত্রের নয়েজই ছিলো গানের কাছাকাছি। হেডফোন নিয়ে আর নাই বা বললাম। সময়ের সাথে সাথে প্রযুক্তি পার্সোনাল অডিওকে নিয়ে গেছে শিল্পের পর্যায়ে। যন্ত্রগুলো এতোই দক্ষ, তাদের স্পেকসীট (স্পেসিফিকেশন) পড়লে মনে হয় পড়ছি রকেটের স্পেকসীট। আসলেই তাই। অনেক অনেক ডিটেলস। গায়ের রোম দাড়িয়ে যাবার মতো ডিটেলস।

Last updated