স্পীচ রিকগনিশন

আমি ইদানিং যে বই লিখছি, সেগুলোর জন্য একটা বড় সময় সাহায্য নিচ্ছি গুগলের ভয়েস টু টেক্সট ‘এপিআই’ এর। মানে, আমি মুখে যা বলছি, সেটাই লেখা হচ্ছে আমার গিটহাবে। মোদ্দাকথা, সনাতন কী-বোর্ডের সাহায্য নিতে হচ্ছে না আর। কী-বোর্ডের জায়গা দখল করে নিয়েছে আমার মোবাইল ফোন। সত্যি বলতে, মোবাইল ফোনের কী-বোর্ড এর ইনপুট হিসেবে যাচ্ছে আমার গলা। প্রথম সমস্যা হতে পারে, পুরোপুরি প্রমিত বাংলা লাগছে এখানে। দ্বিতীয় সমস্যা: বাংলায় প্রচলিত ইংরেজি শব্দগুলো থাকছে ‘ইংরেজি’ হয়ে।

এটা ঠিক হয়ে যাবে সামনে। তবে সমস্যা গুলো এই মুহূর্তে মিটিয়ে নিচ্ছি নিজের মতো করে ‘ট্রেইন’ করিয়ে। যেমন, সরাসরি ‘keyboard’ বললে হয়তো সে লিখবে ইংরেজিতে, কিন্তু - আমি যদি একটু ঘুরিয়ে বলি ‘কীবোর্ডে’, তাহলে কিন্তু লিখছে বাংলায়। মানে হচ্ছে, কীবোর্ড ইংরেজিতে লিখলেও ‘কীবোর্ডে’ তো সে লিখতে পারছেনা ইংরেজিতে। আমার ভয়েস স্যাম্পল যখন ফোরিয়ার ট্রান্সফরমেশনে অ্যানালাইসিস হচ্ছে, তখন সে এটাকে ক্লাসিফাই করছে keyboard হিসেবে। ‘কীবোর্ডে’ চলে যাচ্ছে ‘কীবোর্ডে’ অংশে। শব্দটা ইংরেজি হতে পারে তবে ‘কীবোর্ডে’ বললে সেটা কিন্তু বাংলাতেই হওয়া চাই।

ধরুন, আমি শুধু বলেছি “সাধারণ”, তখন সে লিখবে “ণ” দিয়ে তবে - ‘সাধারণভাবে’ বললে সে হয়তোবা ‘ন’ দিয়ে লিখবে। এটা কেন করছে সে? এর অর্থ হচ্ছে আমাদের বাংলার ইন্টারনেট প্রেজেন্সে অনেক ভুল জিনিস প্রচলিত আছে। আর, সে কারণেই ভুল জিনিস বেশি প্রচলিত থাকলে সেটাও সে সঠিকভাবে ধরে নিচ্ছে। আমি যেহেতু ‘স্পীচ টু টেক্সট’ দিয়ে কিছুদিন কাজ করেছি, তখন বুঝলাম এটা আসলে খুব সাধারণ ‘মেশিন লার্নিং’ ধারণা দিয়ে সমাধান করা যাবে না।

এর জন্য প্রয়োজন প্রচুর ব্যবহারকারীর ডাটা, দরকার প্রচুর ভয়েস স্যাম্পল। এক সময়ে আমাদের প্রচুর ভয়েস মেইল স্যাম্পল দিয়েছি ডেভেলপারদের। আসল কথা হচ্ছে, আমরা একই জিনিস উচ্চারণ করি হাজার রকম ভাবে, হাজারো ‘ডায়ালেক্ট’ মিশিয়ে। এর মানে হচ্ছে যে যেভাবেই একটা শব্দ উচ্চারণ করুক না কেন সেটাকে টেক্সট হিসেবে ওইটাই লিখতে হবে। শুদ্ধভাবে। এটা একটা বড় ধরনের ক্লাসিফিকেশন সমস্যা। তবে সেটাকে সে ঠিকমতো করতে পারছে ডীপ লার্নিং দিয়ে। এটাতো গেল শুধু স্পীচ রিকগনিশন-এ।

বর্তমানে ‘মেশিন লার্নিং’এর একটা বড় অংশ চলে এসেছে ‘কম্পিউটার ভিশন’এ। ইংরেজিতে বলছি ‘সিভি’। মানে, কম্পিউটারকে দেখাতে হবে মানুষ আপনি যে ভাবে দেখছেন। ভেতরের কথা বললে কম্পিউটারকে দেখাতে হয় 0 আর 1 এর মধ্য দিয়ে। ওতো বিট ছাড়া চেনে না। আর সে কারণেই ‘মেশিন লার্নিং’এর আরেকটা সাবসেট ‘ডীপ লার্নিং’ চলে আসছে আমাদের সামনে। আপনার হাতের লেখা চেনা থেকে শুরু করে, একটা ছবি থেকে সেই মানুষটিকে ঠিকমতো শনাক্ত করতে পারা, ছবির ভিতরে কি কি জিনিস রয়েছে সেটাকে ঠিকমতো ‘লেবেল’ দেয়া, এই সবকিছুই চলে এসেছে ‘কম্পিউটার ভিশন’এ। সে এক বিস্ময়কর যাত্রা। আছেন তো সাথে?

Last updated