স্পীচ রিকগনিশন
আমি ইদানিং যে বই লিখছি, সেগুলোর জন্য একটা বড় সময় সাহায্য নিচ্ছি গুগলের ভয়েস টু টেক্সট ‘এপিআই’ এর। মানে, আমি মুখে যা বলছি, সেটাই লেখা হচ্ছে আমার গিটহাবে। মোদ্দাকথা, সনাতন কী-বোর্ডের সাহায্য নিতে হচ্ছে না আর। কী-বোর্ডের জায়গা দখল করে নিয়েছে আমার মোবাইল ফোন। সত্যি বলতে, মোবাইল ফোনের কী-বোর্ড এর ইনপুট হিসেবে যাচ্ছে আমার গলা। প্রথম সমস্যা হতে পারে, পুরোপুরি প্রমিত বাংলা লাগছে এখানে। দ্বিতীয় সমস্যা: বাংলায় প্রচলিত ইংরেজি শব্দগুলো থাকছে ‘ইংরেজি’ হয়ে।
এটা ঠিক হয়ে যাবে সামনে। তবে সমস্যা গুলো এই মুহূর্তে মিটিয়ে নিচ্ছি নিজের মতো করে ‘ট্রেইন’ করিয়ে। যেমন, সরাসরি ‘keyboard’ বললে হয়তো সে লিখবে ইংরেজিতে, কিন্তু - আমি যদি একটু ঘুরিয়ে বলি ‘কীবোর্ডে’, তাহলে কিন্তু লিখছে বাংলায়। মানে হচ্ছে, কীবোর্ড ইংরেজিতে লিখলেও ‘কীবোর্ডে’ তো সে লিখতে পারছেনা ইংরেজিতে। আমার ভয়েস স্যাম্পল যখন ফোরিয়ার ট্রান্সফরমেশনে অ্যানালাইসিস হচ্ছে, তখন সে এটাকে ক্লাসিফাই করছে keyboard হিসেবে। ‘কীবোর্ডে’ চলে যাচ্ছে ‘কীবোর্ডে’ অংশে। শব্দটা ইংরেজি হতে পারে তবে ‘কীবোর্ডে’ বললে সেটা কিন্তু বাংলাতেই হওয়া চাই।
ধরুন, আমি শুধু বলেছি “সাধারণ”, তখন সে লিখবে “ণ” দিয়ে তবে - ‘সাধারণভাবে’ বললে সে হয়তোবা ‘ন’ দিয়ে লিখবে। এটা কেন করছে সে? এর অর্থ হচ্ছে আমাদের বাংলার ইন্টারনেট প্রেজেন্সে অনেক ভুল জিনিস প্রচলিত আছে। আর, সে কারণেই ভুল জিনিস বেশি প্রচলিত থাকলে সেটাও সে সঠিকভাবে ধরে নিচ্ছে। আমি যেহেতু ‘স্পীচ টু টেক্সট’ দিয়ে কিছুদিন কাজ করেছি, তখন বুঝলাম এটা আসলে খুব সাধারণ ‘মেশিন লার্নিং’ ধারণা দিয়ে সমাধান করা যাবে না।
এর জন্য প্রয়োজন প্রচুর ব্যবহারকারীর ডাটা, দরকার প্রচুর ভয়েস স্যাম্পল। এক সময়ে আমাদের প্রচুর ভয়েস মেইল স্যাম্পল দিয়েছি ডেভেলপারদের। আসল কথা হচ্ছে, আমরা একই জিনিস উচ্চারণ করি হাজার রকম ভাবে, হাজারো ‘ডায়ালেক্ট’ মিশিয়ে। এর মানে হচ্ছে যে যেভাবেই একটা শব্দ উচ্চারণ করুক না কেন সেটাকে টেক্সট হিসেবে ওইটাই লিখতে হবে। শুদ্ধভাবে। এটা একটা বড় ধরনের ক্লাসিফিকেশন সমস্যা। তবে সেটাকে সে ঠিকমতো করতে পারছে ডীপ লার্নিং দিয়ে। এটাতো গেল শুধু স্পীচ রিকগনিশন-এ।
বর্তমানে ‘মেশিন লার্নিং’এর একটা বড় অংশ চলে এসেছে ‘কম্পিউটার ভিশন’এ। ইংরেজিতে বলছি ‘সিভি’। মানে, কম্পিউটারকে দেখাতে হবে মানুষ আপনি যে ভাবে দেখছেন। ভেতরের কথা বললে কম্পিউটারকে দেখাতে হয় 0 আর 1 এর মধ্য দিয়ে। ওতো বিট ছাড়া চেনে না। আর সে কারণেই ‘মেশিন লার্নিং’এর আরেকটা সাবসেট ‘ডীপ লার্নিং’ চলে আসছে আমাদের সামনে। আপনার হাতের লেখা চেনা থেকে শুরু করে, একটা ছবি থেকে সেই মানুষটিকে ঠিকমতো শনাক্ত করতে পারা, ছবির ভিতরে কি কি জিনিস রয়েছে সেটাকে ঠিকমতো ‘লেবেল’ দেয়া, এই সবকিছুই চলে এসেছে ‘কম্পিউটার ভিশন’এ। সে এক বিস্ময়কর যাত্রা। আছেন তো সাথে?
Last updated
Was this helpful?