গুগল ডুপ্লেক্স

আমার একটা অনেক দিনের বদ অভ্যাস হচ্ছে - নিজ থেকে কাউকে ফোন না করা। বন্ধু-বান্ধবদের অনেকদিনের অনুযোগ, ফোন করিস না কেন? আত্মীয় স্বজন তো বলা ছেড়েই দিয়েছেন আমাকে। বউই ফোন করে সবসময়। মাঝেমধ্যে ব্যালেন্সও দেয়, ব্যাংকার বলে। এটা ঠিক, সিটি টাচ’ তার পছন্দের সার্ভিস। নিজের ব্যাংক বলে কথা। তবে, সেটা ব্যালেন্সের সমস্যা না। আসলে ফোন জিনিসটা আমার কাছে খুব একটা পছন্দের নয়, সামনাসামনি হলে কথা বলতে পারি। মানে বলি। ফোনে কেমন কেমন জানি লাগে। অনেকদিন ধরে ভাবছিলাম ফোনের এই কাজটা যদি কাউকে অথবা প্রসেস হিসেবে 'অফলোড' করে দেয়া যায়?

ওমা সেটাও দেখি করে ফেলেছে ‘গুগল ডুপ্লেক্স’। একদম মানুষের মতো ভুলভাল করে ‘হুম-হাম’ অ্যা, আঁ করে কথা বলছে সে। একদম মানুষকে ঘোল খাবানোর মতো করে কথা বলছে এই জিনিস। মনে হচ্ছে - আমার জীবন সহজ হয়ে এল বলে। হাজারো কাজের অ্যাপয়েন্টমেন্ট থেকে শুরু করে বিভিন্ন মানুষের সাথে কথাবার্তা ভাবছি দিয়ে দিব এই যন্ত্রের উপরে। কথা শেষে আমাকে রিপোর্ট দেবে কি কি কাজ উদ্ধার করেছে সে। আমার মনে হচ্ছে - জমি উদ্ধারের মতো কাজগুলো সে হয়তোবা পারবেনা। দেখা যাক কি হয়?

আচ্ছা, বাংলাদেশের মোবাইল ভয়েস মেইল সার্ভিস পপুলার হয়নি কেন? কারণ একটাই। কেউ যন্ত্রের সাথে কথা বলতে পছন্দ করে না। আরও কারণ আছে। বাংলাদেশএ কাজের সময় যে কেউ ফোন ধরতে পারে। কাজের জায়গাতেও একই অবস্থা। এটা অবশ্যই একটা 'কালচারাল' ইস্যু। তাই, ভয়েস মেইল সার্ভিস চালু করে দেবো এখন থেকে। আমি হয়তোবা কথা বলবো না, বলবে এই গুগল ডুপ্লেক্স। হয়তোবা মানুষ বুঝতেই পারবে না আমি যে কথা বলছি না। আমার কথা তো এমনিতেই ‘যান্ত্রিক’ মনে হয় - আর সেটা যেহেতু সবাই জানে আগে থেকে, আমার জন্যই ভালো। সেজন্য আমার খুব একটা সমস্যা হবে না। সবাই ভেবে নেবে যে আমিই কথা বলছি।

হাতে লেখা ছেড়ে দিয়েছি অনেক আগেই। গুগলের ‘স্পীচ টু টেক্সট এপিআই’ আসার পর সেটা আরও জোরদার হয়েছে। ‘স্পীচ টু টেক্সট সিনথেসিস’ গুগলের ‘ডিপ লার্নিং’ কিভাবে নতুন নতুন ধারণা দিচ্ছে সেটা যারা ব্যবহার করছে তারাই জানেন ভাল। আমি যখন শুধু ‘ক্রেডিট’ বলছি তখন সে ইংরেজিতে লিখে credit, তবে, যখন বলছি ‘কাজটার ক্রেডিটের জন্য,’ তখন সে ঠিক মতই লিখছে বাংলায়। ঠিক করে নিচ্ছে কিছুটা অংশ ‘ডিলিট’ করে। ভালো করে লক্ষ্য করলে দেখা যায় যে - আমরা যখন মুখে কথা বলছি তখন সে ‘অন দ্যা ফ্লাই’ অনেক কিছুই ‘ব্যাকস্পেস’ দিয়ে ‘ডিলিট’ করে লাইনটাকে ঠিকমতো করে নিয়ে আসছে যেভাবে দরকার আমাদের জন্য। মানুষের জন্য। এটা ঠিক যে, বাংলা বানান ভুল সে করছে কিছুটা, কারণ আমাদের বাংলায় যত কন্টেন্ট আছে ইন্টারনেটে, তার মধ্যে বানান ভুলের সংখ্যা নেহায়েত কম নয়। সেজন্য এই ডিপ লার্নিংএর ইঞ্জিনকে দোষারোপ করে লাভ নেই।

তো, গুগল ডুপ্লেক্স কী? একদম মানুষের মতো করে কথা বলতে পারে বিভিন্ন সার্ভিস প্রোভাইডারের সাথে এই জিনিস। মানুষ যখন কথা বলে তখন শুধু সে ভুলভালই বলেনা, একটা বাক্যের মধ্যে সে একই ‘ইনটেন্ট’ একবার ‘হ্যাঁ’ অথবা আরেকবার ‘না’ বলে। মানুষ হিসেবে বুঝতে পারি আসলে সে ‘হ্যাঁ’ অথবা ‘না’ বলেছে একদম কথার শেষে। এই ব্যাপারটা এখন যন্ত্র বোঝা শুরু করেছে। মানে লম্বা লম্বা বাক্য নিয়ে মানুষ যখন কথা বলে তখন বাক্য শেষ হওয়ার আগ পর্যন্ত বোঝা যায়না সে আসলে ‘হ্যাঁ’ নাকি ‘না’ বলেছে। বেশিরভাগ ধরি মাছ, না ছুঁই পানির মতো। সেটাও এখন বুঝতে পারছে এই গুগল ডুপ্লেক্স। উদাহরণ দেবো? নিচের কয়েকটা ফাইল দেখুন। সবগুলোতেই কল করেছে যন্ত্র। ফোনে। উত্তর দিচ্ছে প্রথমটায়, হেয়ার কাটিং সেলুনের এর একজন মানুষ। পরেরটায় যন্ত্র থেকে বুকিং নিচ্ছেন একজন জলজ্যান্ত মানুষ। আমাকে বলুন, এখানে কোনো ফাঁকফোকর পাচ্ছেন কিনা?

কয়েকটা উদাহরণ, সত্যিকারের - গুগল এআই ব্লগ থেকে। প্রতিটা কল শোনার পর ব্যাক বাটন চাপ দেবেন।

এরপর অনলাইন একটা সার্ভিস দিতে পারি বিভিন্ন বিজনেসদের জন্য। আমরা সবাই দাম নিয়ে মোচড়া মুচড়ি করতে পছন্দ করি। কেউ ফোন করে মোচড়া মুচড়ি, ঝাড়ি, আলতো চাপ প্রয়োগ - যা যা বাঙালি পছন্দ করে সব ধরণের কথার উত্তরে ‘মিষ্টি’ রেসপন্স দেবে ডুপ্লেক্স। মানে গ্রাহকের গর্জনে যন্ত্রকে ততোই নম্র স্বরে কথা বলতে হবে। সব উজাড় করে দেবে সে। যন্ত্রের তো ‘এথিক্স’ নিয়ে সমস্যা থাকার কথা না। (মজা করার জন্য বলছি)

আপনার গর্জন: আপনাদের জিনিস বাজে,আবার দাম বেশি। এই দামে কেউ কি কিনবে?

আমার ডুপ্লেক্স: দেখুন, অনলাইনের দাম ২০০ টাকা, তবে আপনাকে আমার পছন্দ হয়েছে। যদিও মালিক জানে না, আপনি চাইলে জিনিসটা ১৫০এ দিয়ে দেবো। (মিষ্টি মিষ্টি করে কথা বলবে ডুপ্লেক্স, বিশাল একটা ‘আরএন্ডডি’ থাকবে পেছনে, মানুষের ভয়েস নিয়ে, কে কি ভয়েস পছন্দ করে)

আপনি: আপনারা ব্যবসা করেন কি করে?

আমার ডুপ্লেক্স: আপনার দোহাই লাগে। আরেকটা সুযোগ দিন আমাদের। আচ্ছা, কোন রংটা পছন্দ আপনার? আমার ধারণা নীলটা।

Last updated