১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ

গুগল ফটোজ

Formal education will make you a living; self-education will make you a fortune.

– Jim Rohn

ছয় বছর আগের ঘটনা। বাসার গাড়িটা সমস্যা করছে বেশ কিছুদিন ধরে। সমস্যাটা একটা চাকায়। ঠিক করলাম – ফেলবো পাল্টে। ফোন দিলাম দোকানে। চাকার ক্যাটাগরি/পার্ট নম্বর জানতে চাইলেন উত্তরদাতা। ঠিকই তো। জানা উচিত ছিলো আমার। পড়লাম বিপদে। গাড়ি তো এখন বাইরে। না ফেরা পর্যন্ত গেলাম আটকে। আগের বারও দোকানদার জিজ্ঞেস করেছিলেন এই জিনিস। আবছা করে মনে আসছে কিছু সংখ্যা। তবে, বলতে পারছি না সেটা নিশ্চিত করে।

খুব ভুলোমন আমার। মনে রাখতে পারি না আগের মতো। স্বাতী’র ওপর দিয়ে যায় তখন। আজকেও ঘটেছে একটা জিনিস। জুমা’র নামাজে যাবার আগের মুহূর্ত। একটা বই পড়ছিলাম সকাল থেকে। তখন থেকেই ঘুরছিলো জিনিসটা মাথায়। পাঞ্জাবি পরার জন্য মাথা না ঢুকিয়ে প্রায় পা তুলে ফেলেছিলাম তখন। ভাগ্যিস কেউ বোঝেনি ব্যাপারটা।

ভুলোমনের জন্য সাহায্য নিতে হয় প্রযুক্তির। দরকারী কাগজ, বিল, ভিজিটিং কার্ড, কার্ড স্টেটমেন্ট – হেন জিনিস নেই যেটা যায় না গুগল ক্লাউডে। একটা নির্দিস্ট পিক্সেলের জন্য আনলিমিটেড স্টোরেজ, ভাবা যায়? মনে পড়লো আগের ঘটনা। গাড়ি চাকা পাল্টানোর সময় তুলে রেখেছিলাম ছবি। আগের চাকার। তাও আবার ওই সময়ের মোবাইলে। নাম দিয়ে তো সেভ করিনি জিনিসটা। তো – বের করবো কি করে?

চালু করলাম ‘ফটোজ’ অ্যাপ। গুগলের নেটিভ সার্ভিস। তখনি ছিলো লাখ খানিকের মতো ছবি। লিখলাম ‘কার টায়ার’। মুহূর্তেই চলে এলো ২০০৯য়ের তোলা দুটো ছবি। গাড়ির চাকার। একেবারে নম্বর সহ। সঙ্গে এলো আরো কয়েকটা ছবি। মনে পড়ল একটা তুষার ঝড়ের কথা। ওয়েস্ট কোস্টে থাকতে। গাড়ির চাকাতে লাগানো হচ্ছিলো স্নো চেইন। লাগাচ্ছিলো আমার বন্ধু। রাস্তাতে পিছলে যাবার ভয়ে। সেটার ছবি তুলেছিলাম ওই সময়ে। কোন জিনিস ভোলেনি গুগল।

চেষ্টা করতে পারেন আপনিও। চালু করুন ‘ফটোজ’ অ্যাপ। লিখুন ‘বার্থডে’। দেখুন, চলে এসেছে বাচ্চাদের নিয়ে সব ছবি। জন্মদিনগুলোর। পিক্সেলও বোঝে কোনটা কেক, কোনটা বেলুন। মোমবাতিসহ। জানে জিনিসগুলোর ‘আসপেক্ট রেশিও’। তাদের প্লেসমেন্ট। মজা আছে আরেকটু। সামনে ওই মোমবাতি গুনে আপনাকে জানাবে – কতো বয়সে পড়ল মেয়েটা আপনার। যারা বয়স মনে রাখতে পারে না তাদের জন্য এটা একটা লাইফসেভার! কেকের ওপর লেখাও মনে রাখছে সে। ওই ছবিতে থাকছেন কারা কারা? আর, কারা কারা থাকছেন প্রতিবছর? কেকটা কোন দোকানের, এবছর? আগের বছরগুলোতে? সেটাকে কাজে লাগাবে সামনে। আস্তে আস্তে। সত্যি!

ইমেজ প্রসেসিংয়ে কি তুলকালাম কান্ড ঘটছে সেটার কিছু ধারণা পাচ্ছেন সবাই ফেসবুকে। ছবি আলো আধারি – দাড়ি ছাড়া বা সহ, ক্যাপ সহ অথবা ছাড়া, সানগ্লাস সহ বা ছাড়া। কোনকিছুতেই চিনতে ভুল করছে না আপনাকে। এই ফেসবুক। এটা মাত্র ‘টিপ অফ দ্য আইসবার্গ’। তো পিচ্চি কালের ছবি? চিনবে তো? আপনার কি মনে হয়? মনে রাখবেন, ফেসবুক এমন কিছু করবে না যাতে ভয় পেয়ে যায় মানুষ।

গুগল বাংলা "টেক্সট টু স্পিচ" আর 'আই-ও -টি'

আমি গুগলের বাংলা কথা থেকে লেখা (স্পিচ টু টেক্সট) ব্যবহার করছি শুরু থেকেই। আপনাকে বোঝাতে পারবো না কিভাবে সে আমার চোখের সামনে অ্যাকুরেসি পাচ্ছে। এটা একটা বিশাল অভিজ্ঞতা - কালকে যেই বানানটা ঠিক করে দিলাম - সেটার পরিবর্তিত ইংরেজি থেকে বাংরেজি ঠিক হচ্ছে চোখের সামনে। দিন দিন আমার মনের ভাব বুঝছে। 'আমি ভাত খায়' হবে না - হবে 'খাই' - আমার চোখের সামনে অনেক অনেক বানান কনটেক্সট ঠিক হয়ে গেছে।

আমি বাংলা ইংরেজি মিশ্রিত পছন্দ করি না। machine learning লেখা হোক "মেশিন লার্নিং" হিসেবে - বা ভ্যারিয়েবল, --- তবে গুগল শিখছে আমি যেভাবে বলছি তাকে। সে এক অন্য অভিজ্ঞতা -- বেশি ডাটা মানে বেশি মিষ্টি।

পুরো বইটার প্রায় ৬০ শতাংশ লিখতে ব্যবহার করেছি বাংলা 'স্পিচ টু টেক্সট'। শুধু হাতে লিখলে হয়তোবা সময় লাগতো কম, তবে দেখতে চেয়েছি যন্ত্র শিখছে কিভাবে - আমার চোখের সামনে। সে এক বিশাল অভিজ্ঞতা। আমি এখন 'এক্সাক্টলি' জানি কি বললে গুগল 'এপিআই' কি লিখবে।

আমার বাসায় 'আই-ও-টি' ডিভাইস আছে ২০টার মতো। 'আই-ও-টি' মানে ইন্টারনেট অফ থিংস - যা নিজে থেকে ইনপুট নেয় ইন্টারনেট থেকে। আমার রুলসেটের ওপর চলে জিনিসগুলো। আমার একটা 'প্যাশন' হচ্ছে মানুষের কায়িক পরিশ্রমকে যন্ত্রকে পাঠানো। যন্ত্রকে কথার মাধ্যমে কাজ করাতে গেলে তাকে শেখাতে হবে 'ইনটেন্ট'। মানে আমি যা বলছি সেটার আউটকামটা সে কি বুঝেছে - সেটা বোঝাতে হবে আগে।

Last updated