# ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ

## গুগল ফটোজ

> Formal education will make you a living; self-education will make you a fortune.
>
> – Jim Rohn

ছয় বছর আগের ঘটনা। বাসার গাড়িটা সমস্যা করছে বেশ কিছুদিন ধরে। সমস্যাটা একটা চাকায়। ঠিক করলাম – ফেলবো পাল্টে। ফোন দিলাম দোকানে। চাকার ক্যাটাগরি/পার্ট নম্বর জানতে চাইলেন উত্তরদাতা। ঠিকই তো। জানা উচিত ছিলো আমার। পড়লাম বিপদে। গাড়ি তো এখন বাইরে। না ফেরা পর্যন্ত গেলাম আটকে। আগের বারও দোকানদার জিজ্ঞেস করেছিলেন এই জিনিস। আবছা করে মনে আসছে কিছু সংখ্যা। তবে, বলতে পারছি না সেটা নিশ্চিত করে।

খুব ভুলোমন আমার। মনে রাখতে পারি না আগের মতো। স্বাতী’র ওপর দিয়ে যায় তখন। আজকেও ঘটেছে একটা জিনিস। জুমা’র নামাজে যাবার আগের মুহূর্ত। একটা বই পড়ছিলাম সকাল থেকে। তখন থেকেই ঘুরছিলো জিনিসটা মাথায়। পাঞ্জাবি পরার জন্য মাথা না ঢুকিয়ে প্রায় পা তুলে ফেলেছিলাম তখন। ভাগ্যিস কেউ বোঝেনি ব্যাপারটা।

ভুলোমনের জন্য সাহায্য নিতে হয় প্রযুক্তির। দরকারী কাগজ, বিল, ভিজিটিং কার্ড, কার্ড স্টেটমেন্ট – হেন জিনিস নেই যেটা যায় না গুগল ক্লাউডে। একটা নির্দিস্ট পিক্সেলের জন্য আনলিমিটেড স্টোরেজ, ভাবা যায়? মনে পড়লো আগের ঘটনা। গাড়ি চাকা পাল্টানোর সময় তুলে রেখেছিলাম ছবি। আগের চাকার। তাও আবার ওই সময়ের মোবাইলে। নাম দিয়ে তো সেভ করিনি জিনিসটা। তো – বের করবো কি করে?

চালু করলাম ‘ফটোজ’ অ্যাপ। গুগলের নেটিভ সার্ভিস। তখনি ছিলো লাখ খানিকের মতো ছবি। লিখলাম ‘কার টায়ার’। মুহূর্তেই চলে এলো ২০০৯য়ের তোলা দুটো ছবি। গাড়ির চাকার। একেবারে নম্বর সহ। সঙ্গে এলো আরো কয়েকটা ছবি। মনে পড়ল একটা তুষার ঝড়ের কথা। ওয়েস্ট কোস্টে থাকতে। গাড়ির চাকাতে লাগানো হচ্ছিলো স্নো চেইন। লাগাচ্ছিলো আমার বন্ধু। রাস্তাতে পিছলে যাবার ভয়ে। সেটার ছবি তুলেছিলাম ওই সময়ে। কোন জিনিস ভোলেনি গুগল।

চেষ্টা করতে পারেন আপনিও। চালু করুন ‘ফটোজ’ অ্যাপ। লিখুন ‘বার্থডে’। দেখুন, চলে এসেছে বাচ্চাদের নিয়ে সব ছবি। জন্মদিনগুলোর। পিক্সেলও বোঝে কোনটা কেক, কোনটা বেলুন। মোমবাতিসহ। জানে জিনিসগুলোর ‘আসপেক্ট রেশিও’। তাদের প্লেসমেন্ট। মজা আছে আরেকটু। সামনে ওই মোমবাতি গুনে আপনাকে জানাবে – কতো বয়সে পড়ল মেয়েটা আপনার। যারা বয়স মনে রাখতে পারে না তাদের জন্য এটা একটা লাইফসেভার! কেকের ওপর লেখাও মনে রাখছে সে। ওই ছবিতে থাকছেন কারা কারা? আর, কারা কারা থাকছেন প্রতিবছর? কেকটা কোন দোকানের, এবছর? আগের বছরগুলোতে? সেটাকে কাজে লাগাবে সামনে। আস্তে আস্তে। সত্যি!

ইমেজ প্রসেসিংয়ে কি তুলকালাম কান্ড ঘটছে সেটার কিছু ধারণা পাচ্ছেন সবাই ফেসবুকে। ছবি আলো আধারি – দাড়ি ছাড়া বা সহ, ক্যাপ সহ অথবা ছাড়া, সানগ্লাস সহ বা ছাড়া। কোনকিছুতেই চিনতে ভুল করছে না আপনাকে। এই ফেসবুক। এটা মাত্র ‘টিপ অফ দ্য আইসবার্গ’। তো পিচ্চি কালের ছবি? চিনবে তো? আপনার কি মনে হয়? মনে রাখবেন, ফেসবুক এমন কিছু করবে না যাতে ভয় পেয়ে যায় মানুষ।

## গুগল বাংলা "টেক্সট টু স্পিচ" আর 'আই-ও -টি'

আমি গুগলের বাংলা কথা থেকে লেখা (স্পিচ টু টেক্সট) ব্যবহার করছি শুরু থেকেই। আপনাকে বোঝাতে পারবো না কিভাবে সে আমার চোখের সামনে অ্যাকুরেসি পাচ্ছে। এটা একটা বিশাল অভিজ্ঞতা - কালকে যেই বানানটা ঠিক করে দিলাম - সেটার পরিবর্তিত ইংরেজি থেকে বাংরেজি ঠিক হচ্ছে চোখের সামনে। দিন দিন আমার মনের ভাব বুঝছে। 'আমি ভাত খায়' হবে না - হবে 'খাই' - আমার চোখের সামনে অনেক অনেক বানান কনটেক্সট ঠিক হয়ে গেছে।

আমি বাংলা ইংরেজি মিশ্রিত পছন্দ করি না। machine learning লেখা হোক "মেশিন লার্নিং" হিসেবে - বা ভ্যারিয়েবল, --- তবে গুগল শিখছে আমি যেভাবে বলছি তাকে। সে এক অন্য অভিজ্ঞতা -- বেশি ডাটা মানে বেশি মিষ্টি।

পুরো বইটার প্রায় ৬০ শতাংশ লিখতে ব্যবহার করেছি বাংলা 'স্পিচ টু টেক্সট'। শুধু হাতে লিখলে হয়তোবা সময় লাগতো কম, তবে দেখতে চেয়েছি যন্ত্র শিখছে কিভাবে - আমার চোখের সামনে। সে এক বিশাল অভিজ্ঞতা। আমি এখন 'এক্সাক্টলি' জানি কি বললে গুগল 'এপিআই' কি লিখবে।

আমার বাসায় 'আই-ও-টি' ডিভাইস আছে ২০টার মতো। 'আই-ও-টি' মানে ইন্টারনেট অফ থিংস - যা নিজে থেকে ইনপুট নেয় ইন্টারনেট থেকে। আমার রুলসেটের ওপর চলে জিনিসগুলো। আমার একটা 'প্যাশন' হচ্ছে মানুষের কায়িক পরিশ্রমকে যন্ত্রকে পাঠানো। যন্ত্রকে কথার মাধ্যমে কাজ করাতে গেলে তাকে শেখাতে হবে 'ইনটেন্ট'। মানে আমি যা বলছি সেটার আউটকামটা সে কি বুঝেছে - সেটা বোঝাতে হবে আগে।


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://rakibul-hassan.gitbook.io/mlbook-titanic/changing-world/google-photos.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
