কৃত্রিম বুদ্ধিমত্তার দুটো 'অ্যাপ্রোচ'
কি আছে আমাদের সামনে?
Artificial intelligence will reach human levels by around 2029. Follow that out further to, say, 2045, we will have multiplied the intelligence, the human biological machine intelligence of our civilization a billion-fold.
—Ray Kurzweil
আচ্ছা, কৃত্রিম বুদ্ধিমত্তার কিভাবে এগুচ্ছে এই মুহুর্তে?
সত্যি বলতে, বুদ্ধিমত্তা জিনিসটাকে খালি চোখে দেখা যায় না - এই ব্যাপারটাকে বুঝবো কিভাবে?
আমাদের আশেপাশের পশুপাখি থেকে মাঝে মাঝে বেশ কিছু ‘বুদ্ধিমত্তা’র আচরণ পাই। ব্যাপারটা এমন যে - যেহেতু সেই পশুপাখিটা মানুষের স্কেলে অর্থাৎ মানুষের মতো করে কোন জিনিসকে মিমিক করছে, সে কারণে আমরা তাকে বুদ্ধিমান প্রাণী বলছি। জিনিসটা এরকম যে সে মানুষের মতো করে আচরণ করছে, কিন্তু সে যদি তার মত করে (সেই প্রানীর গোত্রের মতো) কোন কাজ করে সেটা তার স্কেলে বুদ্ধিমান বলা যেতে পারে। এ ব্যাপারে প্রথম বইয়ে বেশ কিছু আলাপ করেছিলাম।
কোন কিছুর মধ্যে যে বুদ্ধিমত্তা আছে সেটা তার কাজের আউটকাম অথবা তার ব্যবহারে (বিহেভিয়ার প্যাটার্নে) সেটা ফুটে উঠে। তবে এই বুদ্ধিমত্তা যেখান থেকে বের হচ্ছে সেটার উৎপত্তিস্থল আমাদের বা পশুপাখিদের মাথায়। আমাদের মাথায় এই বুদ্ধিমত্তাগুলো কিভাবে তৈরি হচ্ছে অথবা এর কাজ করার প্রসেসগুলো আমরা যেহেতু সরাসরি দেখতে পারছি না, সে কারণে এই বুদ্ধিমত্তা কিভাবে কাজ করছে সেটার ব্যাপারে আমরা এখনো অনেক কিছুই জানি না। আমরা জানি, মাথার নিউরনের ভিতর ইলেকট্রনিক পালস্ দিয়ে ব্যাপারগুলো ঘটে তবে এর’ ইন্টারনাল’ গল্পগুলো আমাদের কাছে এখনো অজানা।
এটা একটা বড় সমস্যা। তাহলে একজন কৃত্রিম বুদ্ধিমত্তা রিসার্চার কিভাবে একটা ইন্টেলিজেন্ট সিস্টেম তৈরি করবেন যার আউটকাম আমাদের বা পশুপাখির সেই কাজের মধ্য দিয়ে বোঝা যাবে? এ ব্যাপারে পড়ছিলাম মাইক উলরিজের একটা লেখা। বিশেষ করে ‘কৃত্রিম বুদ্ধিমত্তা’র কয়েকটা রাস্তা নিয়ে। লেখাটা আমার পছন্দ হয়েছে কারণ কৃত্রিম বুদ্ধিমত্তার বর্তমান ট্রেন্ডের বেশ কিছু ধারনা এখানে এসেছে। উনি যে দুটো রাস্তা নিয়ে আলাপ করেছেন তার মধ্যে একটার উত্থান আমার চোখের সামনে হচ্ছে প্রতিদিন। কাজের রেজাল্ট অসাধারণ। উত্থানটা বেশ ভয়ানক।
উদাহরন দিলে জিনিসটা পরিস্কার হবে ভালো। মনে আছে মেশিন ট্রান্সলেশনের কথা? ধরুন, আমরা একটা প্রোগ্রাম তৈরি করব যেটা বাক্যগুলোকে ইংরেজি থেকে বাংলায় ট্রান্সলেট করবে। এই কাজগুলো আগেও করেছে মানুষ তবে সেগুলোর আউটপুট শুধু ধীরগতির ছিল না, বরং সেই আউটপুট নিয়ে এখনো আমরা মাঝে মধ্যে মজা করি। অক্ষর থেকে অক্ষরে ট্রান্সলেশন অনেকটাই ঠিক থাকে তবে যখন সেটা বাক্যে রূপান্তর হয় তখন সেটার ভেতরের অর্থ বা ভাব মাঝেমধ্যে পাল্টে যায়।
ব্যাপারটা না বোঝারই কথা। আরেকটু খোলাসা করি। আমাদের বাক্যের স্ট্রাকচার, যেটাকে আমরা সিনট্যাক্স বলছি সেটার মধ্যে ইংরেজি এবং বাংলার ব্যাকরণগত ধারণা আগে থেকে তৈরি করা থাকে। ইংরেজির জন্য এখানে এক ধরণের সিনট্যাক্স এবং বাংলার জন্য সেটা অন্য ধরনের হবে সেটাই স্বাভাবিক। আমরা এই সিনট্যাক্স ব্যবহার করে একটা বাক্যের (যেটাকে আমরা ট্রান্সলেশন করছি) তার স্ট্রাকচারটা বের করার চেষ্টা করব আগে। ফলে সেই স্ট্রাকচার থেকে আমরা ওই বাক্যের একটা ভাবার্থ পেয়ে যাব, যেটাকে আমরা ‘সিমান্টিকস’ বলি। এটা অর্থের লিঙ্গুইস্টিক্স এবং লজিকের একটা সমন্বিত ভাব। আমরা যখন ভেতরের ভাবার্থ অর্থাৎ ‘ইনার মিনিং’ পেয়ে যাচ্ছি তখন আমরা সেই টার্গেট ল্যাংগুয়েজ (ধরুন বাংলা) মডেলে ফিরে গিয়ে নতুন করে কাছাকাছি একটা বাক্য তৈরি করব যার অর্থ ইংরেজির প্রায় কাছাকাছি হবে।
বিশাল সমস্যা তাই না? এক লাইনে বলতে গেলে, আমরা শুরুতে একটা মডেল তৈরি করব যেই কাজটা আমরা আউটকাম (ইংরেজি থেকে বাংলা ট্রান্সলেশন) হিসেবে পেতে চাই। এরপর সেই মডেলটাকে পাঠিয়ে দেব যন্ত্রের কাছে যাতে সে নতুন ভাষার ব্যাকরণ এর নীতি বুঝে মোটামুটি কাজটা বের করে দিতে পারে সে।
মাইক উলরিজ ব্যাপারটাকে এমন চমৎকার ভাবে বর্ণনা করেছেন, কারন আমি যখন উনার এই অংশটুকু পড়ছি তখন একই জিনিস ‘রেজোন্যান্স’ হচ্ছে আমার মনের ভেতরে - কারণ এই ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং যেমন বৈজ্ঞানিক, সেভাবে অনেকখানি হেঁয়ালি বটে। আমরা যখন যন্ত্রকে একটা ব্যাপারে জিজ্ঞাসা করব, তখন তার মধ্যে মানুষের হেঁয়ালি বা অনেক ধরনের ‘অস্পস্ট’ ‘ঝাপসা’ অর্থের জিনিসপত্র দিতে পারব না।
আগের ধারণায় ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং’ নিয়ে কাজ করতে গিয়ে দেখেছি আমাদের ব্যাকরণের যে নীতিমালা আছে সেই নীতিমালা অনুযায়ী আমাদের বাক্য থেকে একটা অর্থের স্ট্রাকচার তৈরি করতে হবে শুরুতে। এর পাশাপাশি সেই আগের অর্থ দিয়ে কিভাবে একটা বাক্য ‘জেনারেট’ করতে হবে সেই রুলসেট বা নীতিমালাগুলোকে শেখাতে হবে মডেলকে। গত দশকে রিসার্চাররা এই রুলসেট নিয়ে ব্যস্ত ছিলেন কিভাবে একটা বাক্যের স্ট্রাকচার এবং এর সাথে তার ভাবার্থ ‘ইনার মিনিং’ ‘ইন্টারনালি’ ম্যাপিং করা যায়।
এটার আউটকাম আমরা দেখেছি, যা অনেকটাই কার্যকরী তবে ‘ট্রান্সলেটেড’ একটা প্যারাগ্রাফ পড়লে মনে হয় এটা কোন মানুষ লেখেনি। হয়তোবা এই স্টাইলে মানুষের মত করে অ্যাক্যুরেসি আনা বেশ কঠিন হবে। আমি মানুষ হয়েই অনেক সময় কবিতার ভেতরের অর্থ বুঝতে পারি না, সেখানে যন্ত্রের জন্য ব্যাপারটা কঠিনই বটে। উচ্চমার্গের কবিতা এবং গল্পগুলো এত পেঁচানো থাকে যেখান থেকে তার ভেতরের অর্থ বের করা কঠিনই এই রুলসেটের ব্যাকরণের স্ট্রাকচার দিয়ে।
তবে ব্যাপারটা একটা বিশাল নাটকীয় মোড় নেয় যখন ‘স্ট্যাটিসটিক্যাল মেশিন ট্রান্সলেশন’ কনসেপ্টটা রিসার্চারদের কাছে চলে আসে। এই রাস্তার মজা হচ্ছে এখানে ভাষার ল্যাঙ্গুয়েজ মডেলের ভেতরে ঢুকতে হচ্ছে না কাউকে। বরং, আমরা এখানে হাজারো/লক্ষ্যের বাক্যের উদাহরণ পাঠিয়ে দেব যেই বাক্যগুলোকে আমরা ‘ট্রান্সলেট’ করার চেষ্টা করছি। বুঝতেই পারছেন - আমরা এখানে ‘প্রোবাবিলিটি’ মানে কোনটা বেশি ব্যবহার হয়েছে সেগুলোকে ব্যবহার করব সেই স্ট্যাটিসটিক্যাল মডেল থেকে - যেখানে সেই স্পেসিফিক ট্রান্সলেশনে এই ধরনের বাক্যগুলোকে অন্যান্য সময় কিভাবে ব্যবহার করা হয়েছিল।
ঝামেলা মনে হচ্ছে? এর পেছনের গল্পটা খুবই সোজা, কারণ আমরা যখন হাজার, লক্ষ অথবা কোটি উদাহরণ ব্যবহার করবো এই ব্যাপারটাতে - তখন সেই বাক্যের স্ট্রাকচারটা অন্যান্যবার কিভাবে ব্যবহার করেছিল, তার সাথে মিলিয়ে কোন কোন শব্দগুলোকে কোনটার আগে পরে লাগালে তার প্রোবাবিলিটি ডিস্ট্রিবিউশন অনুযায়ী সর্বোচ্চ ভোট পাওয়া শব্দগুলোকেই এই ‘স্ট্যাটিসটিক্যাল মেশিন ট্রান্সলেশন’ ব্যবহার করবে বেশি।
এটা ঠিক যে এই কাজে প্রচুর ডাটা এবং কম্পিউটিং ক্ষমতা লাগছে বিশেষ করে এ ধরনের ‘স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন’ তৈরি করার জন্য। আমি যেহেতু ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং’ নিয়ে কাজ করছি, সেখানে আমি দেখছি ‘ওপেন এআই’ এর জিপিটি-৩ এর ল্যাঙ্গুয়েজ মডেল এমুহুর্তে প্রায় ১৭৫ বিলিয়ান প্যারামিটার ব্যবহার করছে। এ ধরনের ‘স্ট্যাটিসটিক্যাল মেশিন ট্রান্সলেশন’ রিসার্চের নতুন একটা অংশে বিশাল একটা ধারণা দিচ্ছে - যার কারণে এই একই ধারণা চলে যাচ্ছে অন্যান্য এরিয়াতে। আমার নিজের অভিজ্ঞতা থেকে বলতে পারি অন্যান্য লার্নিংগুলোর মধ্যে ‘ডিপ লার্নিং’য়ে এই কাজটা অসাধারণভাবে রেজাল্ট দিচ্ছে। ‘ডিপ লার্নিং’ নিয়ে আমার লেখা আরেকটা বইয়ে এব্যাপারে অনেকগুলো উদাহরণ দিয়ে দেখিয়েছি।
কৃত্রিম বুদ্ধিমত্তার এই দুটো রাস্তার মধ্যে এই মুহূর্তে ছোটখাটো কাজের জন্য প্রথম অ্যাপ্রোচ ঠিক আছে। আমি বলবো এটা অনেকটাই ‘ট্রান্সপারেন্ট’ কারণ আমরা জানি মডেলের ভেতরে কি হচ্ছে। তবে পৃথিবী যেভাবে কমপ্লেক্স হচ্ছে এবং একই সমস্যা যখন বিভিন্ন ডাইমেনশনে পাড়ি দিচ্ছে তখন এই কমপ্লেক্স ধরনের কাজগুলো এতো সহজে করা সম্ভব হয় না।
আর সে কারণেই আমরা ব্যবহার করব দ্বিতীয় অ্যাপ্রোচ - যেখানে মেশিন লার্নিং মডেলের কোন বালাই নেই, বরং কোটি কোটি উদাহরণ থেকে মডেল শিখে নেবে তাকে কি করতে হবে। সিচুয়েশন ডিপেন্ডেন্ট। এ ব্যাপারে প্রচুর কাজ চলছে তবে এর সবচেয়ে বড় লিমিটেশন হচ্ছে ডাটার উপর বেশি নির্ভরতা মানে ডাটার নয়েজ তার অনাকাঙ্খিত ‘বায়াস’ তৈরি হতে পারে। আরেকটা সমস্যা হচ্ছে, এই মডেল মানুষের চেয়ে ভাল কাজ করবে তবে এটা থেকে জানার উপায় নেই কিভাবে সে এই কাজগুলো করছে ভেতরে ভেতরে। মডেলের ভেতরে কোটি কোটি ‘সংখ্যা’র খেলা দেখে মানুষের বোঝার উপায় নেই মডেলটা কিভাবে ‘ইন্টারনালি’ কাজ করছে।
এখন আমাদের প্রশ্ন হচ্ছে, আমরা কি মডেল কিভাবে কাজ করছি সেটা জানতে চাই - নাকি মডেলের অসাধারণ পারফরম্যান্স আউটকাম নিয়ে খুশি থাকব? পরের প্রশ্ন, দুটো জিনিস কি একসাথে পাওয়া সম্ভব? বোধহয় না। তবে, এই অজানা ব্যাপারগুলো নিয়ে আসবো সামনে।
Last updated
Was this helpful?