# ৩.৪. শুরুর ধারণা - ডাটা নিয়ে

## শুরুর ধারণা - ডাটা নিয়ে

> Just as electricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AI (Artificial Intelligence) will transform in the next several years.
>
> \~Andrew Ng

মেশিন লার্নিংয়ের বেসিক কনসেপ্টটা না বললেই নয়। এর কাঁচামাল হচ্ছে ডাটা। আগেই বলেছি - যতো গুড়, ততো মিষ্টি। ডাটা আসতে পারে অনেক সোর্স থেকে। ডাটাবেস, সিএসভি, টেক্সট ফাইল - নিতে পারে প্রায় সবকিছু। যতো বেশি সোর্স, প্রেডিকশন ততো ভালো। বাংলায় ঠিকমতো বলতে না পারলেও - ডাটা’র ভ্যারাইটি, কাছাকাছি গোত্রের ডাটাগুলোর ভেতরে সম্পর্ক, ওদের ‘ডেনসিটি’ আর ‘সম্পর্কিত’ ডাটার ওপর নির্ভর করে মডেলের "অ্যাক্যুরেসি"। এই ক্যাগল প্রজেক্টে দেখবেন তার প্রায় সবকিছু।

আবার ডাটাই সবকিছু নয়। হাতে পেলেন ডাটা, তবে অসম্পূর্ণ। কিছু ফিল্ড আছে, কোন কোনোটা ফাঁকা। দুনিয়ায় কেউ বলতে পারবে না - পুরো ডাটা পেয়েছেন হাতে। আমি তো ছার্, গুগলের ইঞ্জিনিয়াররাও পান না। আর পাবেই বা কিভাবে? দুনিয়া যদি অতো পারফেক্ট হতো, তাহলে তো সমস্যাই ছিলো না কিছু। ক্যাচাল তো ওইখানে। তাই বলে কি বসে থাকবো আমরা?

মেশিন কিন্তু মানুষ নয়। জানা কথা, অসম্পূর্ণ ডাটা হলে খারাপ হবে প্রেডিকশন। তাই দরকার ডাটার অ্যানালাইসিস আর দরকারি 'কারেকশন'। মডেলে দেবার আগে। অনেকে এটাকে বলেন ‘ডাটা ক্লিনিং’। আমাদের ট্রেনিং ডাটার একই অবস্থা। অনেক ফিল্ডই ফাঁকা। তবে, ফাঁকা রাখা যাবে না এই ডাটাসেট।

আর সেজন্য ডাটা সায়েন্টিস্টদের ৮০ শতাংশ সময় যায় ডাটা ক্লিনিংয়ে। সত্যি বলছি! আর তাই মেশিন লার্নিংএ শুধু সাইন্স নয়, আর্টসও ভর্তি। ডাটা’র ‘কোয়ালিটি’ দেখার দ্বায়িত্বও আমাদের। মিসিং ডাটার পাশে ঠিক করতে হবে ‘আউটলাইয়ার’য়ের মতো কাহিনীগুলোকে।

আউটলাইয়ার হচ্ছে দলছুট ভ্যালু। ধরুন, ক্লাস টেনে পড়া ছাত্রদের বয়স হবার কথা ১৪ থেকে ১৬য়ের মধ্যে। এখন এক ‘আদুভাই’ ঢুকলেন ৪৫ বছর বয়সে। ওই ক্লাসে। তাহলে, এই সাধারণ থেকে দুরের এই ভ্যালু’র একটা চাপ থাকবে আমাদের রেজাল্টে।

আমাদের গড় আয়ের সাথে বিল গেটসের আয় যোগ করলে যা হবে আর কি! এরও ট্রিটমেন্ট আছে অসম্পুর্ণ ডাটার মতো। সবকিছুর পরে ডাটাকে এমন ভাবে দাড়া করাতে হবে যাতে টেবিল বানানো যায়। কাঠের টেবিল নয়, ডাটা ভিত্তিক টেবিল। এর একটা নাম আছে এখানে। ‘ফীচার ম্যাট্রিক্স’। ওই টেবিলের একেকটা সারিকে ডাকি আমরা ‘ফীচার ভেক্টর’ বলে।

এখন প্রশ্ন আসতে পারে, মেশিন লার্নিং মডেল কি? এর উত্তরটা অনেকখানি নির্ভর করে আপনি কাকে প্রশ্নটা করছেন। একটা সফটওয়্যার প্রোগ্রামের ডকুমেন্টেশনে যেভাবে মডেলটার কথা বলা হবে সেখানে ডাটা সাইন্স ইউজার কমিউনিটিতে অথবা একাডেমির যেই জার্নালগুলো আমরা ব্যবহার করি, সেখানে এই মডেলের ডেফিনিশন কিছুটা আলাদা হবে। তবে, নলেজ ইকোনমিতে অনেক সময় ডেফিনেশনগুলো ইন্টার-চেঞ্জেবল। গল্প বাদ। আমার দেখামতে কিছু মডেলের উদাহরণ দেই বরং। মাথায় ঢোকানোর দরকার নেই। ভাসাভাসা বুঝলেই হবে।

১. শুরুতেই দেখি ওইসব স্ট্যাটিসটিক্যাল মডেল যেখানে ‘প্রোবাবিলিটি ডিস্ট্রিবিউশন’ এর কথা বলা হয়।

২. ‘রিগ্রেশন’ ডাটা মডেল এবং তার সম্পর্কিত স্ট্যাটিসটিকস।

৩. ম্যাথমেটিক্যাল মডেল - আমার দেখা মতে, মেশিন লার্নিং মডেলগুলোর ‘ডেফিনিশন’ এর সাথে অনেকটা যায়। সত্যি কথা বলতে, যেখানে অংকের কনসেপ্ট এবং তার দরকারি সম্পর্কের ‘আর্টিফ্যাক্ট’ ব্যবহার করা হয় সেগুলোই ম্যাথমেটিক্যাল মডেল। এই মডেলে জিনিসগুলোর একটার সাথে আরেকটার সম্পর্ক এবং ভেরিয়েবলগুলো নিয়ে বেশি কাজ করা হয়। যেমন, শুধুমাত্র ক্লাসিফিকেশনের কথা বললে এখানে ‘লিনিয়ার’ আর ‘নন-লিনিয়ার’ এর সম্পর্ক, ‘এক্সপ্লিসিট’ অথবা ‘ইম্প্লিসিট’ সম্পর্ক, ‘ডিসক্রিট’ না ‘কন্টিনিউয়াস’ এইসব জিনিস চলে আসছে এখানে।

৪. মেশিন লার্নিং এর বিভিন্ন ডাটা মডেল যেখানে তাদের কলাম বা ডাটা টাইপ, তার সঙ্গে কিছু ডাটা সোর্স আর মেটাডাটা এর সম্পর্ক গুলোকে মডেল বলা হয় অনেক সময়ে।

মোদ্দা কথা হচ্ছে, মেশিন লার্নিং এর কনটেক্সটে, আমরা যখন ডাটা দিয়ে কোন একটা জিনিসকে ট্রেনিং করাই, তখন সে যেই প্যাটার্নকে চেনে সেটাকে মডেল বলা যেতে পারে। এই মডেলকে আমরা ব্যবহার করি নতুন ডাটার ওপর। এই মডেল ট্রেনিং এর সময়ে একটা মেশিন লার্নিং অ্যালগরিদম ব্যবহার করি আমরা।

সবার মতো আমরাও চাইবো আমাদের মডেলটা যতোটা ‘সিম্পল’ করা যায়। দরকার মডেলের অ্যাক্যুরেসি। আর সেকারণে এটাকে ‘জেনারেলাইজ’ করতে হবে নতুন ডাটা নেবার ব্যাপারে। নিখুঁত প্রেডিকশনে কোন ফীচারগুলো লাগছে অথবা দরকার মতো বাড়তি ‘ফীচার’ তৈরি করার ব্যাপারটা আসবে এখানে।

আর এই ‘ফীচার ইঞ্জিনিয়ারিং’টাতে সাইন্স থেকে আর্টসের গল্প বেশি। মানুষের সেরা উদ্ভাবনী শক্তি লাগে এখানে। আর সেকারণে সবচেয়ে বেশি সময় লাগে এই ‘ফীচার ইঞ্জিনিয়ারিং’য়ে। বলাই বাহুল্য, এটা আমার একটা প্রিয় জায়গা। তিন চার দিন লাগে লাগুক, নিঁখুত প্রেডিকশনে এই জিনিস জরুরি। ডাটাকে তৈরি করতে। মডেল ট্রেনিং করার আগে।

## ট্রেনিং ডাটা, টেস্ট ডাটা - কাহিনী কি?

মেশিন লার্নিংএর শুরুতে দরকার 'দুটো' বেসিক জিনিস। মাত্রদুটো। একেবারে মানুষের শেখার মতো করে। মানুষের আর মেশিনের শেখার মধ্যে পার্থক্য নেই। মানুষ আগে নিজেকে দেখেছে কিভাবে শেখে সে।

মনে আছে আমাদের পড়ালেখার দিনগুলোর কথা? এটা ঠিক, অনেকের জন্য এখনো চলছে পড়ালেখা। যেমন, চলছে আমারো, এই বুড়ো বয়সে। অবশ্য - পড়াশোনা করতে লাগে ভালোই। যদি সেটা হয় নিজের জন্য। নিজের একান্ত মনের খোরাকের জন্য।

![](/files/-Lggw-XfcyynK3Rg7nnh)**ছবি: ট্রেনিং ডাটা -> মডেল তৈরি করা**

আমরা যখন পড়ি, তখন সেটা ‘ট্রেনিং’ হয় আমাদের জন্য। যতো পড়ি, ততোই শিখি। সেটাই ট্রেনিং ডাটা। সেটাই তো মূলমন্ত্র। সারাবছর ধরে পড়লাম - ভালো। এখন, কতোটুকু শিখলাম সেটার পরিমাপ কী? সেটা জানব পরীক্ষা নিয়ে। পরীক্ষাই হচ্ছে আমাদের জন্য ‘টেস্ট’। মেশিনলার্নিংএর ভাষায় 'টেস্ট ডাটা'।

![](/files/-Lggw-Xi1i-nuzksGhWs)**ছবি: টেস্ট ডাটা দিয়ে মডেল পরীক্ষা করা**&#x20;

মানুষের মতো মেশিনকে শেখানোর জন্য 'তরিকা' একই। এক. ট্রেনিং আর দুই. পরীক্ষা। আর সেকারণে - দুটো সেট। 'ট্রেনিং সেট' আর 'টেস্ট সেট'। আর মডেলকে চেখে দেখার জন্য মাঝে মধ্যে দরকার 'ভ্যালিডেশন' সেট। বেশি শিখে ফেললো কি না - মানে ‘ওভারফিটিং’ হলে কিন্তু বিপদ আবার। তাহলে মানুষের মতো 'বায়াস' চলে আসবে এখানে।\
![](/files/-Lggw-XlIgv0u8wLNOln)**ছবি: আলাদা ডাটাসেট**

যদি ডাটাসেট একটা হয়? সমস্যা নেই এখানে। ভাগ করে ফেলবো এখানে। ধরে নেই ৭০:৩০ -> ট্রেনিং:টেস্ট।

![](/files/-Lggw-Xn1mr2x5MyOkL6)**ছবি: যদি একটা ডাটাসেট হয়**

তো, ডাটা তৈরি। এখন ট্রেনিং করাবো আমাদের মডেলকে। দরকারি অ্যালগরিদমকে ঠিক করবো এই কাজে। দুনিয়ার প্রায় সব কাজে লাগানোর অ্যালগরিদম চলে আসে বিভিন্ন প্যাকেজের সাথে। আমি বলবো - বহুল পরিচিত জিনিসগুলোকেই কাজে লাগাতে। নতুন করে অ্যালগরিদম লেখার দরকার নেই আমাদের। আসলেই তাই। এই মুহুর্তে তো নয়ই।

তৈরি হলো মডেল। তো, পরীক্ষা করবেন কিভাবে? অনেক সময় ডাটাকে ‘ক্লিন’ করে সেটাকে ভাগ করতে হয় ‘ট্রেইন’ আর ‘টেস্ট’ ডাটা সেটে। মডেল কেমন ‘পারফর্ম’ করছে সেটা দেখার জন্য মডেলটা চালাতে হয় টেস্ট ডাটা সেটের ওপর। গাড়ির মতো হাজারো টিউনিং করা যায় এসময়ে। তবে, ডাটাকে আলাদা করার ধারনাটা দরকার পড়ছে না এই টাইটানিক কম্পিটিশনে। আগেই দেখেছি - ডাটা সেটগুলো পাচ্ছি আলাদা করে। ক্যাগল সাইট থেকে।

অনেকে হা হা করে উঠবেন ‘ভ্যালিডেশন সেট’ নিয়ে। ওইটা অনেক দুরের ব্যাপার। এখনো। আমাদের মডেল আর অ্যালগরিদমের ‘নিখুঁত’ অ্যাক্যুরেসি নিয়ে চিন্তিত নই আমি। আমাদের সকল ফোকাস থাকবে মেশিন লার্নিংয়ের বেসিক ধারনায়। এমন ধারণা, যেটা লাগবে সারা জীবন। প্রফেসনে মেশিন লার্নিং কাজে না লাগলেও লাগবে নিজের জীবনে।

সামারি করি তাহলে?

> ট্রেনিং সেট → ফিট করবো অ্যালগরিদমের প্যারামিটারগুলোকে \[যেমন, কার কি ‘ওয়েট’ দেয়া আছে তার ওপর] \* দরকারি জিনিস
>
> টেস্ট সেট → মডেলের পার্ফরমেন্স দেখতে \[কতোটা প্রেডিকশন ক্ষমতা পেল মডেলটা] \* দরকারি জিনিস
>
> ভ্যালিডেশন সেট → প্যারামিটারের টিউনিং করতে \[সাধারণত: আর্কিটেকচার নিয়ে]

আবারো বলি -

মেশিন লার্নিংয়ে যে ডাটা নিয়ে কাজ করবো সেটা চেনা খুবই জরুরি। ব্যাপারটা কিছুটা নিজের বউকে চেনার মতো, যতো চিনবেন - জীবনটা হবে ততো সুন্দর। আপনার "টার্গেট ভ্যারিয়েবল" মানে যেটার আউটকাম বের করবো আমরা - সেটার সাথে অন্য ভ্যারিয়েবলগুলোর সম্পর্ক জানতে হবে আমাদের। আপনারা জানেন ইতিমধ্যে - আমাদের টাইটানিক প্রজেক্টে আছে "দুটো" ডাটাসেট।

অন্য সব ক্যাগল প্রতিযোগিতার মতো এই দুই ডাটাসেটের একটা "ট্রেইন" আরেকটা "টেস্ট"। "ট্রেইন" ডাটাসেট তৈরি করা হয় মডেলকে শেখানোর জন্য। যে উত্তর দরকার সেটা দেয়া আছে এই ডাটাসেটে। কিছুটা আমাদের পড়ার বইয়ের মতো। উত্তর দেয়া আছে বইয়ের পরতে পরতে।

আর টেস্ট ডাটাসেট? প্রায় সবই আছে। তবে, পরীক্ষার প্রশ্নের মতো। উত্তর ছাড়া। এই উত্তর বের করতে আমাদের দরকার "ট্রেইন" ডাটাসেট। উত্তর দেয়া নেই সরাসরি। তবে সম্পর্ক থেকে উত্তর বের করতে হবে ওই ডাটা থেকে। তারপরই না সেটা ভরে দেয়া যাবে আমাদের "টেস্ট" ডাটাসেটে। চলুন - দেখে নেই দুটো ডাটাসেট আমাদের প্রজেক্টে।

এখানে কেউ জাঁহাবাজ নেই - আমি তো নই! হয়তোবা, বুঝেছি ব্যাপারটা কাজ করতে করতে - কিছু ট্রেনিং পেয়েছি হাতে কলমে, তবে সেটা আপনাদের মতো হবে না।

## কিছু ভেতরের কথা

বেসিক কনসেপ্টটা বুঝলেই আপনার কাজ শেষ অর্ধেক। দরকার হলে, তিন তিন বার পড়ুন এই বেসিক কনসেপ্ট’য়ের পুরোটা। তাহলে বুঝবো - মেশিন লার্নিংয়ের হৃদয়টা ধরতে পেরেছেন আপনি। কথায় আছে না, ‘স্টার্টিং ইজ হাফ দ্য ব্যাটেল’।

আমার দেখা - ডাটা সাইন্স নিয়ে কাজ করছেন অনেকে, পুরো কনসেপ্ট না থাকার ফলে ছেড়ে দিয়েছেন মাস কয়েক পর। ব্যাপারটা না বুঝলে মন টিকবে না শিখতে। কি বলেছেন ‘স্টিভেন কোভি’? ‘বিগিন এন্ড ইন মাইন্ড’। কাজ শুরু করুন, তবে দেখে নিন - কি হবে শেষে। এটা ঠিক, শুরুতে শেষটা ‘ভিজ্যুয়ালাইজ’ করতে পারেন না অনেকেই। ওখানে আমার কথা, আবছায়া হলেও দেখতে হবে কিছু। পাগল ভাবুক মানুষ, দেখতে হবে আপনার ‘আউটকাম’। আগে ভাগেই।

আর সেজন্য মেশিন লার্নিং। ভবিষ্যত দেখার বিশাল টুল। বন্যা হবার আগেই জানবো তার অশনিসংকেত। অনেক বছর আগে। যখন জানবো ব্যাপারটা বাঁচাবে অনেককে, পাগলের মতো কাজ করবো তখন। সাহায্য করতে। মানুষগুলোকে। রাস্তার দুর্ঘটনা অ্যানালাইসিস করুন গত ৩০ বছরের। অনেক জ্ঞান, কো-রিলেশন, কোএফিসিয়েন্ট বের হয়ে আসবে ওই দুর্ঘটনা ঠেকানোর পক্ষে। লঞ্চডুবি, ঈদের অনাকাঙ্খিত দুর্ঘটনাগুলো প্লট করলে আসবে অনেক অনেক জ্ঞান।

মেশিন লার্নিং একটা গাড়ির ব্যাটারি কবে ‘ফেল’ করবে অথবা সামনের গাড়িগুলো কখন অ্যাক্সিডেন্ট করবে সেটা বের করতে পারলে এগুলো কোন সমস্যা নয়। চেস্টা করতে দোষ কোথায়? মনে রাখবেন, সৃষ্টিকর্তা মানুষকে অতো জ্ঞান দিয়েছেন যা ফেরেশতাদেরও নেই। বিশ্বাস করুন, অনেক অনেক জ্ঞান। আর তাই মানুষের ব্যাপারে ফেরেশতাদের উত্তরে উনি বলেছিলেন, ‘আমি যা জানি, তোমরা তা জান না’।

জন্ম থেকে শুনে আসছি, প্রাকৃতিক দুর্যোগের দেশ বাংলাদেশ। এর মধ্যে পার হয়েছে আমার বয়সের সমান বৎসর। প্রযুক্তি এগিয়েছে ওই লেভেলে - যেখানে ফোরকাস্ট করা যায় প্রায় সবকিছু। মেশিন লার্নিং সেটাই, আগের হিস্টরিক্যাল ডাটা থেকে বের করা যায় পরবর্তী আঘাতটা কবে আসবে। দিনক্ষণ ধরে।

জাপান ভূমিকম্প প্রবণ দেশ হলেও বের করে ফেলেছে কবে কি হবে। আগে থেকে। আমার কথা একটাই। ডাটা থাকতে কেন তাকিয়ে থাকতে হবে প্রকৃতির দিকে? ধারণা নিতে অসুবিধা কোথায়? হবে কি হবে না - সেটা পরের কথা। প্রকৃতিকে বুঝবার জ্ঞান দিয়েছেন সৃষ্টিকর্তা। সেটাকে ব্যবহার করতে এই মেশিন লার্নিং। ধন্যবাদ সৃষ্টিকর্তাকে।

পৃথিবীর সবচেয়ে উঁচু বিল্ডিং কোনটা? বুর্জ খলিফা। ধারণা করুন, বুর্জ খলিফা তৈরির বছর কয়েক আগে। এক পাগল, মানে ‘আন-রিজনেবল’ একটা মানুষ দাড়িয়েছিলো ওই জায়গা থেকে কয়েকশো গজ দুরে। দাঁড়িয়েই মাথা উঁচু করলো সে। বুর্জ খলিফা’র চূড়াটা দেখতে চাইলো সে।

‘পাগল’ বলেই তার সামনে তৈরি হলো পুরো বুর্জ খলিফা’র বিল্ডিংটা। ওই মুহুর্তে। এতোটাই ‘ভিভিড’ যে এক পর্যায়ে চোখ নামাতে বাধ্য হলো সে। তাকে জিজ্ঞাসা করলে সে বলবে, সুর্যের আলো বিল্ডিংয়ের কাঁচ ঠিকরে তার চোখে পড়েছিলো প্রতিফলিত হয়ে। মানুষ কতোটা পাগল হলে দেখতে পায় পুরো জিনিসকে? আগে ভাগে। আমার কথা, একটাই। ‘গড়’ মানুষের দিন শেষ অনেক আগেই।

আমাদের ডাটাকে বুঝতে হবে ওইভাবে। ভালবাসার পাগলামির মতো। বিয়ে বসতে হবে ডাটার সাথে। প্রজেক্ট চলাকালীন। উল্টে পাল্টে, ‘উপর নিচ’ করে জানতে হবে ডাটাকে। টাইটানিক ডাটা সেটগুলো বুঝতে যেতে হবে ওই ১৯১২ সালে। দাড়াতে হবে ওই ডেকে। ১২টা কলামের প্রতিটা ডাটার কতোটা ‘রেলেভেন্সি’, না জানলে নিঁখুত হবে না মডেল। মায়া কাঁটাতে হবে সম্পর্কহীন ডাটার সাথে। বুঝতে হবে কোনটা ‘নয়েজ’ আর কোনটা ‘সিগন্যাল’।

অনেকে বলেন - প্রতিটা জিনিস তৈরি হয় দুবার। প্রথমবার - মাথায়। জিনিসটা বাস্তবে আনার পথে থাকুন আমার সাথে। ঠিক ঠিক পৌঁছাবেন যেখানে চেয়েছিলেন যেতে। মেশিন লার্নিং জানতে। পুরোপুরি।


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://rakibul-hassan.gitbook.io/mlbook-titanic/introduction/why-data.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
