# ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট

## ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট

| কি ধারণা পেতে যাচ্ছি আমরা? | দুটো ডাটাসেট নিয়ে কাজের হিসেব |
| -------------------------- | ----------------------------- |

কি দেখছেন ‘ট্রেইন.সিএসভি’ ফাইলটাতে? খুলেছেন তো এক্সেলে? এক্সেল না থাকলে ‘গুগল স্প্রেডশীটে’। কলাম কিন্তু ১২টা। ‘প্যাসেন্জার আইডি’র পরই ‘সারভাইভড’ কলাম। ‘০’ মানে উনি মারা গিয়েছিলেন। যারা বেঁচে গিয়েছিলেন তাদের কলামে দেয়া আছে ‘১’। লক্ষ্য করুন ৮৯১টা ‘অবজারভেশন’ এই ফাইলে। পরিসংখ্যানের ভাষায় প্রতিটা ‘সারি’ একেকটা ‘অবজারভেশন’। অনেকে বলেন একেকটা রেকর্ড।

মানে, ২২২৪ জনের মধ্যে ৮৯১ জনের তথ্য আছে এই ফাইলে। ‘কে বেঁচে আর মারা গিয়েছিলেন’ সে তথ্য এখানে আছে বলেই এটা ট্রেনিং ডাটা সেট। এটাকে দিয়ে ‘ট্রেইন’ করবো আমাদের প্রেডিকটিভ মডেল। পরিসংখ্যানের ভাষায় ‘সারভাইভড’ কলামটাকে অনেকে বলবেন ‘টার্গেট ভ্যারিয়েবল’। ১২ কলামের একেকটা কলাম একেক ‘ভ্যারিয়েবল’। ডাটা ডিক্শনারিতে বলেছি ভ্যারিয়েবলগুলোর মানে কি? কি বোঝায়?![](https://3889375835-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LggvvWRY6v017WN8ink%2F-Lggvz4rD_jjHfcIlBx1%2F-Lggw-dUODWeJ5YjuiVH%2FSlide5.png?generation=1559827058416998\&alt=media)**ছবি: train.csv ফাইলের একটা স্ন্যাপশট, এক্সেলে**

ডাউনলোড করা ক্যাগেলের টেস্ট ডাটা সেটটাই হচ্ছে ‘টেস্ট.সিএসভি’ ফাইল। খুলে দেখুন। মজার ব্যাপার, একটা কলাম কম। ঠিক বলেছেন। ‘সারভাইভড’ কলামটা নেই এখানে। তার মানে, এটাই ‘প্রেডিক্ট’ করবো আমরা। টেস্ট ডাটা সেট থেকে।

বুঝতেই পারছেন ‘টেস্ট ডাটা সেট’ হচ্ছে উত্তর ছাড়া ডাটা সেট। এখানের মানুষগুলোও নতুন। ওই ৮৯১ জনের বাইরের মানুষ উনারা। উনাদের ভাগ্য বের করবো আমরা। ৪১৮ জন প্যাসেন্জারের। সারিও ৪১৮টা। ‘ট্রেইন’ আর ‘টেস্ট’ ডাটা সেটের পার্থক্যটা জানা জরুরি।

একটা জিনিস জেনে রাখা ভালো। সব মানুষের উত্তর আছে কিন্তু ক্যাগলে। মানে একজন মানুষ - সে আসলে বেঁচে বা মারা গিয়েছিলেন কিনা। আর তাই মডেলের 'এক্যুরেসি' জানতে আমরা আমাদের উত্তর সাবমিট করবো ক্যাগল সাইটে।

## আমাদের টাইটানিক চ্যালেঞ্জ

১. আমাদের দেয়া ডাটাসেট থেকে প্রেডিক্ট করে বের করতে হবে কারা বেঁচে গিয়েছিলেন।

২. এই প্রেডিকশনে আমরা ব্যবহার করবো মেশিন লার্নিং। উত্তর বের করে সেটাকে 'ম্যাচ' করতে হবে ক্যাগলে। বের হবে তার অ্যাক্যুরেসি লেভেল।

## ডাটা ডিক্শনারি (খুবই দরকারি)

| ভ্যারিয়েবল | মানে কি?                                                 | ভ্যালু কি হতে পারে                             |
| ---------- | -------------------------------------------------------- | ---------------------------------------------- |
| survival   | বেঁচে গিয়েছেন/মারা গিয়েছেন                               | 1 = বেঁচে গিয়েছেন; 0 = মারা গিয়েছেন            |
| pclass     | টিকেটের ক্লাস বা শ্রেণী                                  | 1st = প্রথম; 2nd = দ্বিতীয়; 3rd = তৃতীয়        |
| sex        | মহিলা না পুরুষ                                           |                                                |
| Age        | বয়স বছরে                                                 | এখানে অনেক ডাটা মিসিং                          |
| sibsp      | উনার ভাইবোন অথবা স্বামী/স্ত্রীর সংখ্যা ওইটাইটানিক জাহাজে | siblings / spouses সংখ্যায়                     |
| parch      | উনার বাবা মা অথবা বাচ্চাদের সংখ্যা                       | parent /children সংখ্যায়                       |
| ticket     | টিকেট নাম্বার                                            | কেবিন নম্বর ধরে টিকেট নম্বর                    |
| fare       | টাইটানিক যাত্রীর ভাড়া                                    |                                                |
| cabin      | টাইটানিকের কেবিন নাম্বার                                 |                                                |
| embarked   | কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে               | C = Cherbourg, Q = Queenstown, S = Southampton |

এখন ধারণা করি কে কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে সেটা দেখানো হলো একটা ছবিতে। ![](https://3889375835-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LggvvWRY6v017WN8ink%2F-Lggvz4rD_jjHfcIlBx1%2F-Lggw-dWmdxLTCqE0-tm%2FSlide9.png?generation=1559827058468070\&alt=media)

**ছবি: কে কোথা থেকে উঠেছেন**

এখানে pclass একটা ভালো ধারণা দেয় কে কোন অর্থনৈতিক ব্যাকগ্রাউন্ড থেকে এসেছেন। ১ম শ্রেণী = সমাজের উঁচু অবস্থান থেকে। ২য় শ্রেণী = মধ্যবিত্ত আর ৩য় = নিচের অর্থনৈতিক অবস্থান থেকে আসা।

বয়স শুধুমাত্র ভগ্নাংশে এসেছে যাদের বয়স ১ থেকেও কম।

sibsp = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;

siblings = ভাই, বোন, সৎভাই, সৎ বোন

spouses = স্বামী, স্ত্রী

parch = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;

Parent = মা, বাবা

Child = পুত্র, কন্যা, সৎপুত্র, সৎকন্যা

যেসব বাচ্চারা শুধুমাত্র তাদের পরিচালিকার সাথে এসেছেন তাদেরকে দেখানো হয়েছে parch=0

এখন আসি ‘ট্রেনিং’ ডাটার কাহিনী কি? মনে আছে ওই বিড়ালের কথা? সাদা, কালো, শোয়া, দাড়ানো সব ছবি অথবা সত্যিকারের বিড়াল দেখেই ট্রেনিং নিয়েছে আমাদের মাথা। এখন ঠিক ঠিক বলতে পারি বিড়াল দেখলেই। মেশিনও তাই। যতো বেশি ডাটা দিয়ে ট্রেনিং করাবেন ততো ভালো হবে প্রেডিকশন। ফলে, যে ডাটা দিয়ে ট্রেনিং করাবেন আপনার মডেলকে - ওটাই ‘ট্রেনিং ডাটা’। একটাই শর্ত, যে প্রশ্ন খুঁজছেন তার উত্তর থাকতে হবে ওই ডাটা সেটে। উত্তরসহ বলেই তার নাম ‘ট্রেনিং’ সেট। উত্তর না বললে শিখবে কিভাবে মেশিন?

আমাদের টাইটানিক কম্পিটিশনে বলা হয়েছে - প্রেডিক্ট করতে। কারা বেঁচে বা মারা গেছেন। তাহলে ট্রেনিং ডাটাতে থাকবে উনাদের সহযাত্রীদের ভাগ্যের কথা। উনাদের নয়। কথা বাদ, দেখুন ‘ট্রেইন.সিএসভি’ ফাইলটা। সিইং ইজ বিলিভিং। ‘সিএসভি’ ফাইল মানে হচ্ছে ‘কমা সেপারেটেড ভ্যালু’ আছে এই ফাইলে। নোটপ্যাডে খুললেই বুঝবেন নামের মাহাত্ম্য। একেকটা ভ্যালুকে কমা দিয়ে রাখা হয়েছে আলাদা করে। এই ‘সিএসভি’ ফরম্যাট হচ্ছে ইউনিভার্সাল একটা জিনিস। খুলতে পারে সবাই। সামান্য টেক্সট এডিটরে। ডাটাগুলো বুঝতে খুলতে হবে আমাদের প্রিয় এক্সেলে।

আবারো বলবো একই কথা।

দেখতে পেরেছেন তো ফাইল দুটো? ‘ট্রেইন’ আর ‘টেস্ট’ সিএসভি ফাইল দুটো। এক্সেলে? না দেখলে দেখে নিন বার কয়েক। কাজে লাগবে পরে। এখন আসি আমাদের এনভায়রনমেন্টে। কাজ করবো কোথায়? অনেক টুল আছে মার্কেটে। বিনামূল্যে। ভালো কোনটা? এটা নিয়ে যুদ্ধ চলছে পৃথিবীতে। পাইথনের পেছনে আছে রাজসিক গুগল। পরিসংখ্যান টুল ‘আর’য়ের পেছনে মাইক্রোসফট। সেয়ানে সেয়ানে।

আমার ৪৭ বছরের এক্সপেরিয়েন্স বলে - মূল্য দিন ভালবাসার। যেটাই পছন্দ আপনার, পছন্দের জোরে যেকোন কাজ তুলে নিয়ে আসতে পারবেন আপনি। ওই প্ল্যাটফর্মে। যতো কষ্টই হোক না কেন। পছন্দ না হলে খুঁত খুঁত করতে থাকবে মন। প্ল্যাটফর্ম বেছে নিতে হবে আপনাকে। বলুন, যাবেন কোথায় আপনি? আমি জানি কোথায় যাবো আমরা। সবার কথা চিন্তা করে। যাদের অভিজ্ঞতা নেই কোথাও। মেশিন লার্নিংয়ের শুরুতে।


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://rakibul-hassan.gitbook.io/mlbook-titanic/project-titanic/trg-test.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
