৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট

‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট

কি ধারণা পেতে যাচ্ছি আমরা?

দুটো ডাটাসেট নিয়ে কাজের হিসেব

কি দেখছেন ‘ট্রেইন.সিএসভি’ ফাইলটাতে? খুলেছেন তো এক্সেলে? এক্সেল না থাকলে ‘গুগল স্প্রেডশীটে’। কলাম কিন্তু ১২টা। ‘প্যাসেন্জার আইডি’র পরই ‘সারভাইভড’ কলাম। ‘০’ মানে উনি মারা গিয়েছিলেন। যারা বেঁচে গিয়েছিলেন তাদের কলামে দেয়া আছে ‘১’। লক্ষ্য করুন ৮৯১টা ‘অবজারভেশন’ এই ফাইলে। পরিসংখ্যানের ভাষায় প্রতিটা ‘সারি’ একেকটা ‘অবজারভেশন’। অনেকে বলেন একেকটা রেকর্ড।

মানে, ২২২৪ জনের মধ্যে ৮৯১ জনের তথ্য আছে এই ফাইলে। ‘কে বেঁচে আর মারা গিয়েছিলেন’ সে তথ্য এখানে আছে বলেই এটা ট্রেনিং ডাটা সেট। এটাকে দিয়ে ‘ট্রেইন’ করবো আমাদের প্রেডিকটিভ মডেল। পরিসংখ্যানের ভাষায় ‘সারভাইভড’ কলামটাকে অনেকে বলবেন ‘টার্গেট ভ্যারিয়েবল’। ১২ কলামের একেকটা কলাম একেক ‘ভ্যারিয়েবল’। ডাটা ডিক্শনারিতে বলেছি ভ্যারিয়েবলগুলোর মানে কি? কি বোঝায়?ছবি: train.csv ফাইলের একটা স্ন্যাপশট, এক্সেলে

ডাউনলোড করা ক্যাগেলের টেস্ট ডাটা সেটটাই হচ্ছে ‘টেস্ট.সিএসভি’ ফাইল। খুলে দেখুন। মজার ব্যাপার, একটা কলাম কম। ঠিক বলেছেন। ‘সারভাইভড’ কলামটা নেই এখানে। তার মানে, এটাই ‘প্রেডিক্ট’ করবো আমরা। টেস্ট ডাটা সেট থেকে।

বুঝতেই পারছেন ‘টেস্ট ডাটা সেট’ হচ্ছে উত্তর ছাড়া ডাটা সেট। এখানের মানুষগুলোও নতুন। ওই ৮৯১ জনের বাইরের মানুষ উনারা। উনাদের ভাগ্য বের করবো আমরা। ৪১৮ জন প্যাসেন্জারের। সারিও ৪১৮টা। ‘ট্রেইন’ আর ‘টেস্ট’ ডাটা সেটের পার্থক্যটা জানা জরুরি।

একটা জিনিস জেনে রাখা ভালো। সব মানুষের উত্তর আছে কিন্তু ক্যাগলে। মানে একজন মানুষ - সে আসলে বেঁচে বা মারা গিয়েছিলেন কিনা। আর তাই মডেলের 'এক্যুরেসি' জানতে আমরা আমাদের উত্তর সাবমিট করবো ক্যাগল সাইটে।

আমাদের টাইটানিক চ্যালেঞ্জ

১. আমাদের দেয়া ডাটাসেট থেকে প্রেডিক্ট করে বের করতে হবে কারা বেঁচে গিয়েছিলেন।

২. এই প্রেডিকশনে আমরা ব্যবহার করবো মেশিন লার্নিং। উত্তর বের করে সেটাকে 'ম্যাচ' করতে হবে ক্যাগলে। বের হবে তার অ্যাক্যুরেসি লেভেল।

ডাটা ডিক্শনারি (খুবই দরকারি)

ভ্যারিয়েবল

মানে কি?

ভ্যালু কি হতে পারে

survival

বেঁচে গিয়েছেন/মারা গিয়েছেন

1 = বেঁচে গিয়েছেন; 0 = মারা গিয়েছেন

pclass

টিকেটের ক্লাস বা শ্রেণী

1st = প্রথম; 2nd = দ্বিতীয়; 3rd = তৃতীয়

sex

মহিলা না পুরুষ

Age

বয়স বছরে

এখানে অনেক ডাটা মিসিং

sibsp

উনার ভাইবোন অথবা স্বামী/স্ত্রীর সংখ্যা ওইটাইটানিক জাহাজে

siblings / spouses সংখ্যায়

parch

উনার বাবা মা অথবা বাচ্চাদের সংখ্যা

parent /children সংখ্যায়

ticket

টিকেট নাম্বার

কেবিন নম্বর ধরে টিকেট নম্বর

fare

টাইটানিক যাত্রীর ভাড়া

cabin

টাইটানিকের কেবিন নাম্বার

embarked

কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে

C = Cherbourg, Q = Queenstown, S = Southampton

এখন ধারণা করি কে কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে সেটা দেখানো হলো একটা ছবিতে।

ছবি: কে কোথা থেকে উঠেছেন

এখানে pclass একটা ভালো ধারণা দেয় কে কোন অর্থনৈতিক ব্যাকগ্রাউন্ড থেকে এসেছেন। ১ম শ্রেণী = সমাজের উঁচু অবস্থান থেকে। ২য় শ্রেণী = মধ্যবিত্ত আর ৩য় = নিচের অর্থনৈতিক অবস্থান থেকে আসা।

বয়স শুধুমাত্র ভগ্নাংশে এসেছে যাদের বয়স ১ থেকেও কম।

sibsp = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;

siblings = ভাই, বোন, সৎভাই, সৎ বোন

spouses = স্বামী, স্ত্রী

parch = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;

Parent = মা, বাবা

Child = পুত্র, কন্যা, সৎপুত্র, সৎকন্যা

যেসব বাচ্চারা শুধুমাত্র তাদের পরিচালিকার সাথে এসেছেন তাদেরকে দেখানো হয়েছে parch=0

এখন আসি ‘ট্রেনিং’ ডাটার কাহিনী কি? মনে আছে ওই বিড়ালের কথা? সাদা, কালো, শোয়া, দাড়ানো সব ছবি অথবা সত্যিকারের বিড়াল দেখেই ট্রেনিং নিয়েছে আমাদের মাথা। এখন ঠিক ঠিক বলতে পারি বিড়াল দেখলেই। মেশিনও তাই। যতো বেশি ডাটা দিয়ে ট্রেনিং করাবেন ততো ভালো হবে প্রেডিকশন। ফলে, যে ডাটা দিয়ে ট্রেনিং করাবেন আপনার মডেলকে - ওটাই ‘ট্রেনিং ডাটা’। একটাই শর্ত, যে প্রশ্ন খুঁজছেন তার উত্তর থাকতে হবে ওই ডাটা সেটে। উত্তরসহ বলেই তার নাম ‘ট্রেনিং’ সেট। উত্তর না বললে শিখবে কিভাবে মেশিন?

আমাদের টাইটানিক কম্পিটিশনে বলা হয়েছে - প্রেডিক্ট করতে। কারা বেঁচে বা মারা গেছেন। তাহলে ট্রেনিং ডাটাতে থাকবে উনাদের সহযাত্রীদের ভাগ্যের কথা। উনাদের নয়। কথা বাদ, দেখুন ‘ট্রেইন.সিএসভি’ ফাইলটা। সিইং ইজ বিলিভিং। ‘সিএসভি’ ফাইল মানে হচ্ছে ‘কমা সেপারেটেড ভ্যালু’ আছে এই ফাইলে। নোটপ্যাডে খুললেই বুঝবেন নামের মাহাত্ম্য। একেকটা ভ্যালুকে কমা দিয়ে রাখা হয়েছে আলাদা করে। এই ‘সিএসভি’ ফরম্যাট হচ্ছে ইউনিভার্সাল একটা জিনিস। খুলতে পারে সবাই। সামান্য টেক্সট এডিটরে। ডাটাগুলো বুঝতে খুলতে হবে আমাদের প্রিয় এক্সেলে।

আবারো বলবো একই কথা।

দেখতে পেরেছেন তো ফাইল দুটো? ‘ট্রেইন’ আর ‘টেস্ট’ সিএসভি ফাইল দুটো। এক্সেলে? না দেখলে দেখে নিন বার কয়েক। কাজে লাগবে পরে। এখন আসি আমাদের এনভায়রনমেন্টে। কাজ করবো কোথায়? অনেক টুল আছে মার্কেটে। বিনামূল্যে। ভালো কোনটা? এটা নিয়ে যুদ্ধ চলছে পৃথিবীতে। পাইথনের পেছনে আছে রাজসিক গুগল। পরিসংখ্যান টুল ‘আর’য়ের পেছনে মাইক্রোসফট। সেয়ানে সেয়ানে।

আমার ৪৭ বছরের এক্সপেরিয়েন্স বলে - মূল্য দিন ভালবাসার। যেটাই পছন্দ আপনার, পছন্দের জোরে যেকোন কাজ তুলে নিয়ে আসতে পারবেন আপনি। ওই প্ল্যাটফর্মে। যতো কষ্টই হোক না কেন। পছন্দ না হলে খুঁত খুঁত করতে থাকবে মন। প্ল্যাটফর্ম বেছে নিতে হবে আপনাকে। বলুন, যাবেন কোথায় আপনি? আমি জানি কোথায় যাবো আমরা। সবার কথা চিন্তা করে। যাদের অভিজ্ঞতা নেই কোথাও। মেশিন লার্নিংয়ের শুরুতে।