৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
Last updated
Last updated
কি দেখছেন ‘ট্রেইন.সিএসভি’ ফাইলটাতে? খুলেছেন তো এক্সেলে? এক্সেল না থাকলে ‘গুগল স্প্রেডশীটে’। কলাম কিন্তু ১২টা। ‘প্যাসেন্জার আইডি’র পরই ‘সারভাইভড’ কলাম। ‘০’ মানে উনি মারা গিয়েছিলেন। যারা বেঁচে গিয়েছিলেন তাদের কলামে দেয়া আছে ‘১’। লক্ষ্য করুন ৮৯১টা ‘অবজারভেশন’ এই ফাইলে। পরিসংখ্যানের ভাষায় প্রতিটা ‘সারি’ একেকটা ‘অবজারভেশন’। অনেকে বলেন একেকটা রেকর্ড।
মানে, ২২২৪ জনের মধ্যে ৮৯১ জনের তথ্য আছে এই ফাইলে। ‘কে বেঁচে আর মারা গিয়েছিলেন’ সে তথ্য এখানে আছে বলেই এটা ট্রেনিং ডাটা সেট। এটাকে দিয়ে ‘ট্রেইন’ করবো আমাদের প্রেডিকটিভ মডেল। পরিসংখ্যানের ভাষায় ‘সারভাইভড’ কলামটাকে অনেকে বলবেন ‘টার্গেট ভ্যারিয়েবল’। ১২ কলামের একেকটা কলাম একেক ‘ভ্যারিয়েবল’। ডাটা ডিক্শনারিতে বলেছি ভ্যারিয়েবলগুলোর মানে কি? কি বোঝায়?ছবি: train.csv ফাইলের একটা স্ন্যাপশট, এক্সেলে
ডাউনলোড করা ক্যাগেলের টেস্ট ডাটা সেটটাই হচ্ছে ‘টেস্ট.সিএসভি’ ফাইল। খুলে দেখুন। মজার ব্যাপার, একটা কলাম কম। ঠিক বলেছেন। ‘সারভাইভড’ কলামটা নেই এখানে। তার মানে, এটাই ‘প্রেডিক্ট’ করবো আমরা। টেস্ট ডাটা সেট থেকে।
বুঝতেই পারছেন ‘টেস্ট ডাটা সেট’ হচ্ছে উত্তর ছাড়া ডাটা সেট। এখানের মানুষগুলোও নতুন। ওই ৮৯১ জনের বাইরের মানুষ উনারা। উনাদের ভাগ্য বের করবো আমরা। ৪১৮ জন প্যাসেন্জারের। সারিও ৪১৮টা। ‘ট্রেইন’ আর ‘টেস্ট’ ডাটা সেটের পার্থক্যটা জানা জরুরি।
একটা জিনিস জেনে রাখা ভালো। সব মানুষের উত্তর আছে কিন্তু ক্যাগলে। মানে একজন মানুষ - সে আসলে বেঁচে বা মারা গিয়েছিলেন কিনা। আর তাই মডেলের 'এক্যুরেসি' জানতে আমরা আমাদের উত্তর সাবমিট করবো ক্যাগল সাইটে।
১. আমাদের দেয়া ডাটাসেট থেকে প্রেডিক্ট করে বের করতে হবে কারা বেঁচে গিয়েছিলেন।
২. এই প্রেডিকশনে আমরা ব্যবহার করবো মেশিন লার্নিং। উত্তর বের করে সেটাকে 'ম্যাচ' করতে হবে ক্যাগলে। বের হবে তার অ্যাক্যুরেসি লেভেল।
ছবি: কে কোথা থেকে উঠেছেন
এখানে pclass একটা ভালো ধারণা দেয় কে কোন অর্থনৈতিক ব্যাকগ্রাউন্ড থেকে এসেছেন। ১ম শ্রেণী = সমাজের উঁচু অবস্থান থেকে। ২য় শ্রেণী = মধ্যবিত্ত আর ৩য় = নিচের অর্থনৈতিক অবস্থান থেকে আসা।
বয়স শুধুমাত্র ভগ্নাংশে এসেছে যাদের বয়স ১ থেকেও কম।
sibsp = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;
siblings = ভাই, বোন, সৎভাই, সৎ বোন
spouses = স্বামী, স্ত্রী
parch = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;
Parent = মা, বাবা
Child = পুত্র, কন্যা, সৎপুত্র, সৎকন্যা
যেসব বাচ্চারা শুধুমাত্র তাদের পরিচালিকার সাথে এসেছেন তাদেরকে দেখানো হয়েছে parch=0
এখন আসি ‘ট্রেনিং’ ডাটার কাহিনী কি? মনে আছে ওই বিড়ালের কথা? সাদা, কালো, শোয়া, দাড়ানো সব ছবি অথবা সত্যিকারের বিড়াল দেখেই ট্রেনিং নিয়েছে আমাদের মাথা। এখন ঠিক ঠিক বলতে পারি বিড়াল দেখলেই। মেশিনও তাই। যতো বেশি ডাটা দিয়ে ট্রেনিং করাবেন ততো ভালো হবে প্রেডিকশন। ফলে, যে ডাটা দিয়ে ট্রেনিং করাবেন আপনার মডেলকে - ওটাই ‘ট্রেনিং ডাটা’। একটাই শর্ত, যে প্রশ্ন খুঁজছেন তার উত্তর থাকতে হবে ওই ডাটা সেটে। উত্তরসহ বলেই তার নাম ‘ট্রেনিং’ সেট। উত্তর না বললে শিখবে কিভাবে মেশিন?
আমাদের টাইটানিক কম্পিটিশনে বলা হয়েছে - প্রেডিক্ট করতে। কারা বেঁচে বা মারা গেছেন। তাহলে ট্রেনিং ডাটাতে থাকবে উনাদের সহযাত্রীদের ভাগ্যের কথা। উনাদের নয়। কথা বাদ, দেখুন ‘ট্রেইন.সিএসভি’ ফাইলটা। সিইং ইজ বিলিভিং। ‘সিএসভি’ ফাইল মানে হচ্ছে ‘কমা সেপারেটেড ভ্যালু’ আছে এই ফাইলে। নোটপ্যাডে খুললেই বুঝবেন নামের মাহাত্ম্য। একেকটা ভ্যালুকে কমা দিয়ে রাখা হয়েছে আলাদা করে। এই ‘সিএসভি’ ফরম্যাট হচ্ছে ইউনিভার্সাল একটা জিনিস। খুলতে পারে সবাই। সামান্য টেক্সট এডিটরে। ডাটাগুলো বুঝতে খুলতে হবে আমাদের প্রিয় এক্সেলে।
আবারো বলবো একই কথা।
দেখতে পেরেছেন তো ফাইল দুটো? ‘ট্রেইন’ আর ‘টেস্ট’ সিএসভি ফাইল দুটো। এক্সেলে? না দেখলে দেখে নিন বার কয়েক। কাজে লাগবে পরে। এখন আসি আমাদের এনভায়রনমেন্টে। কাজ করবো কোথায়? অনেক টুল আছে মার্কেটে। বিনামূল্যে। ভালো কোনটা? এটা নিয়ে যুদ্ধ চলছে পৃথিবীতে। পাইথনের পেছনে আছে রাজসিক গুগল। পরিসংখ্যান টুল ‘আর’য়ের পেছনে মাইক্রোসফট। সেয়ানে সেয়ানে।
আমার ৪৭ বছরের এক্সপেরিয়েন্স বলে - মূল্য দিন ভালবাসার। যেটাই পছন্দ আপনার, পছন্দের জোরে যেকোন কাজ তুলে নিয়ে আসতে পারবেন আপনি। ওই প্ল্যাটফর্মে। যতো কষ্টই হোক না কেন। পছন্দ না হলে খুঁত খুঁত করতে থাকবে মন। প্ল্যাটফর্ম বেছে নিতে হবে আপনাকে। বলুন, যাবেন কোথায় আপনি? আমি জানি কোথায় যাবো আমরা। সবার কথা চিন্তা করে। যাদের অভিজ্ঞতা নেই কোথাও। মেশিন লার্নিংয়ের শুরুতে।
এখন ধারণা করি কে কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে সেটা দেখানো হলো একটা ছবিতে।
কি ধারণা পেতে যাচ্ছি আমরা?
দুটো ডাটাসেট নিয়ে কাজের হিসেব
ভ্যারিয়েবল
মানে কি?
ভ্যালু কি হতে পারে
survival
বেঁচে গিয়েছেন/মারা গিয়েছেন
1 = বেঁচে গিয়েছেন; 0 = মারা গিয়েছেন
pclass
টিকেটের ক্লাস বা শ্রেণী
1st = প্রথম; 2nd = দ্বিতীয়; 3rd = তৃতীয়
sex
মহিলা না পুরুষ
Age
বয়স বছরে
এখানে অনেক ডাটা মিসিং
sibsp
উনার ভাইবোন অথবা স্বামী/স্ত্রীর সংখ্যা ওইটাইটানিক জাহাজে
siblings / spouses সংখ্যায়
parch
উনার বাবা মা অথবা বাচ্চাদের সংখ্যা
parent /children সংখ্যায়
ticket
টিকেট নাম্বার
কেবিন নম্বর ধরে টিকেট নম্বর
fare
টাইটানিক যাত্রীর ভাড়া
cabin
টাইটানিকের কেবিন নাম্বার
embarked
কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে
C = Cherbourg, Q = Queenstown, S = Southampton