৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
Last updated
Was this helpful?
Last updated
Was this helpful?
কি ধারণা পেতে যাচ্ছি আমরা?
দুটো ডাটাসেট নিয়ে কাজের হিসেব
কি দেখছেন ‘ট্রেইন.সিএসভি’ ফাইলটাতে? খুলেছেন তো এক্সেলে? এক্সেল না থাকলে ‘গুগল স্প্রেডশীটে’। কলাম কিন্তু ১২টা। ‘প্যাসেন্জার আইডি’র পরই ‘সারভাইভড’ কলাম। ‘০’ মানে উনি মারা গিয়েছিলেন। যারা বেঁচে গিয়েছিলেন তাদের কলামে দেয়া আছে ‘১’। লক্ষ্য করুন ৮৯১টা ‘অবজারভেশন’ এই ফাইলে। পরিসংখ্যানের ভাষায় প্রতিটা ‘সারি’ একেকটা ‘অবজারভেশন’। অনেকে বলেন একেকটা রেকর্ড।
মানে, ২২২৪ জনের মধ্যে ৮৯১ জনের তথ্য আছে এই ফাইলে। ‘কে বেঁচে আর মারা গিয়েছিলেন’ সে তথ্য এখানে আছে বলেই এটা ট্রেনিং ডাটা সেট। এটাকে দিয়ে ‘ট্রেইন’ করবো আমাদের প্রেডিকটিভ মডেল। পরিসংখ্যানের ভাষায় ‘সারভাইভড’ কলামটাকে অনেকে বলবেন ‘টার্গেট ভ্যারিয়েবল’। ১২ কলামের একেকটা কলাম একেক ‘ভ্যারিয়েবল’। ডাটা ডিক্শনারিতে বলেছি ভ্যারিয়েবলগুলোর মানে কি? কি বোঝায়?ছবি: train.csv ফাইলের একটা স্ন্যাপশট, এক্সেলে
ডাউনলোড করা ক্যাগেলের টেস্ট ডাটা সেটটাই হচ্ছে ‘টেস্ট.সিএসভি’ ফাইল। খুলে দেখুন। মজার ব্যাপার, একটা কলাম কম। ঠিক বলেছেন। ‘সারভাইভড’ কলামটা নেই এখানে। তার মানে, এটাই ‘প্রেডিক্ট’ করবো আমরা। টেস্ট ডাটা সেট থেকে।
বুঝতেই পারছেন ‘টেস্ট ডাটা সেট’ হচ্ছে উত্তর ছাড়া ডাটা সেট। এখানের মানুষগুলোও নতুন। ওই ৮৯১ জনের বাইরের মানুষ উনারা। উনাদের ভাগ্য বের করবো আমরা। ৪১৮ জন প্যাসেন্জারের। সারিও ৪১৮টা। ‘ট্রেইন’ আর ‘টেস্ট’ ডাটা সেটের পার্থক্যটা জানা জরুরি।
একটা জিনিস জেনে রাখা ভালো। সব মানুষের উত্তর আছে কিন্তু ক্যাগলে। মানে একজন মানুষ - সে আসলে বেঁচে বা মারা গিয়েছিলেন কিনা। আর তাই মডেলের 'এক্যুরেসি' জানতে আমরা আমাদের উত্তর সাবমিট করবো ক্যাগল সাইটে।
১. আমাদের দেয়া ডাটাসেট থেকে প্রেডিক্ট করে বের করতে হবে কারা বেঁচে গিয়েছিলেন।
২. এই প্রেডিকশনে আমরা ব্যবহার করবো মেশিন লার্নিং। উত্তর বের করে সেটাকে 'ম্যাচ' করতে হবে ক্যাগলে। বের হবে তার অ্যাক্যুরেসি লেভেল।
ভ্যারিয়েবল
মানে কি?
ভ্যালু কি হতে পারে
survival
বেঁচে গিয়েছেন/মারা গিয়েছেন
1 = বেঁচে গিয়েছেন; 0 = মারা গিয়েছেন
pclass
টিকেটের ক্লাস বা শ্রেণী
1st = প্রথম; 2nd = দ্বিতীয়; 3rd = তৃতীয়
sex
মহিলা না পুরুষ
Age
বয়স বছরে
এখানে অনেক ডাটা মিসিং
sibsp
উনার ভাইবোন অথবা স্বামী/স্ত্রীর সংখ্যা ওইটাইটানিক জাহাজে
siblings / spouses সংখ্যায়
parch
উনার বাবা মা অথবা বাচ্চাদের সংখ্যা
parent /children সংখ্যায়
ticket
টিকেট নাম্বার
কেবিন নম্বর ধরে টিকেট নম্বর
fare
টাইটানিক যাত্রীর ভাড়া
cabin
টাইটানিকের কেবিন নাম্বার
embarked
কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে
C = Cherbourg, Q = Queenstown, S = Southampton
ছবি: কে কোথা থেকে উঠেছেন
এখানে pclass একটা ভালো ধারণা দেয় কে কোন অর্থনৈতিক ব্যাকগ্রাউন্ড থেকে এসেছেন। ১ম শ্রেণী = সমাজের উঁচু অবস্থান থেকে। ২য় শ্রেণী = মধ্যবিত্ত আর ৩য় = নিচের অর্থনৈতিক অবস্থান থেকে আসা।
বয়স শুধুমাত্র ভগ্নাংশে এসেছে যাদের বয়স ১ থেকেও কম।
sibsp = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;
siblings = ভাই, বোন, সৎভাই, সৎ বোন
spouses = স্বামী, স্ত্রী
parch = পরিবারের মধ্যে সম্পর্কগুলো এসেছে যেভাবে;
Parent = মা, বাবা
Child = পুত্র, কন্যা, সৎপুত্র, সৎকন্যা
যেসব বাচ্চারা শুধুমাত্র তাদের পরিচালিকার সাথে এসেছেন তাদেরকে দেখানো হয়েছে parch=0
এখন আসি ‘ট্রেনিং’ ডাটার কাহিনী কি? মনে আছে ওই বিড়ালের কথা? সাদা, কালো, শোয়া, দাড়ানো সব ছবি অথবা সত্যিকারের বিড়াল দেখেই ট্রেনিং নিয়েছে আমাদের মাথা। এখন ঠিক ঠিক বলতে পারি বিড়াল দেখলেই। মেশিনও তাই। যতো বেশি ডাটা দিয়ে ট্রেনিং করাবেন ততো ভালো হবে প্রেডিকশন। ফলে, যে ডাটা দিয়ে ট্রেনিং করাবেন আপনার মডেলকে - ওটাই ‘ট্রেনিং ডাটা’। একটাই শর্ত, যে প্রশ্ন খুঁজছেন তার উত্তর থাকতে হবে ওই ডাটা সেটে। উত্তরসহ বলেই তার নাম ‘ট্রেনিং’ সেট। উত্তর না বললে শিখবে কিভাবে মেশিন?
আমাদের টাইটানিক কম্পিটিশনে বলা হয়েছে - প্রেডিক্ট করতে। কারা বেঁচে বা মারা গেছেন। তাহলে ট্রেনিং ডাটাতে থাকবে উনাদের সহযাত্রীদের ভাগ্যের কথা। উনাদের নয়। কথা বাদ, দেখুন ‘ট্রেইন.সিএসভি’ ফাইলটা। সিইং ইজ বিলিভিং। ‘সিএসভি’ ফাইল মানে হচ্ছে ‘কমা সেপারেটেড ভ্যালু’ আছে এই ফাইলে। নোটপ্যাডে খুললেই বুঝবেন নামের মাহাত্ম্য। একেকটা ভ্যালুকে কমা দিয়ে রাখা হয়েছে আলাদা করে। এই ‘সিএসভি’ ফরম্যাট হচ্ছে ইউনিভার্সাল একটা জিনিস। খুলতে পারে সবাই। সামান্য টেক্সট এডিটরে। ডাটাগুলো বুঝতে খুলতে হবে আমাদের প্রিয় এক্সেলে।
আবারো বলবো একই কথা।
দেখতে পেরেছেন তো ফাইল দুটো? ‘ট্রেইন’ আর ‘টেস্ট’ সিএসভি ফাইল দুটো। এক্সেলে? না দেখলে দেখে নিন বার কয়েক। কাজে লাগবে পরে। এখন আসি আমাদের এনভায়রনমেন্টে। কাজ করবো কোথায়? অনেক টুল আছে মার্কেটে। বিনামূল্যে। ভালো কোনটা? এটা নিয়ে যুদ্ধ চলছে পৃথিবীতে। পাইথনের পেছনে আছে রাজসিক গুগল। পরিসংখ্যান টুল ‘আর’য়ের পেছনে মাইক্রোসফট। সেয়ানে সেয়ানে।
আমার ৪৭ বছরের এক্সপেরিয়েন্স বলে - মূল্য দিন ভালবাসার। যেটাই পছন্দ আপনার, পছন্দের জোরে যেকোন কাজ তুলে নিয়ে আসতে পারবেন আপনি। ওই প্ল্যাটফর্মে। যতো কষ্টই হোক না কেন। পছন্দ না হলে খুঁত খুঁত করতে থাকবে মন। প্ল্যাটফর্ম বেছে নিতে হবে আপনাকে। বলুন, যাবেন কোথায় আপনি? আমি জানি কোথায় যাবো আমরা। সবার কথা চিন্তা করে। যাদের অভিজ্ঞতা নেই কোথাও। মেশিন লার্নিংয়ের শুরুতে।
এখন ধারণা করি কে কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে সেটা দেখানো হলো একটা ছবিতে।