৭.২. ডাটা ভিজ্যুয়ালাইজেশন
সতর্কতা: এই চ্যাপ্টার এখন পড়বেন না। আর পড়লেও পড়বেন ঝামেলার কোডগুলো ছাড়া। এই চ্যাপ্টারটা লেখা হয়েছে আপনাদের শুধুমাত্র ছবি দেখানোর জন্য। ভুলেও কোডের দিকে তাকাবেন না। এই কোডগুলো নিজে নিজে বুঝে যাবেন "৭.৫. ডিসিশন ট্রি" টপিকের পরে। প্যাকেজ ইনস্টল করার ধারণাটা আছে সেখানে। |
আমার প্রিয় চ্যাপ্টার |
একটা কথা আছে না? ছবি কথা বলে। অথবা - একটা ছবি হাজারো লেখার সমান।
চলুন দেখি আমাদের train ডাটা দেখতে কেমন? ভিজ্যুয়ালি! কি রকম পরিমানে ডাটা নেই সেটাই দেখাবে আমাদের এই আউটপুটটা। আগেই বলেছিলাম "আর" এনভায়রনমেন্টের দক্ষতা এর প্রতিটা প্যাকেজে। আমরা এখন একটা ফাংশন ব্যবহার করবো যেটার নাম হচ্ছে "missmap"। এর কাজ হচ্ছে ডাটার ভেতর থেকে দেখানো কতটুকু ডাটা লাপাত্তা মানে "মিসিং" আছে। ডাটা প্রসেসিংএর একটা বড় অংশ হচ্ছে আপনি এর ভেতরে কতোটুকু জানেন। হাজারো প্যাকেজ আছে আপনাকে সাহায্য করার জন্য। সত্যি বলছি।
প্রথমে ইনস্টল করে নেই প্যাকেজটা। নাম অ্যামেলিয়া।
install.packages("Amelia")
বরাবরের মতো সেটাকে ব্যবহার করতে লোড করে নেই লাইব্রেরিটা।
library(Amelia)
ট্রেইন ডাটাফ্রেমকে দেখতে বললাম মিসম্যাপকে। সঙ্গে টাইটেল। লাপাত্তা ভ্যালুর জন্য হলুদ রং। বাকিটা কালো। ফেলে দিলাম লিজেন্ড।
missmap(train, main="Titanic Training Data - Missings Map",
col=c("yellow", "black"), legend=FALSE)

ছবি: হলুদ অংশ মানে ডাটা নেই সেখানে। কালো রং বলছে ডাটা আছে সেখানে।
মজার কথা হচ্ছে এখানে বয়সের প্রায় ২০% ডাটা আগে থেকেই নেই। ৭০% এর মতো যাত্রীদের কোন কেবিনের সাথে কানেক্ট করা যাচ্ছে না। এগুলো কিন্তু একটা চ্যালেঞ্জ। সেগুলো আমরা সামনে সামলে নেবো। আগের মতো আবার কিছু "বারপ্লট" করি আমাদের ভ্যারিয়েবলগুলোর ওপর। ওই যে কথা আছে না, বাঁচতে হলে জানতে হবে। পরের প্রতিটা বারপ্লট কিন্তু প্রতিটি আলাদাভাবে জেনারেট করা। আপনাদের সুবিধার জন্য একসাথে করা। কার্ট ওয়েরলিকে ধন্যবাদ। দুটো বারপ্লটের কোড দেয়া হলো এখানে। বাকিগুলো দেয়া আছে গিটহাবের পাতায়। সেটার লিংক দেয়া আছে প্রতিটা চ্যাপ্টারের নিচে।
barplot(table(train$Survived), # train ডাটাফ্রেমে Survived কলামের বারপ্লটnames.arg = c("Perished", "Survived"), # বারপ্লটগুলোর নিচে বোঝার জন্য কিছু নামmain="Survived (passenger fate)", col="black") # সেটার ওপরে কি টাইটেল হবে?barplot(table(train$Pclass),names.arg = c("first", "second", "third"),main="Pclass (passenger traveling class)", col="firebrick")


ছবি: প্রায় সব কলামের বারপ্লট
আপনি বলুন, কি বলছে ছবিগুলো? প্রথম কয়েকটা ছবির মানে এমন হতে পারে; (প্রথম প্রেডিকশনে কিন্তু জানা গিয়েছে ব্যাপারগুলো)
১. বেশিরভাগ যাত্রী মারা গিয়েছেন২. দ্বিগুনেরও বেশি ৩য় শ্রেণীর যাত্রী, ১ম + ২য় মিলিয়ে৩. পুরুষ যাত্রী থেকে মহিলা যাত্রী অনেক অনেক কম৪. ২০ থেকে ৩০ বছর বয়সের যাত্রীর সংখ্যা অনেক অনেক বেশি। এর মানে উন্নত জীবনের খোঁজে তারা যাচ্ছিলেন মার্কিন যুক্তরাষ্ট্রে।৫. একা যাত্রীর সংখ্যাই বেশি৬. বেশিরভাগের ভাড়া ৪০ ডলারের মধ্যে৭. বেশিরভাগ যাত্রী উঠেছিলেন সাউথহ্যাম্পটন থেকে
একেকটা ছবি যে কতো কথা বলে সেটা দেখবেন সামনে। বাকিগুলো আসবে সামনের EDA, এক্সপ্লোরেটরি ডাটা অ্যানালাইসিসে।
আর কার্ট ওয়েরলির গিটহাব স্ক্রিপ্ট, ভালো লিখেছেন উনি
Last modified 4yr ago