> For the complete documentation index, see [llms.txt](https://rakibul-hassan.gitbook.io/mlbook-titanic/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://rakibul-hassan.gitbook.io/mlbook-titanic/prediction/6th-prediction.md).

# ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন

## ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন

| আমার প্রিয় চ্যাপ্টার |
| -------------------- |

ডাটা নিয়ে কাজ করতে গিয়ে দেখলাম দুটো সমস্যা। ১. ডাটা’র অভাব ২. ডাটা থাকলেও সেটা পরিপূর্ণ নয়। হয় ডাটা ভুল, অথবা অনেক ডাটা মিসিং। এদিকে আগেই বলেছিলাম ডাটা না থাকা আর ডাটা’র ঘরে "শুন্য" থাকা - দুটো দু জিনিস। তবে আসল কথা হচ্ছে - ডাটা না থাকলে "প্রেডিক্ট" করবো কিভাবে?

ডাটা থাকবে না এটাই স্বাভাবিক। আশা করি একটা “পারফেক্ট ওয়ার্ল্ডে” থাকি আমরা, কিন্তু আসল কথা হচ্ছে প্রতিনিয়ত নতুন চ্যালেঞ্জ নিতে হয় আমাদের। যতই চিন্তা করি, আজকে বউ ঝগড়া করবেনা আমার সাথে, ততোই যেন ঝগড়া উড়ে উড়ে আসে। আর সেটাই স্বাভাবিক। যতোই ধারণা করি বস আমাকে বুঝবে ঠিকমতো - ততোই জিনিস উল্টোয়। এর মানে হচ্ছে - আমরা অনেক কিছুই চিন্তা করি, কিন্তু বাস্তবে হয় অন্য।

সেরকমভাবে আমরা যখন ডাটা নিয়ে কাজ করি, বেশিরভাগই সময়ে পুরো ডাটা পাইনা। আর যেটাও বা পাই় সেটাও থাকে ভুলে ভরা। মোদ্দা কথা হচ্ছে, পুরো ডাটা পাওয়া যাবে না। আর - পাওয়া গেলেও সেটা থাকবে অসম্পূর্ণ। তো অসম্পূর্ণ ডাটা থাকলে কি বসে থাকব আমরা? সেখানেই মানুষের মুনশিয়ানা। প্রতিটা ডাটা কিন্তু একে অপরের সাথে সম্পর্কযুক্ত। আমরা একে বলি “কো রিলেটেড” ডাটা।

একটা উদাহরণ টানি বরং। বাবা এবং মা’র কেবিন নাম্বারটা ডাটা সেটে থাকলেও তাদের পাঁচ বছরের সন্তানের ডাটা মিসিং। এখন সেই সন্তানের কেবিন নাম্বার কি হবে? সোজা উত্তর। বাবা আর মা’র কেবিন নাম্বারটাই হবে তাদের সন্তানের। সেটাই তো স্বাভাবিক। তাই নয় কি?

অথবা, একই পরিবারের তিন জনের জাহাজ ভাড়ার ডাটা থাকলেও আরেকজনেরটা মিসিং। তো কি হবে এখানে? ধারণার সাথে মিলিয়ে একই ভাড়ার তথ্যটা ঢুকিয়ে দেবো তার ওখানে। এছাড়াও গড় ভ্যালুটা ঢুকিয়ে দেয়া যেতে পারে সেখানে। বোঝা গেছে তো ব্যাপারটা? ফিরে যাই আমাদের ডাটা সেটে। আমরা সামনে নিয়ে আসছি ডাটা “প্রি-প্রসেসিং” নিয়ে। আমাদেরকে “ক্লিন” করতে হবে অসম্পূর্ন ডাটা। ভরতে হবে বিশ্বাসযোগ্য ডাটা দিয়ে। ডাটাকে তৈরি করতে হবে নতুন নতুন টেকনিকের জন্য ঠিক করে।

\> summary(combined\_set$Age)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's

0.17 21.00 28.00 29.88 39.00 80.00 263

সোজা পথ আছে একটা। আমাদের বয়স ভ্যারিয়েবলটা দেখি বরং। এখানে দেখছি “NA's” ই আছে ১৬৩টা। “NA” মানে নট এভেইল্যাবল। মানে বয়স দেয়া নেই আমাদের ২৬৩টা রেকর্ডে। মানে প্রায় ২০%! ভয়ংকর অবস্থা। কেমন হয় বাকি সব বয়সের গড় বের করে ভর্তি করি ফাঁকা রেকর্ডে? আসলেই তাই। নাই মামা থেকে কানা মামা ভালো। আর ব্যাপারটা তো মিথ্যে নয়। সবার গড় বয়স দিয়ে রিপ্লেস করে দেবো মিসিং ভ্যালুগুলো। মানে সব “NA's”গুলো।

দ্বিতীয় পন্থা আরো মজার। মনে আছে “ডিসিশন ট্রি’র কথা? “ডিসিশন ট্রি’ তো জানে অন্য ডাটার কথা। সেখান থেকে মিলিয়ে দেবে সে। কেমন হয় সেটা? কৈ এর কৈ ভাঁজা। “is.na()” এর উল্টোটা হচ্ছে “!is.na()”। মানে “NA” হওয়া যাবে না। method="anova", আমরা ক্লাসিফাই করছি না - বরং দরকার আমাদের কন্টিনিউয়াস ভ্যারিয়েবল। চলুন বাড়তে দেই আমাদের নতুন ডিসিশন ট্রি। বাকি বয়সগুলো থেকে তৈরি করি আমাদের নতুন বয়স। বিশেষ করে যেখানে বয়সের ঘর ফাঁকা। মজা না?

> \> FillAge <- rpart(Age \~ Pclass + Mother + FamilySize + Sex + SibSp + Parch + Deck + Fare + Embarked + Title + FamilyID + FamilySize + FamilySizeGroup, data=combined\_set\[!is.na(combined\_set$Age),], method="anova")

ডিসিশন ট্রি’র আউটপুট নিয়ে সেটা পাঠিয়ে দিলাম প্রেডিক্ট ফাংশনে। এরপর সেটাকে ভর্তি করতে বললাম যেখানে কোন ভ্যালু নেই।

> \> combined\_set$Age\[is.na(combined\_set$Age)] <- predict(FillAge, combined\_set\[is.na(combined\_set$Age),])

আবার সামারি কমান্ড দিয়ে দেখলে দেখবেন সব ফকফকা। মানে, সব “NA” গায়েব। সেখানে এসে ঢুকে গেছে নতুন প্রেডিক্টেড ভ্যালু। খুব স্মার্ট না?

> \> summary(combined\_set$Age)
>
> Min. 1st Qu. Median Mean 3rd Qu. Max.
>
> 0.17 22.00 28.86 29.70 36.50 80.00

এখন দেখি, পুরো ডাটাসেটের কি অবস্থা?

\> summary(combined\_set)

আমাদের হাতে Embarked আর Fare ভ্যারিয়েবলগুলোর কিছু ঘর ফাঁকা আছে। দেখি তাহলে ভেতরে কি অবস্থা।

\> summary(combined\_set$Embarked)

```
       C           Q          S
  2   270         123        914
```

মনে আছে তো আগের ঘটনা?

embarked ----> কোথা থেকে উঠেছেন, বিশেষ করে কোন পোর্ট থেকে ------> C = Cherbourg, Q = Queenstown, S = Southampton

বোঝা যাচ্ছে দুটো প্যাসেঞ্জারের ঘর ফাঁকা আছে। এখানে একটা কথা না বললেই নয়। "NA" আর "ব্ল্যাংক" ঘরের মধ্যে পার্থক্য আছে। এখানে $Embarked ঘরটা আসলে ফাঁকা। ব্ল্যাংক। "NA" নয়। যাই হোক ক্লিন করতে বসে ঘোমটা দিয়ে থাকলে তো আর হবে না। ফেলে দেই দুটো ঘরকে। কোন দুটো ঘর তাহলে?

> \>which(combined\_set$Embarked == '')
>
> \[1] 62 830 -------> দুটো ঘরে। আমাদের আগের হিসেবে দেখা গেছে S = Southampton থেকে মানুষ উঠেছেন বেশি।
>
> combined\_set$Embarked\[c(62,830)] = "S" ------> তাহলে S = Southampton দিয়েই ভর্তি করি ফাঁকা ঘরটা।
>
> combined\_set$Embarked <- factor(combined\_set$Embarked) --------> পাল্টে নিয়ে আসি আমাদের ফ্যাক্টরে।

$Fare এর মধ্যে একটা মাত্র "NA" আছে। আমাদের কষ্ট কমে গেল।

> \> summary(combined\_set$Fare)
>
> Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
>
> 0.000 7.896 14.454 33.295 31.275 512.329 1

তো "NA"টা আছে কোথায়?

> \> which(is.na(combined\_set$Fare))
>
> \[1] 1044 ------> ১০৪৪ এর ঘরে।

আমাদের সব প্যাসেঞ্জারদের ভাড়ার "গড়" ভ্যালুটা পাঠিয়ে দেই ওই ঘরে।

\>combined\_set$Fare\[1044] <- median(combined\_set$Fare, na.rm=TRUE)

চেক করার পালা। আগেই বলেছি - আমাদের পরের প্রেডিকশনে এমন টেকনিক ব্যবহার করছি যা কোন ধরণের ব্ল্যাংক বা "NA" ভ্যালু নিতে পারে না।

লোড করে নেই আমাদের mice প্যাকেজ।

library('mice')

library('lattice')

এরপর কমান্ড দেই প্যাটার্নের। কোন মিসিং ভ্যালু নেই আর। অল সেট আমরা!

\>md.pattern(combined\_set)![](/files/-Lggw-QQuyzNiq3iz20J)**ছবি: কোন মিসিং ভ্যালু নেই এখানে**

আমাদের কাজ প্রায় শেষ। এখন একটা প্রেডিকশনের পালা। করবেন কি আপনি? পুরানো ডিসিশন ট্রি দিয়েই তবে নতুন "মিসিং ডাটা" ছাড়া ডাটা দিয়ে। আগে যা করেছি সেখানে অনেক ডাটা "মিসিং" ছিলো। গিটহাবের স্ক্রিপ্টটা দেখবেন ভালো করে। আসল ঘটনা ওই স্ক্রিপ্টে। সত্যি বলছি। অনেক কারুকাজ আছে ওখানে।

## ব্যবহৃত গিটহাব স্ক্রিপ্ট (অনলাইন)

<https://github.com/raqueeb/mltraining/blob/master/ML-workbook/6th-prediction.R>

কি হলো? খুব একটা এগুতে পারিনি আমরা লিডারবোর্ডে। কেন? ডাটা তো সব ভর্তি। কি হলো তাহলে? সব ভ্যারিয়েবল কি নেয়া ঠিক হয়েছে?