হাতে কলমে মেশিন লার্নিং
  • হাতেকলমে মেশিন লার্নিং
  • উৎসর্গ
  • প্রথম পাতা
  • মুখবন্ধ
  • কৃতজ্ঞতা
  • কাদের জন্য বইটা?
  • কাদের জন্য নয়
  • কিভাবে পড়বেন বইটা?
  • পর্ব ১: পাল্টে যাবার ঘটনা
    • ১.১. সিডিসি’র ওয়ার্নিং
    • ১.২. ইন্টারকানেকশন কস্ট মডেলিং
    • ১.৩. মানুষের পাশে ডাটা
    • ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ
    • ১.৫. সরকারি ওপেন ডাটা
    • ১.৬ প্রাইভেট সেক্টর + পাবলিক সেক্টর (ডাটা শেয়ারিং)
    • ১.৭. আর্টিফিসিয়াল ইন্টেলিজেন্স - মেশিন লার্নিংএর প্রসার
    • ১.৮. মেশিন লার্নিং ব্যবহারে এগিয়ে যে ইন্ডাস্ট্রিগুলো
  • পর্ব ২: ডাটা থেকে ভবিষ্যৎ দেখার ধারণা
    • ২.১. মেশিন লার্নিং হ্যাক
    • ২.২. ভবিষ্যৎ দেখার ধারণা + ডাটার গল্প বলার ক্ষমতা
    • ২.৩. মৃত্যু অ্যালগরিদম
    • ২.৪. দেশের নীতিনির্ধারণী ড্যাশবোর্ড
  • পর্ব ৩: মেশিন লার্নিং কি? (৩০ মিনিট)
    • ৩.১. মেশিন লার্নিং জিনিসটা কি?
    • ৩.২. কেন দরকার মেশিন লার্নিং?
    • ৩.৩. মেশিন লার্নিং এর কিছু ভাগ
    • ৩.৪. শুরুর ধারণা - ডাটা নিয়ে
    • ৩.৫. ডাটার তত্ব আর তার প্রসেস
    • ৩.৬. কিভাবে শিখবেন?
  • পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)
    • ৪.১. ‘ক্যাগল’ কি? আর দরকারই বা কেন?
    • ৪.২. কি করতে হবে ক্যাগলে?
    • ৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?
    • ৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?
    • ৪.৫. মেশিন লার্নিং কমিউনিটি
    • ৪.৬. ক্যাগল কার্নাল এবং অনলাইন হোস্টেড স্ক্রিপ্ট
  • পর্ব ৫: "আর" এনভায়রনমেন্ট
    • ৫.১. "আর" + "আর" ষ্টুডিও
    • ৫.২. "আর" ষ্টুডিওর কিছু খুঁটিনাটি
    • ৫.৩. প্রজেক্ট টাইটানিক + 'আর' ষ্টুডিও
    • ৫.৪. প্রজেক্টের গিটহাব স্ক্রিপ্ট
  • পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং
    • ৬.১. টাইটানিকের গল্প
    • ৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
    • ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
    • ৬.৪. ক্যাগলের কোন কোন কার্নাল?
    • ৬.৫. "আর" স্টুডিওতে ডাটা লোড
    • ৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?
  • পর্ব ৭: প্রেডিকশন
    • ৭.১. প্রথম প্রেডিকশন
    • ৭.২. ডাটা ভিজ্যুয়ালাইজেশন
    • ৭.৩. দ্বিতীয় প্রেডিকশন
    • ৭.৪. তৃতীয় প্রেডিকশন
    • ৭.৫. ডিসিশন ট্রি
    • ৭.৬. চতুর্থ প্রেডিকশন (মেশিন লার্নিং)
    • ৭.৭. পঞ্চম প্রেডিকশন (ফিচার ইঞ্জিনিয়ারিং)
    • ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন
    • ৭.৯. সপ্তম প্রেডিকশন (র‌্যান্ডম ফরেস্ট)
  • পর্ব ৮: কি আছে সামনে?
    • ৮.১. কি শিখলাম আমরা?
    • ৮.২. কোথায় যাচ্ছি এর পর?
    • ৮.৩. সামনের বই
    • ৮.৪. যোগাযোগের মাধ্যম
  • পর্ব ৯: পাইথনে টাইটানিক প্রজেক্ট
    • জুপিটারে প্রজেক্ট টাইটানিক
  • একটা ট্রেনিং প্রোগ্রাম
Powered by GitBook
On this page
  • দ্বিতীয় প্রেডিকশন
  • ব্যবহৃত গিটহাব স্ক্রিপ্ট (অনলাইন)

Was this helpful?

  1. পর্ব ৭: প্রেডিকশন

৭.৩. দ্বিতীয় প্রেডিকশন

দ্বিতীয় প্রেডিকশন

মন ভালো তো আজকে? আমরা শুরুতেই কিছু “আর” এর ট্রেনিং নিলাম, ধারণা করছি সামনে আসবে অল্প অল্প করে। না বুঝলে একটা কড়া ব্রেক দিবেন। পেছনে আসবেন কিছুটা। তারপর আস্তে ধীরে সামনে। ব্যাপারগুলো বেশ সোজা, খালি ভাববেন আমার মতো অলস লোক পারলে আপনিও পারবেন।

প্রথম প্রেডিকশনের পর থেকে আমরা যোগসুত্র খুজবো নতুন ভ্যারিয়েবলগুলোর ভেতরে। একটা একটা করে। এর ফলে আসতে থাকবে আমাদের মডেলের "অ্যাক্যুরেসি"। আস্তে আস্তে। মনে আছে তো গল্পটা? টাইটানিক জাহাজডুবিতে যে ব্যাপারটা সবচেয়ে বেশি মানুষকে ভাবিয়েছে সেটা হচ্ছে তাদের মৃত্যুর আগে ‘ভীতসন্ত্রস্ত’ মানুষ ম্যানেজমেন্টের মন্ত্রটা। মহিলা এবং বাচ্চা আগে, এই মটোটা কাজ করেছে পুরো জাহাজডুবি সময়। চলুন, আমরা শুরু করি ‘সেক্স’ এবং ‘বয়স’ ভ্যারিয়েবলটা নিয়ে। এগুলোর মধ্যে যোগসূত্রটা বের করতে হবে টার্গেট ভ্যারিয়েবলের সাথে। আগের মতো ডাটাগুলোকে লোড করে চলে আসি আমাদের আজকের নতুন কমান্ডে।

>summary (train$Sex)

female male

314 577

কী বোঝা গেল ডাটা থেকে? টাইটানিক জাহাজের বেশিরভাগই যাত্রী ছিল পুরুষ। সেটাই স্বাভাবিক যদি আপনি ধরেন ওই ১৯১২ সালের কথা। যারা আসলে ভাগ্য গড়তে যাচ্ছেন মার্কিন যুক্তরাস্ট্রে। তো - মহিলা যাত্রীদের সংখ্যা পেলেন, তাদের অনুপাত কোথায়? আগের মতো তাদের অনুপাত বের করতে ব্যবহার করছি আগের কমান্ডটাই।

>prop.table (table(train$Sex, train$Survived))

             0                    1

female 0.09090909 0.26150393

male 0.52525253 0.12233446

"আর" এর মজা এটাই। পুরানো কমান্ডই আসবে ঘুরেফিরে। কমান্ডের আউটপুট দেখে আপনি বললেন - কিছু হলো এটা? আসলেই তাই। আপনি ঠিক বলেছেন। আমরা চাই প্রতিটা সারি ধরে অনুপাত। সারি ধরে অনুপাত মানে প্রতিটা গ্রূপ - পুরুষ এবং মহিলা ধরে আলাদা আলাদা অনুপাত। এছাড়াও এই দুটি অনুপাত এর পাশাপাশি পুরুষ এবং মহিলা - এবং তাদের মধ্যে থেকে কারা কারা বেঁচেছেন অথবা কে কে মারা গেছেন - দরকার সেই সব মিলে অনুপাত, সেটা কি সম্ভব? হ্যাঁ, সেটাও সম্ভব। আপনাকে বলতে হবে আপনি কোন ডাইমেনশনে আপনার আউটপুটটা চান। অনুপাতটা তখন আসবে একেকটা সারি ধরে।

>prop.table (table(train$Sex, train$Survived),1) * 100

           0         1
female 0.2579618     0.7420382
male   0.8110919      0.1889081

আমার ধারণা এটা বেশ ভালো একটা আউটপুট নিয়ে এসেছে এখন। আগের মতো এটার সাথে গুন দিয়ে নেই ১০০ দিয়ে। শতকরা হিসেবে। এখন বলুন ব্যাপারটা কিন্তু দিনের আলোর মত পরিষ্কার। ঠিক বলেছেন। মহিলারাই বেঁচেছেন বেশি। মহিলারা কমসংখ্যক থেকেও বেঁচেছেন অনেক অনেক বেশি। তার মানে হচ্ছে জাহাজডুবির সময়ে মহিলা আর বাচ্চাদের নিয়ে যে নিয়মটা তারা ‘ফলো’ করছিল সেটা ঠিকমতো এগিয়েছে। বারপ্লট না দেখলে তো ভাত হজম হবে না আমার। দুটো নেগেটিভ একটা বাক্যে!

>barplot (table(train$Sex), xlab="Passenger", ylab="People", main="Train Data Passenger")

>test$Survived <- 0

>test$Survived [test$Sex == 'female'] <- 1

“০”কে নতুন করে অ্যাসাইন করি আমাদের Survived কলামে। পরের লাইনে একটা ইকুয়ালিটি অপারেটর দিয়ে সব মহিলাকে “এক” করে দিলাম। মানে - সব মহিলা যে বেঁচে গিয়েছে সেটা দেখানোর চেষ্টা করলাম। যেহেতু বেশিরভাগ মহিলাই বেঁচে গিয়েছেন, সেখানে আমরা প্রোবাবিলিটির হাতটাকে আরো একটু ভালো করলাম। আমাদের এখনকার প্রেডিকশন হচ্ছে সব মহিলারা বেঁচে গিয়েছেন। আমাদের টার্গেট ভ্যারিয়েবল কলামটাতে (Survived) উত্তর ভরা শেষ। মানে এই কলামটা ভর্তি হয়েছে উত্তর দিয়ে। এখন আমাদের উত্তরপত্র বানানোর পালা। আমি ধারণা করছি এখানে থেকে এমনিতেই পারবেন আপনারা। আমার কোন সাহায্যের প্রয়োজন নেই এখানে। আগের কমান্ডটাকে কপি করে নিয়ে এলেন এখানে। এই কমান্ডগুলো নিয়ে বিশদ আলাপ হয়েছে আগে। এখন তো আপনারা বোঝাবেন আমাকে।

ব্যাপারটা না বুঝলে ফিরে যেতে পারেন আমাদের আগের প্রেডিকশনে। মানে প্রথম প্রেডিকশনে।

> 2ndprediction <- data.frame(PassengerId = test$PassengerId, Survived = test$Survived)

> write.csv (2ndprediction, file = "2ndprediction.csv", row.names = FALSE)

তৈরি হলো ফাইল। এখন সাবমিশনের পালা। আমাদের 2ndprediction.csv ফাইলটাকে আপলোড করে দেই প্রথম প্রেডিকশনের মতো। কোন সমস্যা?

ব্যবহৃত গিটহাব স্ক্রিপ্ট (অনলাইন)

Previous৭.২. ডাটা ভিজ্যুয়ালাইজেশনNext৭.৪. তৃতীয় প্রেডিকশন

Last updated 5 years ago

Was this helpful?

আগের প্রেডিকশনে আপনাদের হাত পাকানোর জন্য আমরা আপডেট করি আগের রুলসেটটার। কি হতে পারে ব্যাপারটা? বলুন আপনি। মনে আছে - আমরা আগের Survived কলামটা পূর্ণ করেছিলাম শূন্য দিয়ে। যারা আগের প্রেডিকশনটা করেননি, তাদের জন্য একটু ডাবল চেক।ছবি: একটা রুলসেট তৈরি

দেখে নিতে পারেন আগের প্রথম প্রেডিকশনের সাবমিশন ফাইল তৈরি আর ক্যাগলে সাবমিশন অংশটুকু। কতো হলো "অ্যাক্যুরেসি" প্রেডিকশন? বলবেন কি? ৭৬.৫৫%! লাফ দিয়েছি ১৩৪৪ ধাপ। লিডারবোর্ডে। ঠিক তাই। অনেক অনেক এগিয়েছি আমরা। ছবি: দ্বিতীয় প্রেডিকশনের "অ্যাক্যুরেসি"

https://github.com/raqueeb/mltraining/blob/master/ML-workbook/2nd-prediction.R