হাতে কলমে মেশিন লার্নিং
  • হাতেকলমে মেশিন লার্নিং
  • উৎসর্গ
  • প্রথম পাতা
  • মুখবন্ধ
  • কৃতজ্ঞতা
  • কাদের জন্য বইটা?
  • কাদের জন্য নয়
  • কিভাবে পড়বেন বইটা?
  • পর্ব ১: পাল্টে যাবার ঘটনা
    • ১.১. সিডিসি’র ওয়ার্নিং
    • ১.২. ইন্টারকানেকশন কস্ট মডেলিং
    • ১.৩. মানুষের পাশে ডাটা
    • ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ
    • ১.৫. সরকারি ওপেন ডাটা
    • ১.৬ প্রাইভেট সেক্টর + পাবলিক সেক্টর (ডাটা শেয়ারিং)
    • ১.৭. আর্টিফিসিয়াল ইন্টেলিজেন্স - মেশিন লার্নিংএর প্রসার
    • ১.৮. মেশিন লার্নিং ব্যবহারে এগিয়ে যে ইন্ডাস্ট্রিগুলো
  • পর্ব ২: ডাটা থেকে ভবিষ্যৎ দেখার ধারণা
    • ২.১. মেশিন লার্নিং হ্যাক
    • ২.২. ভবিষ্যৎ দেখার ধারণা + ডাটার গল্প বলার ক্ষমতা
    • ২.৩. মৃত্যু অ্যালগরিদম
    • ২.৪. দেশের নীতিনির্ধারণী ড্যাশবোর্ড
  • পর্ব ৩: মেশিন লার্নিং কি? (৩০ মিনিট)
    • ৩.১. মেশিন লার্নিং জিনিসটা কি?
    • ৩.২. কেন দরকার মেশিন লার্নিং?
    • ৩.৩. মেশিন লার্নিং এর কিছু ভাগ
    • ৩.৪. শুরুর ধারণা - ডাটা নিয়ে
    • ৩.৫. ডাটার তত্ব আর তার প্রসেস
    • ৩.৬. কিভাবে শিখবেন?
  • পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)
    • ৪.১. ‘ক্যাগল’ কি? আর দরকারই বা কেন?
    • ৪.২. কি করতে হবে ক্যাগলে?
    • ৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?
    • ৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?
    • ৪.৫. মেশিন লার্নিং কমিউনিটি
    • ৪.৬. ক্যাগল কার্নাল এবং অনলাইন হোস্টেড স্ক্রিপ্ট
  • পর্ব ৫: "আর" এনভায়রনমেন্ট
    • ৫.১. "আর" + "আর" ষ্টুডিও
    • ৫.২. "আর" ষ্টুডিওর কিছু খুঁটিনাটি
    • ৫.৩. প্রজেক্ট টাইটানিক + 'আর' ষ্টুডিও
    • ৫.৪. প্রজেক্টের গিটহাব স্ক্রিপ্ট
  • পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং
    • ৬.১. টাইটানিকের গল্প
    • ৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
    • ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
    • ৬.৪. ক্যাগলের কোন কোন কার্নাল?
    • ৬.৫. "আর" স্টুডিওতে ডাটা লোড
    • ৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?
  • পর্ব ৭: প্রেডিকশন
    • ৭.১. প্রথম প্রেডিকশন
    • ৭.২. ডাটা ভিজ্যুয়ালাইজেশন
    • ৭.৩. দ্বিতীয় প্রেডিকশন
    • ৭.৪. তৃতীয় প্রেডিকশন
    • ৭.৫. ডিসিশন ট্রি
    • ৭.৬. চতুর্থ প্রেডিকশন (মেশিন লার্নিং)
    • ৭.৭. পঞ্চম প্রেডিকশন (ফিচার ইঞ্জিনিয়ারিং)
    • ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন
    • ৭.৯. সপ্তম প্রেডিকশন (র‌্যান্ডম ফরেস্ট)
  • পর্ব ৮: কি আছে সামনে?
    • ৮.১. কি শিখলাম আমরা?
    • ৮.২. কোথায় যাচ্ছি এর পর?
    • ৮.৩. সামনের বই
    • ৮.৪. যোগাযোগের মাধ্যম
  • পর্ব ৯: পাইথনে টাইটানিক প্রজেক্ট
    • জুপিটারে প্রজেক্ট টাইটানিক
  • একটা ট্রেনিং প্রোগ্রাম
Powered by GitBook
On this page
  • ডাটা ভিজ্যুয়ালাইজেশন
  • ব্যবহৃত গিটহাব স্ক্রিপ্ট (অনলাইন)

Was this helpful?

  1. পর্ব ৭: প্রেডিকশন

৭.২. ডাটা ভিজ্যুয়ালাইজেশন

Previous৭.১. প্রথম প্রেডিকশনNext৭.৩. দ্বিতীয় প্রেডিকশন

Last updated 5 years ago

Was this helpful?

ডাটা ভিজ্যুয়ালাইজেশন

সতর্কতা: এই চ্যাপ্টার এখন পড়বেন না। আর পড়লেও পড়বেন ঝামেলার কোডগুলো ছাড়া। এই চ্যাপ্টারটা লেখা হয়েছে আপনাদের শুধুমাত্র ছবি দেখানোর জন্য। ভুলেও কোডের দিকে তাকাবেন না। এই কোডগুলো নিজে নিজে বুঝে যাবেন "৭.৫. ডিসিশন ট্রি" টপিকের পরে। প্যাকেজ ইনস্টল করার ধারণাটা আছে সেখানে।

আমার প্রিয় চ্যাপ্টার

একটা কথা আছে না? ছবি কথা বলে। অথবা - একটা ছবি হাজারো লেখার সমান।

চলুন দেখি আমাদের train ডাটা দেখতে কেমন? ভিজ্যুয়ালি! কি রকম পরিমানে ডাটা নেই সেটাই দেখাবে আমাদের এই আউটপুটটা। আগেই বলেছিলাম "আর" এনভায়রনমেন্টের দক্ষতা এর প্রতিটা প্যাকেজে। আমরা এখন একটা ফাংশন ব্যবহার করবো যেটার নাম হচ্ছে "missmap"। এর কাজ হচ্ছে ডাটার ভেতর থেকে দেখানো কতটুকু ডাটা লাপাত্তা মানে "মিসিং" আছে। ডাটা প্রসেসিংএর একটা বড় অংশ হচ্ছে আপনি এর ভেতরে কতোটুকু জানেন। হাজারো প্যাকেজ আছে আপনাকে সাহায্য করার জন্য। সত্যি বলছি।

প্রথমে ইনস্টল করে নেই প্যাকেজটা। নাম অ্যামেলিয়া।

install.packages("Amelia")

বরাবরের মতো সেটাকে ব্যবহার করতে লোড করে নেই লাইব্রেরিটা।

library(Amelia)

ট্রেইন ডাটাফ্রেমকে দেখতে বললাম মিসম্যাপকে। সঙ্গে টাইটেল। লাপাত্তা ভ্যালুর জন্য হলুদ রং। বাকিটা কালো। ফেলে দিলাম লিজেন্ড।

missmap(train, main="Titanic Training Data - Missings Map", col=c("yellow", "black"), legend=FALSE)

ছবি: হলুদ অংশ মানে ডাটা নেই সেখানে। কালো রং বলছে ডাটা আছে সেখানে।

মজার কথা হচ্ছে এখানে বয়সের প্রায় ২০% ডাটা আগে থেকেই নেই। ৭০% এর মতো যাত্রীদের কোন কেবিনের সাথে কানেক্ট করা যাচ্ছে না। এগুলো কিন্তু একটা চ্যালেঞ্জ। সেগুলো আমরা সামনে সামলে নেবো। আগের মতো আবার কিছু "বারপ্লট" করি আমাদের ভ্যারিয়েবলগুলোর ওপর। ওই যে কথা আছে না, বাঁচতে হলে জানতে হবে। পরের প্রতিটা বারপ্লট কিন্তু প্রতিটি আলাদাভাবে জেনারেট করা। আপনাদের সুবিধার জন্য একসাথে করা। কার্ট ওয়েরলিকে ধন্যবাদ। দুটো বারপ্লটের কোড দেয়া হলো এখানে। বাকিগুলো দেয়া আছে গিটহাবের পাতায়। সেটার লিংক দেয়া আছে প্রতিটা চ্যাপ্টারের নিচে।

    barplot(table(train$Survived),      # train ডাটাফ্রেমে Survived কলামের বারপ্লট
    names.arg = c("Perished", "Survived"),    # বারপ্লটগুলোর নিচে বোঝার জন্য কিছু নাম
    main="Survived (passenger fate)", col="black")    # সেটার ওপরে কি টাইটেল হবে?
    barplot(table(train$Pclass), 
        names.arg = c("first", "second", "third"),
        main="Pclass (passenger traveling class)", col="firebrick")

ছবি: প্রায় সব কলামের বারপ্লট

আপনি বলুন, কি বলছে ছবিগুলো? প্রথম কয়েকটা ছবির মানে এমন হতে পারে; (প্রথম প্রেডিকশনে কিন্তু জানা গিয়েছে ব্যাপারগুলো)

১. বেশিরভাগ যাত্রী মারা গিয়েছেন

২. দ্বিগুনেরও বেশি ৩য় শ্রেণীর যাত্রী, ১ম + ২য় মিলিয়ে

৩. পুরুষ যাত্রী থেকে মহিলা যাত্রী অনেক অনেক কম

৪. ২০ থেকে ৩০ বছর বয়সের যাত্রীর সংখ্যা অনেক অনেক বেশি। এর মানে উন্নত জীবনের খোঁজে তারা যাচ্ছিলেন মার্কিন যুক্তরাষ্ট্রে।

৫. একা যাত্রীর সংখ্যাই বেশি

৬. বেশিরভাগের ভাড়া ৪০ ডলারের মধ্যে

৭. বেশিরভাগ যাত্রী উঠেছিলেন সাউথহ্যাম্পটন থেকে

একেকটা ছবি যে কতো কথা বলে সেটা দেখবেন সামনে। বাকিগুলো আসবে সামনের EDA, এক্সপ্লোরেটরি ডাটা অ্যানালাইসিসে।

ব্যবহৃত গিটহাব স্ক্রিপ্ট (অনলাইন)

আর কার্ট ওয়েরলির গিটহাব স্ক্রিপ্ট, ভালো লিখেছেন উনি

https://github.com/raqueeb/mltraining/blob/master/ML-workbook/data-munging.R
https://github.com/wehrley/wehrley.github.io/blob/master/SOUPTONUTS.md