হাতে কলমে মেশিন লার্নিং
  • হাতেকলমে মেশিন লার্নিং
  • উৎসর্গ
  • প্রথম পাতা
  • মুখবন্ধ
  • কৃতজ্ঞতা
  • কাদের জন্য বইটা?
  • কাদের জন্য নয়
  • কিভাবে পড়বেন বইটা?
  • পর্ব ১: পাল্টে যাবার ঘটনা
    • ১.১. সিডিসি’র ওয়ার্নিং
    • ১.২. ইন্টারকানেকশন কস্ট মডেলিং
    • ১.৩. মানুষের পাশে ডাটা
    • ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ
    • ১.৫. সরকারি ওপেন ডাটা
    • ১.৬ প্রাইভেট সেক্টর + পাবলিক সেক্টর (ডাটা শেয়ারিং)
    • ১.৭. আর্টিফিসিয়াল ইন্টেলিজেন্স - মেশিন লার্নিংএর প্রসার
    • ১.৮. মেশিন লার্নিং ব্যবহারে এগিয়ে যে ইন্ডাস্ট্রিগুলো
  • পর্ব ২: ডাটা থেকে ভবিষ্যৎ দেখার ধারণা
    • ২.১. মেশিন লার্নিং হ্যাক
    • ২.২. ভবিষ্যৎ দেখার ধারণা + ডাটার গল্প বলার ক্ষমতা
    • ২.৩. মৃত্যু অ্যালগরিদম
    • ২.৪. দেশের নীতিনির্ধারণী ড্যাশবোর্ড
  • পর্ব ৩: মেশিন লার্নিং কি? (৩০ মিনিট)
    • ৩.১. মেশিন লার্নিং জিনিসটা কি?
    • ৩.২. কেন দরকার মেশিন লার্নিং?
    • ৩.৩. মেশিন লার্নিং এর কিছু ভাগ
    • ৩.৪. শুরুর ধারণা - ডাটা নিয়ে
    • ৩.৫. ডাটার তত্ব আর তার প্রসেস
    • ৩.৬. কিভাবে শিখবেন?
  • পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)
    • ৪.১. ‘ক্যাগল’ কি? আর দরকারই বা কেন?
    • ৪.২. কি করতে হবে ক্যাগলে?
    • ৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?
    • ৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?
    • ৪.৫. মেশিন লার্নিং কমিউনিটি
    • ৪.৬. ক্যাগল কার্নাল এবং অনলাইন হোস্টেড স্ক্রিপ্ট
  • পর্ব ৫: "আর" এনভায়রনমেন্ট
    • ৫.১. "আর" + "আর" ষ্টুডিও
    • ৫.২. "আর" ষ্টুডিওর কিছু খুঁটিনাটি
    • ৫.৩. প্রজেক্ট টাইটানিক + 'আর' ষ্টুডিও
    • ৫.৪. প্রজেক্টের গিটহাব স্ক্রিপ্ট
  • পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং
    • ৬.১. টাইটানিকের গল্প
    • ৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
    • ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
    • ৬.৪. ক্যাগলের কোন কোন কার্নাল?
    • ৬.৫. "আর" স্টুডিওতে ডাটা লোড
    • ৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?
  • পর্ব ৭: প্রেডিকশন
    • ৭.১. প্রথম প্রেডিকশন
    • ৭.২. ডাটা ভিজ্যুয়ালাইজেশন
    • ৭.৩. দ্বিতীয় প্রেডিকশন
    • ৭.৪. তৃতীয় প্রেডিকশন
    • ৭.৫. ডিসিশন ট্রি
    • ৭.৬. চতুর্থ প্রেডিকশন (মেশিন লার্নিং)
    • ৭.৭. পঞ্চম প্রেডিকশন (ফিচার ইঞ্জিনিয়ারিং)
    • ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন
    • ৭.৯. সপ্তম প্রেডিকশন (র‌্যান্ডম ফরেস্ট)
  • পর্ব ৮: কি আছে সামনে?
    • ৮.১. কি শিখলাম আমরা?
    • ৮.২. কোথায় যাচ্ছি এর পর?
    • ৮.৩. সামনের বই
    • ৮.৪. যোগাযোগের মাধ্যম
  • পর্ব ৯: পাইথনে টাইটানিক প্রজেক্ট
    • জুপিটারে প্রজেক্ট টাইটানিক
  • একটা ট্রেনিং প্রোগ্রাম
Powered by GitBook
On this page
  • মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো?
  • স্ক্রিপ্ট লোড করে নেবার পদ্ধতি
  • ব্যবহৃত গিটহাব স্ক্রিপ্ট (অনলাইন)

Was this helpful?

  1. পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং

৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?

Previous৬.৫. "আর" স্টুডিওতে ডাটা লোডNextপর্ব ৭: প্রেডিকশন

Last updated 5 years ago

Was this helpful?

মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো?

মেন্যু থেকে যখন আমরা ওয়ার্কিং ডাইরেক্টরিটা সেট করব, তখন আমরা আসলে দেখিয়ে দেবো ওই টাইটানিক ফোল্ডারটাকে। আমরা যখন বিভিন্ন ডাটাসেট ইমপোর্ট করতে চাইবো - সেগুলো তখন নিয়ে আসবো সেই ওয়ার্কিং ডাইরেক্টরি থেকে।

ছবি: ওয়ার্কিং ডাইরেক্টরি

আমরা যদি মেন্যু দিয়ে ডাটা সেট ইমপোর্ট করতে চাই, তাহলে এই ছবির মতো করে প্রথমে আমরা নেব train.csv ডাটাসেটটা। যখন যেটা ইম্পোর্ট করছি সেটার একটা প্রিভিউ কপি আসবে আমাদের সামনে। আমরা “সেট” করে নেব সবকিছুই “ডিফল্ট” হিসেবে। মেন্যু দিয়ে ইম্পোর্ট এবং ওয়ার্কিং ডিরেক্টরি দেখানো সবকিছুই পরীক্ষা করতে পারেন যে কোন সময়। তবে, সেটা করে নেওয়া ভালো আমাদের গিটহাবের স্ক্রিপ্ট লোড করার আগে। আগেও বলেছি মেন্যু দিয়ে অনেক কিছু করা গেলেও আমরা মেন্যু দিয়ে যাব না শুরু থেকেই। স্ক্রিপ্ট ব্যবহারের সুবিধার্থে।

স্ক্রিপ্ট লোড করে নেবার পদ্ধতি

আবারো বলছি - নতুন করে, যা না করলেই নয়;

১. চালু করুন "আর ষ্টুডিও"

২. সেট করুন ওয়ার্কিং ডাইরেক্টরি

৩. "আর" স্টুডিওতে ক্লিক করি file → open file, চলে যাই আমাদের ওয়ার্কিং ডাইরেক্টরীতে। সিলেক্ট করি আমাদের দরকারি স্ক্রিপ্ট ফাইল। "আর" স্টুডিওর চার ভাগের ওপরের বাম ঘরটা হচ্ছে স্ক্রিপ্ট এডিটর। আমরা সবকিছু চালাবো এখন থেকে।

চলুন চোখ বুলাই আমাদের লোড করা স্ক্রিপ্টে। প্রথমেই সেট করা হয়েছে ওয়ার্কিং ডিরেক্টরি। মনে আছে তো কিভাবে চালাতে হবে স্ক্রিপ্ট? ওই লাইনটার ওপর কার্সার নিয়ে চাপুন কন্ট্রোল + এন্টার মানে "Ctrl + Enter"। অথবা ওপরের ওই 'রান' বাটন। দেখুন - টাইটানিক লেখাটার ওপরে, একটু ডানে। সঙ্গে সঙ্গে চালু হয়ে যাবে আমাদের স্ক্রিপ্ট।

বুঝতেই পারছেন এখানে setwd মানে "সেট ওয়ার্কিং ডিরেক্টরি"। মানে পরের লাইনে আমরা ইমপোর্ট করেছি train ডাটাসেট। “আর” অথবা স্ট্যাটিসটিক্স এর ভাষায় আমরা এই ডাটাসেটকে আসলে লোড করছি একটা দ্বিমাত্রিক ডাটাফ্রেমে। আচ্ছা ডাটাফ্রেমটা আবার কি? ছবি: সেট ওয়ার্কিং ডিরেক্টরি

আমাদের ডাটাসেট থেকে যেভাবে প্রতিটা তথ্য "আর" এনভায়রনমেন্ট "ষ্টোর" করে, সেটাকে আমরা বলছি ডাটাফ্রেম। এটা "এক্সেল" এর মত দুই ডাইমেনশনের একটা আধার মানে কন্টেইনার। অর্থাৎ এখানে ‘রো’ এবং 'কলাম' আছে। মাইক্রোসফট এক্সেলে আপনারা কী দেখেছিলেন? সেটার মধ্যে ৮৯১টা ‘রো’ ছিল। এই ৮৯১টা রেকর্ডকে আমরা বলি ‘অবজারভেশন’। এবং এই training ডাটাফ্রেমে আপনারা দেখবেন কলাম আছে ১২টা। এই ১২টা ভেরিয়েবল কিন্তু একেকটা অবজারভেশনের বিভিন্ন তথ্য। আমাদের ডাটাসেটে একেকটা অবজারভেশন হচ্ছে এক একটা মানুষ। প্রতিটা রেকর্ড হিসেবে। সেখানে প্রতিটা মানুষের বিভিন্ন তথ্য দেয়া আছে একেকটা ভেরিয়েবলে (যেমন, নাম, বয়স, টিকেট নাম্বার, কোন ক্লাসের টিকেট ইত্যাদি)। ট্রেনিং আর টেস্ট ডাটাফ্রেমের মধ্যে একটা ভেরিয়েবল কম।

শেষমেশ কিন্তু জিনিসটা "ইমপোর্ট": করা হয়ে গেল train ডাটাসেট train.csv থেকে। সেটাকে "আর" ষ্টুডিও আবার স্টোর করল train ডাটাফ্রেমে। "<-" চিহ্ন মানে হচ্ছে জিনিসটাকে পাঠিয়ে "স্টোর" হলো ওই ডাটাফ্রেমে। টেক্সট এডিটরে স্ক্রিপ্টে train লেখাটায় কার্সার রেখে "কন্ট্রোল + এন্টার" চাপুন। আপনা আপনি - কমান্ডটা চলে যাবে কনসোলে। স্ক্রিপ্ট না থাকলে কনসোলে train লিখে এন্টার চাপুন। (স্ক্রিপ্ট ব্যবহার করার জন্য অনুরোধ করছি) দেখা গেলো পুরো ডাটাফ্রেম। আচ্ছা, কেমন হয় সেই ডাটাফ্রেমের স্ট্রাকচার দেখতে পারলে? চলুন দেখি তাহলে। স্ক্রিপ্টে নিচের লেখাটার ওপর কার্সার রেখে রান বাটন চাপ দিন।

str(train) <-- এর মানে হচ্ছে ট্রেইন ডাটাফ্রেমের স্ট্রাকচার দেখান

ছবি: ডাটাফ্রেমের স্ট্রাকচার

ভালো করে লক্ষ্য করলে দেখতে পারবেন, আমাদের ডাটাফ্রেমের স্ট্রাকচারটা দেয়া আছে এখানে। ডাটাফ্রেমে ৮৯১টা অবজারভেশন। সঙ্গে বারোটা ভেরিয়েবল। ডাটা টাইপগুলো খেয়াল করুন। Int হচ্ছে একটা পূর্ণ সংখ্যা। Num হচ্ছে আরেক ধরণের সংখ্যা যেখানে ডেসিমেল ভগ্নাংশ রাখা যায়। এর পরে আছে factor যেটা আসলে একটা ক্যাটেগরি। নামগুলো সব চলে এসেছে ফ্যাক্টরে। ভালোভাবে লক্ষ্য করলে দেখা যাবে এখানে ৮৯১টা লেভেল তৈরি হয়েছে। তার মানে আমাদের ৮৯১টা ক্যাটাগরি তৈরি হয়েছে নাম দিয়ে। যেহেতু কারো নামের সাথে অন্য কারো নাম মিলছে না, সেখানে এটা ভাগ হয়ে গেছে ৮৯১টা লেভেলে। এটা sex এর জন্য ঠিক আছে যার এখানে মাত্র দুটো ফ্যাক্টর, মহিলা এবং পুরুষ। "আর" স্টুডিওতে যখন আমরা কোনো ডাটাসেটকে দরকার মতো ইমপোর্ট করি, তখন সব ধরনের টেক্সট নিয়ে আসে লিংক ফ্যাক্টরে। এটাকে সে করে ডিফল্ট সেটিংস থেকে। আমাদের এখানে যেটা দরকার ফ্যাক্টর হিসেবে, সেটা সঠিক ভাবে চলে এসেছে sex ভ্যারিয়েবলে। বাকিগুলো নিয়ে এখন মাথা ঘামাবো না। দরকার মত পাল্টে নেব টেক্সট স্ট্রিংএ। ডাটা ম্যানিপুলেশনে।

train ডাটাফ্রেমে একবার ক্লিক করে দেখবেন? কি দেখছেন? এক্সেলের মতো আরেকটা শীট। ভালো করে দেখুন ভেতরে। এদিক ওদিক করে।

ব্যবহৃত গিটহাব স্ক্রিপ্ট (অনলাইন)

https://github.com/raqueeb/mltraining/blob/master/ML-workbook/Rscript1_data_load.R