৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
Last updated
Was this helpful?
Last updated
Was this helpful?
ডাটা সায়েন্টিস্টদের কথা, হাতে কলমে কাজ করতে আমাদের দরকার আসল "ডাটাসেট"। "ডাটাসেট" হচ্ছে মেশিন লার্নিংএর মূল চাবি কাঠি। প্রোগ্রামটা কিভাবে কাজ করবে সেটা বলে দেবে এই ডাটা সেট। সত্যি বললে - এই ডাটাসেটই শেখাবে আমাদের মডেলকে। আর সেটা আরো ভালো হয় যখন ডাটাসেটগুলো আসে সত্যিকারের ঘটনা থেকে। তাই আমরা হাজারো ডাটাসেট থেকে বেছে নিয়েছি টাইটানিক ডাটাসেট। গল্পটা জানেন সবাই। চেনেন গল্পের চরিত্র "রোজ" আর "জ্যাক"কে। কষ্ট কম সবারই। গল্পটা জানা থাকাতে কতো সুবিধা।
আসলেই তাই! এজন্যই এই প্রজেক্টটা এতো ডায়নামিক!
টাইটানিক কেন? এর ডাটাসেটটা বেশ ছোট। মাত্র কয়েকশো কিলোবাইট! আমার ভাঙ্গা কম্পিউটারে চললে আপনারটাতে চলবে বাতাসের বেগে। সত্যি বলছি! আসল কারণে আসি। ব্যবসার প্রথম এলিমেন্ট কী? একটা প্রোডাক্ট। তো বেচবেন কার কাছে? গ্রাহক মানে কাস্টমারের কাছে। আর কাস্টমার কে? সেই রাজা। তো যিনি তার কাস্টমারকে চেনেন ভালো, তার মতো বুদ্ধিমান নেই এই দুনিয়ায়। অ্যামাজনে গেলে গল্পটা পরিস্কার হবে বেশি। বউ থেকে আপনাকে চেনে বেশি এই সাইটগুলো। ভুল বললাম কী?
টাইটানিক ডাটাসেটটা আমাদের ব্যবসার কাস্টমার ডাটাবেসের একটা বিশাল প্রক্সি! বিশ্বাস হচ্ছে না? চেখেই দেখুন না আজ? আপনি যদি একটা মানুষের 'বাঁচা মরা' প্রেডিক্ট করতে পারেন, তাহলে অনেক কিছু জেনেই যাবেন মানুষের ব্যাপারে। সৃষ্টিকর্তা মানুষকে অনেক জ্ঞান দিয়েছেন, ভবিষ্যত দেখার ব্যাপারটা বাদ যাবে কেন?
মেশিন লার্নিংয়ের শুরুতেই দরকার ডাটা। আর সেই ডাটা আমরা কিন্তু নামিয়েছি https://www.kaggle.com/c/titanic/data লিংক থেকে। যেকোন ক্যাগল কম্পিটিশনের মতো এখানেও আমরা নামিয়েছি দুটো ডাটা সেট।
১. ‘ট্রেনিং’ (train.csv) আর
২. ‘টেস্ট’ ডাটা সেট (test.csv)।
দেখতে পাচ্ছেন তো ডাটা সেট দুটো? মাইক্রোসফট এক্সেলে? এখন আসি এই ডাটা সেটের গল্পে।ছবি: ক্যাগল সাইট ----> ডাটা ডাউনলোড
ডাটা সায়েন্টিস্টদের মতে - যতো ডাটা ততো গুড়। একটা উদাহরন দেই বরং। ক্লাস ওয়ানে আপনার রোল ছিলো পাঁচ। এটা একটা ডাটা। মানে ছোটবেলায় ভালো ছাত্র ছিলেন আপনি। যদি আমরা জানতাম আপনার সব রোল অথবা পরীক্ষার মার্ক, মানে সব ওপরের দিকে - তখন বলা যেতো বরাবরই তুখোড় ছাত্র ছিলেন আপনি। এর মানে হচ্ছে যতো বেশি ডাটা, ততো ‘অ্যাক্যুরেট’ হবার সম্ভাবনা বেশি।
আমার কাজের কথা বলি। ধরুন, সাইবার অ্যাটাক হয়েছে একটা নেটওয়ার্কে। এক গিগাবাইট প্যাকেট ক্যাপচারে পাঁচ ছয়টা সিগনেচার পাওয়া গেলো ওই অ্যাটাকের। যদি ডাটা পাওয়া যেতো বিশ গিগাবাইট? কি হতো তখন? অনেকগুলো সিগনেচার দেখে বোঝা যেতো একটা প্যাটার্ন। বোঝা যেতো কাহিনী কি?
এমনও হয় অনেক সময়, ধরুন - যদি না পাওয়া যায় ‘সিগনেচার’ ওই বিশ গিগাবাইটে? তখন স্কেলআপ করে যেতে হবে আরো বেশি ডাটায়। পঞ্চাশ গিগায়। আশায় - যদি পাওয়া যায় ওই সিগনেচার? বেশি ডাটা মানে মেশিনকে শেখানো যায় নির্ভুলভাবে। বেশি পাশ দিলে বিদ্যান হবার মতো। বেশি ডাটা, বেশি অ্যাক্যুরেসি।