হাতে কলমে মেশিন লার্নিং
  • হাতেকলমে মেশিন লার্নিং
  • উৎসর্গ
  • প্রথম পাতা
  • মুখবন্ধ
  • কৃতজ্ঞতা
  • কাদের জন্য বইটা?
  • কাদের জন্য নয়
  • কিভাবে পড়বেন বইটা?
  • পর্ব ১: পাল্টে যাবার ঘটনা
    • ১.১. সিডিসি’র ওয়ার্নিং
    • ১.২. ইন্টারকানেকশন কস্ট মডেলিং
    • ১.৩. মানুষের পাশে ডাটা
    • ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ
    • ১.৫. সরকারি ওপেন ডাটা
    • ১.৬ প্রাইভেট সেক্টর + পাবলিক সেক্টর (ডাটা শেয়ারিং)
    • ১.৭. আর্টিফিসিয়াল ইন্টেলিজেন্স - মেশিন লার্নিংএর প্রসার
    • ১.৮. মেশিন লার্নিং ব্যবহারে এগিয়ে যে ইন্ডাস্ট্রিগুলো
  • পর্ব ২: ডাটা থেকে ভবিষ্যৎ দেখার ধারণা
    • ২.১. মেশিন লার্নিং হ্যাক
    • ২.২. ভবিষ্যৎ দেখার ধারণা + ডাটার গল্প বলার ক্ষমতা
    • ২.৩. মৃত্যু অ্যালগরিদম
    • ২.৪. দেশের নীতিনির্ধারণী ড্যাশবোর্ড
  • পর্ব ৩: মেশিন লার্নিং কি? (৩০ মিনিট)
    • ৩.১. মেশিন লার্নিং জিনিসটা কি?
    • ৩.২. কেন দরকার মেশিন লার্নিং?
    • ৩.৩. মেশিন লার্নিং এর কিছু ভাগ
    • ৩.৪. শুরুর ধারণা - ডাটা নিয়ে
    • ৩.৫. ডাটার তত্ব আর তার প্রসেস
    • ৩.৬. কিভাবে শিখবেন?
  • পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)
    • ৪.১. ‘ক্যাগল’ কি? আর দরকারই বা কেন?
    • ৪.২. কি করতে হবে ক্যাগলে?
    • ৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?
    • ৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?
    • ৪.৫. মেশিন লার্নিং কমিউনিটি
    • ৪.৬. ক্যাগল কার্নাল এবং অনলাইন হোস্টেড স্ক্রিপ্ট
  • পর্ব ৫: "আর" এনভায়রনমেন্ট
    • ৫.১. "আর" + "আর" ষ্টুডিও
    • ৫.২. "আর" ষ্টুডিওর কিছু খুঁটিনাটি
    • ৫.৩. প্রজেক্ট টাইটানিক + 'আর' ষ্টুডিও
    • ৫.৪. প্রজেক্টের গিটহাব স্ক্রিপ্ট
  • পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং
    • ৬.১. টাইটানিকের গল্প
    • ৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
    • ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
    • ৬.৪. ক্যাগলের কোন কোন কার্নাল?
    • ৬.৫. "আর" স্টুডিওতে ডাটা লোড
    • ৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?
  • পর্ব ৭: প্রেডিকশন
    • ৭.১. প্রথম প্রেডিকশন
    • ৭.২. ডাটা ভিজ্যুয়ালাইজেশন
    • ৭.৩. দ্বিতীয় প্রেডিকশন
    • ৭.৪. তৃতীয় প্রেডিকশন
    • ৭.৫. ডিসিশন ট্রি
    • ৭.৬. চতুর্থ প্রেডিকশন (মেশিন লার্নিং)
    • ৭.৭. পঞ্চম প্রেডিকশন (ফিচার ইঞ্জিনিয়ারিং)
    • ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন
    • ৭.৯. সপ্তম প্রেডিকশন (র‌্যান্ডম ফরেস্ট)
  • পর্ব ৮: কি আছে সামনে?
    • ৮.১. কি শিখলাম আমরা?
    • ৮.২. কোথায় যাচ্ছি এর পর?
    • ৮.৩. সামনের বই
    • ৮.৪. যোগাযোগের মাধ্যম
  • পর্ব ৯: পাইথনে টাইটানিক প্রজেক্ট
    • জুপিটারে প্রজেক্ট টাইটানিক
  • একটা ট্রেনিং প্রোগ্রাম
Powered by GitBook
On this page

Was this helpful?

  1. পর্ব ১: পাল্টে যাবার ঘটনা

১.৩. মানুষের পাশে ডাটা

I do have a political agenda. It’s to have as few regulations as possible.

–- Dan Quayle

দুহাজার দশের কথা। বিটিআরসিতে তখন আমি। বিদেশি কয়েকটা ইউনিভার্সিটি এলো কথা বলতে। তাদের মধ্যে একটা ইউনিভার্সিটি'র রিসার্চের টপিক হচ্ছে দক্ষিণাঞ্চলের সাগরের তান্ডবের আউটকাম। কাহিনী কি? সাগরের সুনামিতে বিপদে পড়ে মানুষ। হারায় সবকিছু। ভাগ্যকে পুঁজি করে চলে আসে শহরে। শেষমেষ, জায়গা হয় বস্তিতে।

এখানে ঝামেলা হয় কয়েকটা। এক. সরকার জানতে পারে না কোথায় গিয়েছে তারা। তখন মার খায় পুনর্বাসনের ব্যাপারটা। তাদেরকে ফিরিয়ে আনার তাগিদ থাকে না কারোই। শেষে, চাপ তৈরি হয় শহরগুলোতে। দুই. মানুষটাকে কি ধরনের সহযোগিতা দিতে হবে সেটাও জানে না এইড এজেন্সীগুলো। তিন. মানুষগুলো কোথায় কোথায় ছড়িয়ে পড়ছে সেটার হিসেব থাকে না কারো কাছে। যদি কোন মহামারী হয় ওই এলাকা থেকে – সেটা ছড়াচ্ছে কোথায় কোথায় – সেটাও জানা দুস্কর।

কি দরকার আপনাদের? জিজ্ঞাসা করলাম তাদের। দরকার ‘এক্সেস’। মোবাইল কোম্পানির ডাটাতে। রিসার্চ টিমের দরকার কিছু ‘অ্যানোমাইজড’ মেটা ডাটা যা বের করে দেবে সবকিছু। প্রজ্ঞা হিসেবে। সরকারের কাজে।

দেখা গেছে মোবাইল ফোনের লগ মেটাডাটায় রয়ে যায় মানুষের স্বভাবজনিত প্রচুর ডিজিটাল ট্রেস। মোবাইল কোম্পানিগুলো তাদের বিলিংয়ের কাজে তৈরি করে ‘কল ডিটেল রেকর্ড’। এই ‘সিডিআর’ একটা নির্দোষ ফরম্যাট। তবে, মিলিয়ন ডাটার সাথে একে ‘অ্যানালাইজ’ করলে মানুষকে প্রজ্ঞা দেয় অন্য লেভেলে।

প্রতিটা মানুষ কতক্ষণ কথা বলে, কোথায় কথা বলে, কার সাথে বেশি বলে, কয়জন তাকে রিং দেয়, কাদের কল কেটে দেয় সে, সারাদিন কোথায় থাকে, কার কার সাথে থাকে – মানে, কাজ করে কোথায়, ঘোরে কাদের সাথে, ঘুমায় কোথায়, কোন জায়গায় যায় বেশি, রিক্সায় যায় না গাড়িতে যায়, কয় টাকা রিচার্জ করে – সব আসে ওই মেশিন লার্নিংয়ে। ‘মিসড কল’ পার্টি কিনা সেটাও বোঝা যায় এই রেকর্ড থেকে। কয়টা এসএমএস যাচ্ছে আসছে সেটাও বোঝায় তার শিক্ষার মাত্রা।

ধরুন দেশের সবচেয়ে বড় নীতি নির্ধারণী কমিটিতে আছেন আপনি। প্ল্যান: তিনশো বাস নামাবেন রাস্তায়। বিশাল আরবান প্ল্যানিংয়ে শুরুতে ঢাকা শহরের মানুষগুলোর আয়ের ধারণা পেতে ‘অ্যাক্সেস’ দেয়া হলো আপনাকে। তাদের বিগ ডাটাতে। মোবাইল অপারেটরের নাম নম্বর ছাড়া ওই ‘সিডিআরে’।

এর পাশাপাশি, মোবাইল টপ আপেও গল্প আছে অনেক। কতো তাড়াতাড়ি টপ-আপ করছে মানুষটা – সেটার একটা ধারণা পাওয়া যায় মেশিন লার্নিং থেকে। প্রতি টপ-আপে কতো টাকা ভরছে সে, সবচেয়ে বেশি আর কম রিচার্জের একটা যোগসুত্র পাওয়া যায় ওখান থেকে। রিচার্জ টাকার ওই ভ্যারিয়েশনের একটা ‘কোএফিসিয়েন্ট’ আমাদের ধারণা দেয় অনেক কিছু। কি ধরনের ভ্যালু অ্যাডেড সার্ভিস নিয়ে – কিভাবে সেটাকে চালাচ্ছে মানুষজন – সেটাও ধারণা দেয় তাদের আয়ের একটা হিসেব।

মোবাইল ফোন কাজ করে ‘বেজ স্টেশন’ ধরে। মোবাইল টাওয়ারের পুরো রেডিয়াস ধরে চলে আসে অনেক জ্ঞান। ফলে, মানুষটা কাদের সাথে থাকে দিনে, মানে কাজ করে কোথায় – আর রাতে ঘুমায় কোন এলাকায় সেটাও ইন্ডিকেট করে তার আয়ের হিসেব। থাকে কোথায় – বস্তি না অ্যাপার্টমেন্ট – সেটাও আসে সঙ্গে। মানুষ দিনের বেলায় কোথায় থাকে সেটাই বড় ধারণা দেয় কতো টাকা আয় করে সে। সেখানে ‘রিজিওন’ ধরে বের করা যায় মানুষের গড়পরতা আয়। মানুষের ট্রাভেল প্যাটার্ন ধারণা দেয় অনেককিছুরই।

বাড়তি হিসেবে – অপারেটরের ডিভাইস ম্যানেজারে পাওয়া যায় আরো অনেক গল্প। কি ডিভাইস, ক্যামেরা আছে কি না, আইফোন, না স্যামস্যাং নোট – নাকি নোকিয়া ১১১০ ধারণা দেয় মানুষটার আয়ের ধরন। ফোনগুলোর মধ্যে সিম পাল্টাপাল্টি হলে জানা যায় মানুষটার অন্য ফোনগুলোর হিসেব। তবে, সবকিছুই ‘অ্যানোনিমাস’ ডাটা। ‘অ্যানোমাইজড’ মেটা ডাটা হচ্ছে গ্রাহকের নাম নম্বর না নিয়ে শুধু মোট সংখ্যার একেক ধরনের পরিসংখ্যান। গ্রাহকের ‘প্রাইভেসি’র সমস্যা নেই এতে। আমাদের বের করতে হবে ঢাকা শহরের মানুষের আয়ের সক্ষমতা। বাস ভাড়া হিসেবে। ফেলে দেবো মেশিন লার্নিংয়ে। বিগ ডাটা থেকে।

তিনশো বাস, যাবে কোথায়? কতো মিনিট পর পর ছাড়বে একেকটা? কতো মানুষ টানতে পারবে প্রতি ঘন্টায়? তিনশো বাস নাকি আরো কম? নাকি আরো বেশি। এটাও জানা যাবে ওই বিগ ডাটা থেকে। বাস নামানোর আগেই। প্ল্যানিং পর্যায়ে। গরিব দেশের পয়সা নষ্ট হবার আগেই। মানুষ বাসা থেকে বের হবার আগেই ট্র্যাক করতে পারবে যে বাসে সে চড়বে মিরপুর ১০ থেকে। বিশ্বাস হচ্ছে না? উবার যদি ট্রাফিক প্রেডিক্ট করতে পারে ভিনদেশি হয়ে, আমরা পারবো না কেন? দেশটা তো আমাদের। সমাধান করতে হবে আমাদেরই। ট্রাফিক জ্যাম কমানো নিয়ে লিখেছিলাম আগে।

মোবাইল ওয়ার্ল্ড কংগ্রেসে না গেলেও খবর পাই অনেক জিনিসের। দেখা গেছে পৃথিবীর মাত্র ১৬টা মোবাইল অপারেটর গ্রুপের গ্রাহকই হচ্ছে ২০০ কোটির ওপর। কাজ করছে তারা ১০০এর বেশি দেশে। ইউএন ফাউন্ডেশনের সাথে ‘জিএসএমএ’, মানে মোবাইল অপারেটরদের অ্যালাইয়েন্স তৈরি করেছে ‘বিগ ডাটা ফর সোশ্যাল গুড’ বলে একটা চমত্কার জিনিস। ঠিক তাই। মাথা খারাপ হবার মতো জিনিস।

এই বিগ ডাটা মানুষকে দেবে অন্য ধরনের ‘ইনসাইট’। প্রাকৃতিক বিপদের সময় মানুষের ফ্লো কোন দিকে কিভাবে যাবে সেটা দেখাবে আগেভাগেই। পুরোনো সব ডাটা থেকে। পার্সিং করে। মহামারী হলে সেটাকে ঠিকমতো ‘কন্টেইন’ করার ধারণা পাবে স্বাস্থ্য সংস্থাগুলো। কোথায় সাহায্য পাঠাতে হবে সেটা জানা যাবে সময়ের আগে।

বড় কথা, জিনিসটা সাহায্য করবে ব্যাপারগুলোর ঠিক ‘প্রসেস’ তৈরি করে দিতে। বিপদের সময় মানুষ সবচেয়ে বেশি ‘অ্যাফেক্টেড’ হয় সরকারের কাছে ‘প্রি-ডিফাইনড প্রসেস’ না থাকার কারণে। ধরুন, আজ যদি আমাদের একটা বড় ভূমিকম্প হয় কার কাজ কি হবে সেটা না জানা থাকলে আসল ভূমিকম্পে দিশেহারা হয়ে পড়বো আমরা। আর এজন্যই দরকার প্রেডিক্টিভ মডেল। সবকিছুতেই। সেটা ব্যাপারটা আসলে ধারণা থেকে অনেক অনেক বড়। ‘লার্জার দ্যান লাইফ’। ব্যাপারটার ট্রায়াল শুরু হচ্ছে এই জুনে। বাংলাদেশসহ আরো চারটা দেশে।

Previous১.২. ইন্টারকানেকশন কস্ট মডেলিংNext১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ

Last updated 5 years ago

Was this helpful?