বাংলার ক্ষেত্রে আমাদের চ্যালেঞ্জ ছিলো মাত্রা নিয়ে। আমাদের স্ক্যান করা পাতাটি দেখি,
এভাবে মাত্রা দিয়ে শব্দের অক্ষরগুলো যুক্ত থাকে বলে তাদেরকে কম্পিউটারের পক্ষে আলাদা করা খুবই মুশকিল হয়ে যায়। ইংরেজী বা ল্যাটিন হরফে লেখা ভাষায় সে সমস্যা নেই। তো এই সমস্যা থেকে উত্তরণের জন্য গত পর্বে আমরা দারুণ একটা বুদ্ধি করে শব্দের মাত্রাগুলো নির্ণয় করে ফেলেছি। কিন্তু গত ধাপে প্রাথমিক ভাবে পাওয়া মাত্রাগুলোতে তখনও খুত ছিলো। ছবিতে দেখি
এ পর্বে আমরা সেই খুত দূর করতে পেরেছি। ব্যাপারটা এক ধরনের বাছাই এবং শূন্যস্থান পূরণ এর মিশ্র প্রক্রিয়া। ফলাফল হিসাবে একেবারে সলিড মাত্রাগুলো পেয়েগেলাম। নিচের ছবিতে বক্স দিয়ে শব্দগুলো অবস্থান আর মোটা দাগ দিয়ে তাদের মাত্রার অবস্থান দেখানো হয়েছে।
এখন যেহেতু কম্পিউটার প্রতিটি শব্দের মাত্রা চিনে গেছে। সেহেতু স্রেফ সেগুলো মুছে ফেললেই মাত্রা সঙ্ক্রান্ত জটিলতা কাটিয়ে ওটা যাবে। দেখা যাক, মাত্রা মুছে ফেলার পরে কম্পিউটার পৃষ্ঠাটিকে কেমন দেখছে।
আমরা যেহেতু আগেই প্রতিটি শব্দের অবস্থান সুনির্দিষ্টভাবে নির্ণয় করে ফেলেছি। সেহেতু এখন, এই মাত্রা মুছে ফেলা প্রতিটি শব্দ ধরে ধরে সেখান থেকে চিহ্নিতকরণের উপযুক্ত চিহ্ন (মানে ফিচার) গুলো আলাদা করতে পারবো। দেখুন ফলাফল আসলো কেমন।
চমৎকার! এবার স্রেফ এই খুদে খুদে টুকরোগুলোকে, আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক, অথবা সাপোর্ট ভেক্টর মেশিন অথবা আমার নিজস্ব একটা অ্যালগরিদম এর মধ্যে ছেড়ে দিলেই হবে। তবে একেবারে নতুন কোনো অ্যালগরিদমও আবিষ্কার করার প্রয়োজনীয়তা দেখা দিতে পারে। ইন ফ্যাক্ট আমার পরিকল্পনা হচ্ছে একই সঙ্গে এসবের একটা মিশ্র পদ্ধতি প্রয়োগ করা। এখন আর সে সব বর্ণনায় না যাই।
খেয়াল করলে দেখা যাবে। ই-কার বা ঈ- কার কে চিহ্নিত করা হয়নি। আসলে ওগুলোও করা হয়ে গেছে। স্রেফ অনেক রাত (আসলে ভোর) হয়ে যাওয়ায় ওসব আর গুছিয়ে পোস্টে দিচ্ছি না। এ ছাড়াও "তে", "দৃ" এর মত কিছু বর্ণ সমষ্টি এক সঙ্গে রয়ে গেছে। এতে কোনোই সমস্যা নেই। কম্পিউটারকে শিখিয়ে দিতে হবে। যে ঐ ধরনের আকার দেখলেই সেটাকে সে একক বর্ণ না ভেবে নির্দিষ্ট বর্ণসমস্টি হিসাবেই ভাববে।
যাই হোক, কাজটা সহজ হবে না। অবশ্য সহজ হলে করে মজা পেতাম না।
No comments:
Post a Comment