Monday, November 19, 2012

প্রতিটি শব্দ থেকে চিহ্নিত করার উপযুক্ত বর্ণ, বর্ণাংশ বা বর্ণসমস্টি পৃথকীকরণ

বাংলার ক্ষেত্রে আমাদের চ্যালেঞ্জ ছিলো মাত্রা নিয়ে। আমাদের স্ক্যান করা পাতাটি দেখি,


এভাবে মাত্রা দিয়ে শব্দের অক্ষরগুলো যুক্ত থাকে বলে তাদেরকে কম্পিউটারের পক্ষে আলাদা করা খুবই মুশকিল হয়ে যায়। ইংরেজী বা ল্যাটিন হরফে লেখা ভাষায় সে সমস্যা নেই। তো এই সমস্যা থেকে উত্তরণের জন্য গত পর্বে আমরা দারুণ একটা বুদ্ধি করে শব্দের মাত্রাগুলো নির্ণয় করে ফেলেছি। কিন্তু গত ধাপে প্রাথমিক ভাবে পাওয়া মাত্রাগুলোতে তখনও খুত ছিলো। ছবিতে দেখি 

এ পর্বে আমরা সেই খুত দূর করতে পেরেছি। ব্যাপারটা এক ধরনের বাছাই এবং শূন্যস্থান পূরণ এর মিশ্র প্রক্রিয়া। ফলাফল হিসাবে একেবারে সলিড মাত্রাগুলো পেয়েগেলাম। নিচের ছবিতে বক্স দিয়ে শব্দগুলো অবস্থান আর মোটা দাগ দিয়ে তাদের মাত্রার অবস্থান দেখানো হয়েছে। 

এখন যেহেতু কম্পিউটার প্রতিটি শব্দের মাত্রা চিনে গেছে। সেহেতু স্রেফ সেগুলো মুছে ফেললেই মাত্রা সঙ্ক্রান্ত জটিলতা কাটিয়ে ওটা যাবে। দেখা যাক, মাত্রা মুছে ফেলার পরে কম্পিউটার পৃষ্ঠাটিকে কেমন দেখছে। 


আমরা যেহেতু আগেই প্রতিটি শব্দের অবস্থান সুনির্দিষ্টভাবে নির্ণয় করে ফেলেছি। সেহেতু এখন, এই মাত্রা মুছে ফেলা প্রতিটি শব্দ ধরে ধরে সেখান থেকে চিহ্নিতকরণের উপযুক্ত চিহ্ন (মানে ফিচার) গুলো আলাদা করতে পারবো। দেখুন ফলাফল আসলো কেমন। 



চমৎকার! এবার স্রেফ এই খুদে খুদে টুকরোগুলোকে, আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক, অথবা সাপোর্ট ভেক্টর মেশিন অথবা আমার নিজস্ব একটা অ্যালগরিদম এর মধ্যে ছেড়ে দিলেই হবে। তবে একেবারে নতুন কোনো অ্যালগরিদমও আবিষ্কার করার প্রয়োজনীয়তা দেখা দিতে পারে। ইন ফ্যাক্ট আমার পরিকল্পনা হচ্ছে একই সঙ্গে এসবের একটা মিশ্র পদ্ধতি প্রয়োগ করা। এখন আর সে সব বর্ণনায় না যাই।

খেয়াল করলে দেখা যাবে। ই-কার বা ঈ- কার কে চিহ্নিত করা হয়নি। আসলে ওগুলোও করা হয়ে গেছে। স্রেফ অনেক রাত (আসলে ভোর) হয়ে যাওয়ায় ওসব আর গুছিয়ে পোস্টে দিচ্ছি না। এ ছাড়াও "তে",  "দৃ" এর মত কিছু বর্ণ সমষ্টি এক সঙ্গে রয়ে গেছে। এতে কোনোই সমস্যা নেই। কম্পিউটারকে শিখিয়ে দিতে হবে। যে ঐ ধরনের আকার দেখলেই সেটাকে সে একক বর্ণ না ভেবে নির্দিষ্ট বর্ণসমস্টি হিসাবেই ভাববে। 

যাই হোক, কাজটা সহজ হবে না। অবশ্য সহজ হলে করে মজা পেতাম না। 

No comments:

Post a Comment