ইন্দ্রিয়তন্ত্র/কম্পিউটার মডেল/বাক্ প্রত্যক্ষণ


মানব ভাষণ

সম্পাদনা

স্বরযন্ত্র

সম্পাদনা

মানব কণ্ঠস্বর উৎপন্ন হয় স্বরযন্ত্র দ্বারা। কথা বলা সহজ মনে হলেও, এটি ফুসফুস, জিহ্বা, তালু, ঠোঁট ও দাঁতের জটিল মোটর সমন্বয়ের প্রয়োজন। কর্টিকাল স্তরে, এই মোটর সমন্বয় ঘটে ব্রোকা এরিয়াতে।

 
মানব স্বরযন্ত্র।

পরিভাষা

সম্পাদনা

শব্দের তীব্রতা

সম্পাদনা

শব্দের তীব্রতা সাধারণত deciBel (dB)-এ প্রকাশ করা হয়, যা সংজ্ঞায়িত:

 

এখানে SPL = “সাউন্ড প্রেসার লেভেল” (dB-এ), এবং রেফারেন্স চাপ  । লক্ষ্য করুন, এটি বায়ুচাপের তুলনায় অনেক ছোট (প্রায় 105 N/m2)! এছাড়াও সচেতন থাকতে হবে, কারণ শব্দ অনেক সময় SPL-এর পরিবর্তে "Hearing Level"-এর তুলনায় প্রকাশ করা হয়।

০ - ২০ dB SPL ... শ্রবণ স্তর (১ kHz – ৪ kHz এর সাইনোসয়ডাল টোনের জন্য ০ dB)

৬০ dB SPL ... মাঝারি তীব্র শব্দ, কথোপকথনের ভাষণ


লারিনক্সে স্বরযন্ত্রের কম্পন থেকে প্রাপ্ত মৌলিক ফ্রিকোয়েন্সি প্রাপ্তবয়স্ক পুরুষের জন্য প্রায় ১২০ Hz, প্রাপ্তবয়স্ক নারীর জন্য ২৫০ Hz এবং শিশুদের জন্য ৪০০ Hz পর্যন্ত হয়।

 
শ্রবণ হ্রাসের ফ্রিকোয়েন্সি ও শব্দমাত্রা নির্ভরতা।

ফর্ম্যান্ট

সম্পাদনা

ফর্ম্যান্ট হলো মানব ভাষণের প্রাধান্যপ্রাপ্ত ফ্রিকোয়েন্সিগুলো, যা মুখগহ্বর ইত্যাদিতে স্বরযন্ত্রের সংকেতের অনুনাদের ফলে ঘটে। ফর্ম্যান্ট শব্দের ফ্রিকোয়েন্সি স্পেকট্রামে আলাদা শক্তির শিখর হিসেবে দেখা যায়। এগুলো নিম্ন ফ্রিকোয়েন্সি থেকে আরম্ভ করে ক্রম অনুযায়ী নম্বরায়িত হয়।

 
একটি স্বরবর্ণের পাওয়ার স্পেকট্রাম। স্বরযন্ত্রের কম্পন ভিত্তি ফ্রিকোয়েন্সি নির্ধারণ করে। স্বরযন্ত্রের অনুনাদ 'ফর্ম্যান্ট' এর অবস্থান নির্ধারণ করে। ফর্ম্যান্টগুলোর আপেক্ষিক অবস্থান স্বরবর্ণের প্রকার নির্ধারণ করে।
 
জার্মান স্বরবর্ণ "a,e,i,o,u" এর স্পেকট্রোগ্রাম। এগুলো ইংরেজি শব্দ "hut, hat, hit, hot, put" এর স্বরবর্ণের সাথে সাদৃশ্যপূর্ণ। MATLAB কমান্ড "spectrogram(data, 512,256, 512, fs)" দ্বারা গণনা করা হয়েছে। নিচের স্থির নয় এমন সংকেতের পাওয়ার স্পেকট্রাম অধ্যায়ে স্পেকট্রোগ্রামের গাণিতিক ব্যাখ্যা দেয়া হয়েছে।

ধ্বনিমূল

সম্পাদনা

ভাষণকে প্রায়শই ধরা হয় একধরনের একাধিক ধ্বনিগত এককের সিকোয়েন্স হিসেবে, যেগুলো ভাষাগত একক ফোনিম এর সঙ্গে সম্পর্কিত। ফোনিম হচ্ছে শব্দের সবচেয়ে ছোট একক যা শব্দগুলোকে পার্থক্য করতে সাহায্য করে। উদাহরণস্বরূপ, "dog" শব্দে তিনটি ফোনিম রয়েছে। প্রথম, দ্বিতীয় ও তৃতীয় ফোনিম পরিবর্তন করলে "log", "dig", ও "dot" শব্দগুলো পাওয়া যায়। ইংরেজিতে প্রায় ৪০টি আলাদা ফোনিম রয়েছে, যেমন /d/, /o/, /g/ শব্দটির জন্য।

ভাষণ অনুধাবন

সম্পাদনা

মানুষের ভাষণ সংকেত ডিকোড করার ক্ষমতা এখনও পর্যন্ত যেকোনো অ্যালগরিদমের চেয়ে বহুগুণ উন্নত। যখন পরিবেশে উচ্চ সংকেত-টু-শব্দ অনুপাত থাকে, তখন স্পষ্টভাবে উচ্চারিত ভাষণ চিনতে স্বয়ংক্রিয় ভাষণ সনাক্তকরণ বেশ কার্যকর, কিন্তু শর্ত একটু খারাপ হলেই মানুষের তুলনায় অ্যালগরিদমগুলো খুব খারাপ কাজ করে। এটি বোঝায় যে আমাদের কম্পিউটারভিত্তিক ভাষণ সনাক্তকরণ এখনো মানুষের ব্যবহৃত মৌলিক পদ্ধতির কাছাকাছি আসতে পারেনি।

গবেষণায় দেখা গেছে যে ভাষণ অনুধাবন মস্তিষ্কে অন্যান্য শব্দ অনুধাবনের তুলনায় আলাদা পথে ঘটে। ভাষণবিহীন শব্দে প্রতিক্রিয়া ধাপে ধাপে বৃদ্ধি পায়, কিন্তু ভাষণের ক্ষেত্রে ধাপে ধাপে স্টিমুলাস উপস্থাপন করলেও প্রতিক্রিয়াতে স্পষ্ট শ্রেণীকরণ দেখা যায়। যেমন, লিসকার এবং আব্রামসন,[] একটি প্রি-ভয়েসড 'b/p' শব্দ বাজিয়েছিলেন। এটি /b/ না /p/ হবে তা নির্ভর করে ভয়েস অনসেট টাইম (VOT)-এর উপর। তারা দেখতে পান, যখন VOT ধীরে ধীরে পরিবর্তন করা হয়, তখন একটি নির্দিষ্ট বিন্দুতে (~২০ মিলিসেকেন্ড পরে) শ্রোতারা হঠাৎ করে /b/ থেকে /p/ শনাক্ত করতে শুরু করেন।

এই গবেষণা দেখায় যে, শ্রবণে কিছু রকমের শ্রেণীকরণ পদ্ধতি কাজ করছে। ভাষণ অনুধাবনের মডেল তৈরিতে প্রধান একটি সমস্যা হলো 'অপরিবর্তনশীলতার অভাব' যা সহজভাবে বলতে গেলে বৈচিত্র্য। অর্থাৎ, একটি মাত্র ফোনিম (যেমন /p/) অসংখ্য ভিন্ন তরঙ্গরূপ ধারণ করতে পারে, এবং তরঙ্গরূপ থেকে ফোনিম নির্ধারণ করা কঠিন, তবুও মানুষ নির্ভুলভাবে তা শনাক্ত করতে সক্ষম। এটি প্রসঙ্গনির্ভর, এবং স্পিকার, গতি, স্বর ইত্যাদির উপর নির্ভর করে।

তবে বর্তমানে ভাষণ অনুধাবনের মডেলগুলো দুইটি প্রধান ভাগে বিভক্ত: প্যাসিভ অনুধাবন এবং অ্যাকটিভ অনুধাবন।

প্যাসিভ অনুধাবন মডেল

সম্পাদনা

প্যাসিভ তত্ত্ব অনুযায়ী, ভাষণ অনুধাবন অনেকটা অন্য সেন্সরি সিগন্যাল-প্রসেসিং অ্যালগরিদমের মতো: কাঁচা ইনপুট প্রবেশ করে, তারপর ধাপে ধাপে বিমূর্ত বৈশিষ্ট্য নিষ্কাশন হয়। প্রাথমিক উদাহরণ “ডিস্টিংকটিভ ফিচার থিওরি”। এখানে প্রতিটি ফোনিমকে কিছু বাইনারি বৈশিষ্ট্যের উপস্থিতি বা অনুপস্থিতি দ্বারা সংজ্ঞায়িত করা হয়: যেমন 'নাসাল/অরাল', 'ভোকালিক/নন-ভোকালিক'। এই বৈশিষ্ট্যগুলো স্পেকট্রোগ্রাম থেকে বের করা যায়।

Selfridge[] এবং Uttley[] দ্বারা বর্ণিত অন্যান্য মডেলগুলোতে একটি টেমপ্লেট-ম্যাচিং পদ্ধতি ব্যবহৃত হয়, যেখানে প্রসেসিং লেয়ারগুলো ধাপে ধাপে আরও বিমূর্ত বৈশিষ্ট্য নির্ধারণ করে, স্পিকার ইত্যাদির প্রভাব থেকে মুক্ত।

অ্যাকটিভ অনুধাবন মডেল

সম্পাদনা

অ্যাকটিভ তত্ত্বগুলো ভিন্ন দৃষ্টিভঙ্গি দেয়। তাদের মতে, ভাষণ উৎপাদন ও অনুধাবনের জন্য মস্তিষ্কে আলাদা সিস্টেম থাকা অপ্রয়োজনীয়, কারণ শব্দ উৎপাদনের ক্ষমতা শব্দ শনাক্ত করার সঙ্গে ঘনিষ্ঠভাবে সম্পর্কিত। “মোটর থিওরি” (লিবারম্যান এট আল, ১৯৬৭) বলে, ভাষণ অনুধাবন হয় ইনপুট সংকেত পুনর্গঠন করার মাধ্যমে — অর্থাৎ, একই সার্কিট শব্দ তৈরি ও শনাক্ত করার কাজে ব্যবহৃত হয়। ফোনিমকে “ইঙ্গিত” হিসেবে দেখা হয় যা জেনারেটিং মেকানিজম পুনঃউৎপাদন করতে চায়।

Stevens এবং Halle[] এর সংশ্লেষণ অনুসারে বিশ্লেষণ মডেল অনুরূপ ধারণা দেয়। এখানে ভাষণ অনুধাবন হয় ইনপুট শব্দের পুনঃউৎপাদনের মাধ্যমে। স্পিকার নিজেই একটি তুলনামূলক শব্দ তৈরি করার চেষ্টা করে, এবং তুলনা করে দেখে মিলছে কিনা।

তবে ব্রোকার অ্যাফেসিয়া নিয়ে গবেষণায় মোটর থিওরির একটি সীমাবদ্ধতা দেখা যায়। এই রোগে ব্যক্তি কথা বলতে পারেন না, কিন্তু বুঝতে পারেন — অথচ মোটর থিওরি অনুযায়ী কথা বলা ও বোঝা একই মস্তিষ্ক অঞ্চলে ঘটে। ফলে এই তত্ত্ব প্রশ্নবিদ্ধ হয়।[]

বর্তমান মডেল

সম্পাদনা
 
ট্রেস ভাষণ অনুধাবনের মডেল। ইনপুট স্তর ছাড়া সকল সংযোগ দ্বিদিক। প্রতিটি ইউনিট একটি শব্দ বা ফোনিম নির্দেশ করে।

ভাষণ অনুধাবনের একটি প্রভাবশালী গাণিতিক মডেল হলো ট্রেস।[] এটি একটি নিউরাল-নেটওয়ার্ক সদৃশ মডেল, যেখানে তিনটি স্তর রয়েছে এবং পুনরাবৃত্ত সংযোগ ব্যবহৃত হয়েছে। প্রথম স্তর ইনপুট স্পেকট্রোগ্রাম থেকে বৈশিষ্ট্য বের করে (যা কক্লিয়ার অনুকরণ করে), দ্বিতীয় স্তর ফোনিম বের করে, এবং তৃতীয় স্তর শব্দ শনাক্ত করে।

এখানে নিচের দিক থেকে উপরের দিকে উত্তেজক সংযোগ, পাশের প্রতিরোধক সংযোগ, এবং উপরের দিক থেকে নিচের দিকে উত্তেজক সংযোগ রয়েছে। প্রতিটি ইউনিট একটি নির্দিষ্ট ফোনিম বা শব্দ প্রতিনিধিত্ব করে। একই স্তরের ইউনিটগুলোর মধ্যে “বিজয়ী-সব-গ্রহণ করে” প্রতিযোগিতা হয়। উপর থেকে আসা প্রসঙ্গভিত্তিক তথ্য নিচের স্তরকে সাহায্য করে — যেমন:ফোনিম স্তরে /g/ এবং /k/ দুটোই সক্রিয় থাকলে, উপরের শব্দ স্তর "রাগ", "অ্যানাকোন্ডা" ইত্যাদির মাধ্যমে নির্ধারণে সাহায্য করতে পারে যে সঠিক ফোনিমটি কোনটি।

টেমপ্লেট:তথ্যসূত্র

  1. Lisker, L. (১৯৭০)। "The voicing dimension: Some experiments in comparative phonetics"। B. Hála, M. Romportl and P. Janota। Proceedings of the 6th International Congress of Phonetic Sciences। Prague: Academia।  অজানা প্যারামিটার |coauthors= উপেক্ষা করা হয়েছে (|author= ব্যবহারের পরামর্শ দেয়া হচ্ছে) (সাহায্য)
  2. Selfridge, O.C (1959) "Pandemonium: a paradigm for learning". in Proceedings of the Symposium on Mechanisation of Thought Process. National Physics Laboratory.
  3. Uttley, A.M. (জুলাই ১৯৬৬)। "The transmission of information and the effect of local feedback in theoretical and neural networks"। Brain Research2 (1): 21–50। doi:10.1016/0006-8993(66)90060-6 
  4. Stevens, K. N.; Halle, M. (১৯৬৭)। "Remarks on analysis by synthesis and distinctive features"। Wathen-Dunn, W.। Models for the perception of speech and visual form: proceedings of a symposium। Cambridge, MA: MIT Press। পৃষ্ঠা 88–102। 
  5. Hickok, Gregory (জানুয়ারি ২০১০)। "The role of mirror neurons in speech and language processing"। Brain and Language112 (1): 1–2। doi:10.1016/j.bandl.2009.10.006 
  6. McClelland, James L; Elman, Jeffrey L (জানুয়ারি ১৯৮৬)। "The TRACE model of speech perception"। Cognitive Psychology18 (1): 1–86। doi:10.1016/0010-0285(86)90015-0