Local Language Technical Help Centre
Search

යුනිකේත ක්‍රියාත්මක කිරීම සහ රකාරාංසය  , යන්සය විදැහුම්කරණ කිරීම

යුනිකේත ක්‍රියාත්මක කිරීම සහ රකාරාංසය  , යන්සය විදැහුම්කරණ කිරීම

හර්ෂ විජයවර්ධන B.Sc. (Miami), CITP (UK), FBCS (UK)

ලංකා වසම් අධිකාරියේ සහයෝගිත්වයෙන් ඉදිරිපත් කරනු ලබයි

හැදින්වීම

1997 වසරේ දී පමණ සිංහල කේතනය කර 1999 වසරේ දී පමණ ප්‍රකාශයට පත් කළද, සිංහල යුනිකේත ක්‍රියාත්මක කිරීමට යම් කාලයක් ගත විය. දේශීය භාෂා ක්‍රියාකාරී කණ්ඩායම(LLWG) විසින් සිංහල යුනිකේත ක්‍රියාත්මක කිරීමේදී  මූලිකත්වය ගෙන කටයුතු කළේය. මෙම ක්‍රියාත්මක කිරීමේ අදියරේදී ගත් වැදගත්ම තීරණයක්  වූයේ ආදාන යතුරු පුවරුව ප්‍රමිතිකරණය කිරීම සහ පරිගණක මතකයේ සිංහල ද්වි-බයිට්(two-byte) අනුපිළිවෙල ගබඩා කරන්නේ කෙසේද යන්නයි. යුනිකේත වල විදැහුම්කරණ පද්ධතිය(rendering engine) ක්‍රියා කරන ආකාරය නිවැරදිව  අවබෝධ කර ගැනීමට යම් කාලයක් ගත විය. සිංහල භාෂාවෙහි ව්‍යාංජනාක්ෂර තුනක් සහ වෙනත් බොහෝ සංයෝජන ඇත. මෙයින් ව්‍යාංජනාක්ෂර දෙකක සංයෝජන නොවන ආකාර නැත. කෙසේ නමුත් අනෙකුත් සංයෝජන වල හල් කිරිම හෝ හලන්ත සමඟ ලියා ඇති සංයෝජන නොවන ආකාර ඇත.

ශ්‍රී ලංකාව බ්‍රිතාන්‍යයෙන් නිදහස ලැබීමට පෙර දේවනාගරි(Devanagari)  වල මෙන්, සංයෝජන ආකෘතිය පෙරනිමි ආකෘතිය බවට පත් විය. පෙර සඳහන් කළ පරිදි ව්‍යාංජනාක්ෂර සංයෝජන ආකාර දෙකක් හැර, එනම් රකාරංශය සහ යන්සය හැර, පෙරනිමි ආකෘතිය නිදහස ලැබීමෙන් පසු ඒවායේ සංයෝජන නොවන ආකාරවලට වෙනස් වනු ඇත. (මෙයට හේතුව වනු ඇත්තේ සියලු සංයෝජන ආකෘති තාක්‍ෂණිකව යතුරු ලියනය කිරීමට නොහැකි වූ යතුරු ලියනයන්  භාවිතය විය හැකිය.) රකාරංශය  යනු “හල් කිරීම” සමඟ “ර” අකුර වන අතර යන්සය යනු “හල් කිරීම” සමඟ “ය ” අකුරයි. ව්‍යාංජනාක්ෂර සංයෝජනයක් වන  රේපය සහිත වචනවලට පිළිගත හැකි සංයෝජන නොවන ආකාර ද  ඇත. සිංහල ISO/Unicode සම්මතයේ දී  ඉහත අනුපිළිවෙල  හදුන්වනු ලබන්නේ නම් කරන ලද අනුපිළිවෙල(Named Sequences) ලෙසයි.

රකාරාංසය   සහ යන්සයෙ හි වත්මන් විදැහුම්කරණය

යුනිකෝඩ් සමූහය(Unicode Consortium) මඟින් ව්‍යාංජනාක්ෂර සංයෝජන ආකාර වන රකාරාංසය  සහ යන්සය  යුනිකේත තුළ කේතනය නොකළ යුතු බව දෙදහසේ මුල් භාගයේදී යෝජනා කළේය. මෙහිදී දේශීය භාෂා ක්‍රියාකාරී කණ්ඩායමෙහි සියලුම සාමාජිකයින්ගේ අදහස වූයේ ඉහත ව්‍යාංජනාක්ෂර සංයෝජන විදැහුම්කරණය කිරීම සඳහා හොඳම විකල්පය යුනිකේත වලින් කේතනය කිරීම බව ද, කේතීකරණය අනුගමනය කිරීමෙන් සිංහල යුනිකේත ක්‍රියාත්මක වීම ඇනහිටිය හැකි බවද  බහුතරයකගේ අදහස විය.  කෙසේ වෙතත්, මෙම ලිපියෙහි කතෘ වන මම, මෙම ව්‍යාංජනාක්ෂර දෙක කේතනය කිරීමේ වැදගත්කම  අවධාරණය කල අතර ඒ සඳහා උපදේශකයෙකු ලෙස සිටියෙමි. යුනිකෝඩ් සමූහය(Unicode Consortium)  විසින් එක් ආකාරයකට වඩා භාවිතා කරමින් ලිවිය හැකි අකුරු සමුහයන් විදැහුම්කරණය කිරීම සඳහා  Zero Width Joiner (ZWJ) සහ Zero Width Non-Joiner (ZWNJ), සැඟවුණු අක්ෂර යතුරු ලියන කිරීම, භාවිතා කිරීමට උපදෙස් දෙන ලදී. එනම්, ආකාර දෙකක් තිබෙන අවස්ථාවකදී එක් ආකාරයක් පෙරනිමි කේත ලක්ෂ්‍ය පෙළකින්  නිරූපණය කළ යුතු අතර, අනෙක් ආකාරය  ZWJ හෝ ZWNJ වලින් සමන්විත පෙළකින්  නිරූපණය කළ යුතුය. මහාචාර්ය ගිහාන් ඩයස් විසින් 2003 වසරේදී පමණ මෙම ගැටලුවට සාර්ථක විසඳුමක් යෝජනා කළ අතර එහිදී ZWJ පමණක් භාවිතා වේ.

  • න්ද : 0db1/0dca/0daf 

“න”අකුර + හල්  කිරීම  + “ද” අකුර 

  • න්‍ද : 0db1/0dca/200c/0daf

“න”අකුර + හල් කිරීම + ZWJ + “ද” අකුර 

යුනිකේත සිංහල අකුරු නිකුත් කිරීම

ශ්‍රී ලංකා තොරතුරු හා සන්නිවේදන තාක්ෂණ නියෝජිතායතනය (ICTA) සහ දේශීය භාෂා ක්‍රියාකාරී කණ්ඩායම (LLWG) විසින් SLS 1134 හි දෙවන අනුවාදය, සිංහල ආදාන සම්මත ප්‍රමිතිකරණය ලෙස,  විස්තීරණ විජේසේකර යතුරු පුවරුව ඩිජිටල් උපාංග සඳහා සිංහල ආදානය කිරීමට පෙරනිමි යතුරු පුවරුව ලෙස නිකුත් කරන ලදී. SLS 1134 දෙවන අනුවාදය මඟින් අනෙකුත් සියලුම ඉන්ඩික් ස්ක්‍රිප්ට් (Indic Script) මෙන් ව්‍යාංජනාක්ෂර සහ ස්වර විකරණ සංයෝජන භාවිතයෙන් පරිගණක මතකයේ සිංහල අක්ෂර ගබඩා කරන ආකාරය ප්‍රමිතිගත කර ඇත. SLS 1134 දෙවන අනුවාදය 2004 දී නිකුත් වූ අතර, මෙමෙ ලිපියෙහි කතුවරයා විසින් රචනා කරන ලද තුන්වන සංශෝධනය 2011 දී ප්‍රකාශයට පත් කරන ලදී. ඉහත සඳහන් කරන ලද  SLS 1134  දෙවන අනුවාදය මඟින්,  සිංහලට සහය වන පරිදි විදැහුම්කරණ යන්ත්‍ර වින්‍යාස කිරීම සඳහා මෘදුකාංග සහ මෙහෙයුම් පද්ධති සංවර්ධනය කිරීමට එමඟින් හැකි විය. ලිපියෙහි කතෘ විසින් ප්‍රසිද්ධ කාටූන් ශිල්පී විනී හෙට්ටිගොඩ මහතාගේ සිංහල අකුරු හැඩතල සමඟින් විදැහුම්කරණ සිංහල යුනිකෝඩ් අකුරු හැඩතල කොළඹ විශ්ව විද්‍යාලයේ පරිගණක  අධ්‍යායතනයෙහි  මගේ විද්‍යාගාරයේදී පරීක්‍ෂා කළෙමි. මෙහිදී අකුරු රීති ඇති කිරීම සඳහා Microsoft Visual OpenType Layout මෙවලම (VOLT) භාවිතා කරන ලදී. විනී හෙට්ටිගොඩ මහතා ඔහු විසින් නිර්මාණය කරන ලද  යුනිකේත අකුරු පසුව නිම කළ අතර, මම ද සරසවි අකුරු භාවිතා කරමින් සරසවි යුනිකේත අකුරු නිකුත් කළෙමි. මෙය සේරිෆ් (serif) ෆොන්ට් ලෙස නිර්මාණය කරන ලදී. 2005 වසරේ දී, මයික්‍රොසොෆ්ට් සමාගම විසින් “Pota” යනුවෙන් අකුරු වර්ගයක් නිකුත් කරන ලදී. මෙය  “Iskoola Pota” ලෙස ඔවුන්ගේ මෙහෙයුම් පද්ධති සහ යෙදුම් සඳහා  පෙරනිමි අකුරු ලෙස භාවිත කරයි. 2009 වසරේ දී ශ්‍රී ලංකාවේ සිටින යුනිකේත පුරෝගාමීන් විසින්,  යුනිකේත අකුරු නිර්මාණය කරන්නේ කෙසේද යන්න පිළිබඳව අකුරු නිර්මාණකරුවන් සඳහා  පුහුණු වැඩමුළු පවත්වන ලදී. වැඩමුළුව අවසානයේ දී ශ්‍රී ලංකා තොරතුරු හා සන්නිවේදන තාක්ෂණ නියෝජිතායතනය(ICTA) විසින් භාෂිත අකුරු වෙනුවෙන් නිර්මාණය කරන ලද අකුරු රීති භාවිතා කරමින් විවිධ අකුරු වර්ග 16ක් නිකුත් කරන ලදී. දේශීය භාෂා ක්‍රියාකාරී කණ්ඩායම (LLWG) විසින් මෙම භාෂිත අකුරු රීති,  අකුරු නිර්මාණකරුවන්ට නව අකුරු සෑදීම සඳහා නොමිලේ සහ විවෘත මූලාශ්‍රයක් ලෙස නිකුත් කරන ලෙස ICTA වෙත උපදෙස් දුන්නේය.

රකාරාංසය  සහ යන්සය විදැහුම්කරණ ගැටලුව

තතුබෑම් ප්‍රහාර වැලැක්වීම සඳහා ගූගල් මඟින් එහි සෙවුම් යන්ත්‍රවල ZWJ ඉවත් කිරීම ආරම්භ කරන ලදී. අප විසින්  නීති විදැහුම්කරණය සඳහා ZWJ සහ ZWNJ භාවිතා කළද, බොහෝ සබැඳි යෙදුම් ZWJ සහ ZWNJ ඉවත් කිරීමට පටන් ගත්තේය. එහි ප්‍රතිඵලයක් වූයේ “ශ්‍රී ලංකාව” යන නම සිංහලෙන් ඇතුළත් රකාරාංසය සහ යන්සය යන වචන බිඳීමයි. අන්‍ය සංයෝජන ස්වරූපවල සංයෝජන නොවන ආකාර තිබූ බැවින්, ඒවායේ මෙම ගැටලුව ඇති නොවේ.

ශ්‍ර (නිවැරදි ආකාරය) -> ශ+0dca (හල් කිරීම)+200c (ZWJ)+ර

200c ඉවත් කළ විට:  ශ්ර

  • ශ්‍රී ලංකා (නිවැරදි ආකාරය): ශ්රි ලංකා
  • සත්‍ය (නිවැරදි ආකාරය) : සත්ය

ZWJ ඉවත් කිරීම නැවැත්වීම සඳහා දේශීය භාෂා ක්‍රියාකාරී කණ්ඩායම (LLWG) විසින් Google සහ අනෙකුත් සබැඳි යෙදුම් සපයන්නන් හට දැනුම් දෙන ලදී.  ෆේස්බුක් හි ඩෙස්ක්ටොප් යෙදුම තව දුරටත් ZWJ ඉවත් කරයි.

රේපය (ව්‍යාංජනාක්ෂර සංයෝජන)

මීට අමතරව, ZWJ  රේපය විදැහුම්කරණය සඳහා භාවිතා කරන අතර එය සිංහල භාෂාවෙහි ඇති ව්‍යාංජනාක්ෂර සංයෝජන තුනෙන් එකකි. එනම් “හල් කිරිම” (්) සහ “ර”  අකුර වෙනුවට මෙහිදී විශේෂ සංකේතයක් වන රේපය ( ර්‍) භාවිතා වෙයි. රේපය “ර් “ට දකුණු පසින් ඇති ව්‍යාංජනාක්ෂරය මත සටහන් වෙයි.  උදාහරණයක් ලෙස, “හර්ෂ” වචනය “හෂර්‍” ලෙස භාවිතා කළ හැකිය.  පහත දැක්වෙන කේත අනුපිළිවෙලින් පරිගණකය එහි ස්ථීර මතකයේ රේප ආකාරය ගබඩා කරයි:

0dca 0dbb 200D (්+ ර + ZWJ)