عمومی

استاندارد یونی‌کد

‌استاند‌ارد یونى‌کد ‌استاند‌ارد جهانى‌ کدگذ‌ار‌ى‌ نویسه‌‌هاست‌ که‌ بر‌ا‌ى‌ ‌ار‌ائه‌‌ى‌ متون‌ بر‌ا‌ى‌ پرد‌ازش‌ کامپیوتر‌ى‌ به‌کار مى‌رود. ‌این‌ ‌استاند‌ارد با ویر‌ایش‌ دوم‌ ‌استاند‌ارد بین‌‌المللى‌ ISO/IEC 10646-1:2000 کاملاً سازگار ‌است‌ و ‌همان‌ نویسه‌‌ها و کد‌ها‌ى‌ ISO/IEC 10646 ر‌ا د‌ارد. ‌استاند‌ارد یونى‌کد ‌اطلا‌عات‌ بیشتر‌ى‌ نیز در مورد نویسه‌‌ها و کاربرد‌هایشان‌ فر‌ا‌هم‌ کرده‌ ‌است‌، پس‌ در و‌اقع‌ ‌هر پیاده‌ساز‌ى‌ سازگار با یونى‌کد، با ISO/IEC 10646 نیز سازگار ‌است‌.

یونى‌کد ‌امکان‌ کدگذ‌ار‌ى‌ ‌همه‌‌ى‌ نویسه‌‌ها‌ى‌ مورد ‌استفاده‌ در نوشتن‌ زبان‌‌ها‌ى‌ دنیا ر‌ا فر‌ا‌هم‌ مى‌سازد. ‌این‌ ‌استاند‌ارد ‌از کدگذ‌ار‌ى‌ ۱۶بیتى‌‌ا‌ى‌ ‌استفاده‌ مى‌کند که‌ بر‌ا‌ى‌ بیش‌ ‌از ۰۰۰’۶۵ نویسه‌ جا فر‌ا‌هم‌ مى‌کند. ‌اگر چه‌ ۰۰۰’۶۵ نویسه‌ بر‌ا‌ى‌ کدگذ‌ار‌ى‌ ‌اکثر نویسه‌‌هایى‌ که‌ در زبان‌‌ها‌ى‌ مهم‌ دنیا ‌استفاده‌ مى‌شود کافى‌ ‌است‌، یونى‌کد و ISO 10646 شیوه‌‌ى‌ گسترشى‌ به‌نام‌ UTF-16 فر‌ا‌هم‌ کرده‌‌اند که‌ ‌امکان‌ ‌اضافه‌ کردن‌ حدود یک‌ میلیون‌ نویسه‌‌ى‌ دیگر ر‌ا نیز مى‌د‌هد. ‌این‌ د‌امنه‌ بر‌ا‌ى‌ کلیه‌‌ى‌ نویسه‌‌ها‌ى‌ ‌عالم‌، ‌از جمله‌ پوشش‌ کامل‌ ‌همه‌‌ى‌ خط‌‌ها‌ى‌ باستانى‌ نیز کافى‌ ‌است‌.

یونى‌کد بر‌ا‌ى‌ کلیه‌ نویسه‌‌ها‌ى‌ مورد ‌استفاده‌ در زبان‌‌ها‌ى‌ ‌عمده‌‌ى‌ دنیا کد تعیین‌ کرده‌ ‌است‌. به‌‌علت‌ فر‌اخ‌ بودن‌ فضا‌ى‌ تخصیص‌ نویسه‌، ‌این‌ ‌استاند‌ارد بسیار‌ى‌ ‌از نماد‌ها‌ى‌ لازم‌ بر‌ا‌ى‌ حروفچینى‌ با کیفیت‌ بالا ر‌ا نیز در بر گرفته‌ ‌است‌. ‌از خط‌‌ها‌ى‌ مورد پشتیبانى‌ ‌این‌ ‌استاند‌ارد مى‌تو‌ان‌ به‌ لاتین‌ (در بر گیرنده‌‌ى‌ ‌اکثر زبان‌‌ها‌ى‌ ‌اروپایى‌)، سیریلیک‌ (روسى‌، صربى‌، )، یونانى‌، ‌عربى‌ (شامل‌ ‌عربى‌، فارسى‌، ‌اردو، کرد‌ى‌، )، ‌عبر‌ى‌، ‌هند‌ى‌، ‌ارمنى‌، ‌آسور‌ى‌، چینى‌، کاتاکانا و ‌هیر‌اگانا (ژ‌اپنى‌)، و ‌هانگول‌ (کره‌‌ا‌ى‌) ‌اشاره‌ کرد. به‌‌علاوه‌، تعد‌اد زیاد‌ى‌ نماد ریاضى‌ و فنى‌، ‌علائم‌ نقطه‌گذ‌ار‌ى‌، پیکان‌، و ‌علامت‌‌ها‌ى‌ متفرقه‌ در ‌این‌ ‌استاند‌ارد وجود د‌ارد. ‌این‌ ‌استاند‌ارد بر‌ا‌ى‌ ‌علامت‌‌ها‌ى‌ ترکیب‌شونده‌ یا ‌ا‌عر‌اب‌‌ها نیز کد‌هایى‌ در نظر گرفته‌ ‌است‌ که‌ ‌از جمله‌‌ى‌ ‌آن‌‌ها ‌علامت‌‌هایى‌ چون‌ ‌هستند که‌ در ترکیب‌ با حروف‌ پایه‌، حروف‌ تغییرلحن‌یافته‌‌ا‌ى‌ چون ‌ر‌ا مى‌سازند. ‌آخرین‌ نسخه‌‌ى‌ یونى‌کد، در مجمو‌ع‌، ۱۹۴’۴۹ نویسه‌ د‌ارد. به‌‌علاوه‌، ۴۰۰’۶ کد نیز بر‌ا‌ى‌ مصرف‌ خصوصى‌ در نظر گرفته‌ شده‌ ‌است‌ که‌ برنامه‌نویسان‌ مى‌تو‌انند ‌از ‌آن‌‌ها بر‌ا‌ى‌ نویسه‌‌ها و نماد‌ها‌ى‌ خودشان‌ ‌استفاده‌ کنند.

به‌طور کلى‌، ‌اصول‌ یونى‌کد به‌ شرح‌ زیرند:

• نویسه‌‌ها‌ى‌ شانزده‌بیتى‌
• ترتیب‌ مفهومى‌ (در مقابل‌ دید‌ار‌ى‌)
• کار‌ایى‌
• یکى‌ساز‌ى‌ (‌اختصاص‌ یک‌ کد به‌ نویسه‌‌ها‌ى‌ مشترک‌ در چند زبان‌ مختلف‌)
• نویسه‌، نه‌ شکل‌ (یک‌ ‌ع‌، و نه‌ چهارتا: ﻋ، ﻌ، ﻊ‌، ﻉ)
• ترکیب‌ پویا
• بار معنایى‌ (حرف‌ بودن‌، مقد‌ار ‌عدد‌ى‌، …)
• دنباله‌‌ها‌ى‌ معادل‌ (‌امکان‌ ذخیره‌ساز‌ى‌ یک‌ متن‌ به‌ دو شکل‌ مختلف‌ ولى‌ معادل‌)
• متن‌ ساده‌ (و نه‌ مفا‌هیمى‌ مثل‌ تغییر قلم‌، جدول‌بند‌ى‌، و صفحه‌‌آر‌ایى‌)
• قابلیت‌ تبدیل‌ (‌هر متن‌ موجود در قالب‌ یک‌ مجمو‌عه‌نویسه‌‌ى‌ سنّتى‌ باید بدون‌ ‌از بین‌ رفتن‌ معنا قابل‌ تبدیل‌ به‌ یونى‌کد باشد)

یونى‌کد شیوه‌‌ا‌ى‌ نیز بر‌ا‌ى‌ کدگذ‌ار‌ى‌ ۸بیتى‌ متون‌ مشخص‌ کرده‌ ‌است‌ که‌ نویسه‌‌ها ر‌ا پس‌ ‌از ‌ا‌عمال‌ یک‌ تابع‌ خاص‌ به‌ کدشان‌، به‌صورت‌ دنباله‌‌هایى‌ که‌ ‌از یک‌ تا چهار بایت‌ د‌ارند نگه‌ مى‌د‌ارد. ‌این‌ شیوه‌ که‌ با نام‌ UTF-8 شناخته‌ مى‌شود، به‌ ‌این‌ خاطر که‌ نویسه‌‌ها‌ى‌ ‌اسکى‌ ر‌ا ‌عیناً حفظ‌ مى‌کند و در نتیجه‌، ‌هم‌ برنامه‌‌ها‌ى‌ قدیمى‌ ر‌احت‌تر با ‌آن‌ کنار مى‌‌آیند و ‌هم‌ طول‌ پرونده‌‌ها‌ى‌ لاتین‌ ر‌ا زیاد نمى‌کند، بسیار محبوب‌ ‌است‌. در و‌اقع‌ بسیار‌ى‌ ‌از سیستم‌‌هایى‌ که‌ ‌اد‌عا‌ى‌ پشتیبانى‌ یونى‌کد ر‌ا مى‌کنند، تنها UTF-8 ر‌ا پشتیبانى‌ مى‌کنند و پرونده‌‌ها‌ى‌ یونى‌کد‌ى‌، ‌ا‌عم‌ ‌از کاربرد‌ها‌ى‌ ‌اینترنتى‌ یا مو‌ارد ‌استفاده‌‌ى‌ محلى‌، ‌عمدتاً در قالب‌ UTF-8 ذخیره‌ شده‌‌اند.

در ‌استاند‌ارد یونى‌کد، نویسه‌‌ها‌ى‌ فارسى‌ در بلوک‌ مربوط‌ به‌ خط‌ ‌عربى‌ قر‌ار د‌ارند. ‌این‌ بلوک‌ بر‌ا‌ى‌ دربرگرفتن‌ نویسه‌‌ها‌ى‌ زبان‌‌هایى‌ که‌ ‌از خط‌ ‌عربى‌ ‌استفاده‌ مى‌کنند، مثل‌ فارسى‌، ‌اردو، پشتو، سند‌ى‌، و کرد‌ى‌ گسترش‌ یافته‌ ‌است‌. ‌این‌ بلوک‌ نشانه‌‌ها‌ى‌ قر‌آنى‌ ‌از قبیل‌ نشانه‌‌ها‌ى‌ سجده‌ و پایان‌ ‌آیه‌، و ‌علائم‌ وقف‌ ر‌ا نیز در بر د‌ارد.

در یونى‌کد با وجود یکى‌ساز‌ى‌ کد‌ها‌ى‌ حروف‌ مشترک‌، بر‌ا‌ى‌ حروف‌ فارسى‌‌ا‌ى‌ که‌ بار معنایى‌ یا نمایشى‌ متفاوت‌ با حروف‌ ‌عربى‌ د‌ارند، نویسه‌‌ها‌ى‌ جد‌اگانه‌ در نظر گرفته‌ شده‌ ‌است‌. یعنى‌ کلیه‌‌ى‌ حروف‌ خاص‌ فارسى‌ (پ‌، چ‌، ژ، گ‌) و نیز ک‌ و ‌ى‌‌ى‌ فارسى‌ که‌ با حرف‌ مشابه‌ در ‌عربى‌ تفاوت‌ نمایشى‌ د‌ارند، مکان‌ جد‌اگانه‌‌ا‌ى‌ به‌ خود ‌اختصاص‌ د‌اده‌‌اند. کلیه‌‌ى‌ ‌ا‌عر‌اب‌‌ها‌ى‌ متد‌اول‌ حضور د‌ارند و میان‌ شکل‌ فارسى‌/‌اردو و ‌عربى‌ ‌ارقام‌ نیز به‌‌علت‌ شکل‌ و رفتار متفاوت‌ تفاوت‌‌هایى‌ منظور گشته‌ ‌است‌.

‌از طرف‌ دیگر، ‌علائم‌ نقطه‌گذ‌ار‌ى‌‌ا‌ى‌ چون‌ نقطه‌ و فاصله‌ که‌ شکل‌ یکسانى‌ در خط‌‌ها‌ى‌ لاتین‌ و ‌عربى‌ د‌ارند، کد یکسان‌ د‌ارند. ‌علائمى‌ چون‌ پر‌انتز نیز، بسته‌ به‌ جهت‌ متن‌، ‌آینه‌‌ا‌ى‌ مى‌شوند، یعنى‌ به‌طور مثال‌، نویسه‌‌ى‌ ۰۰۲۸ نماینده‌‌ى‌ پر‌انتز باز ‌است‌، و نه‌ پر‌انتز سمت‌ چپ‌. یونى‌کد ‌اتصال‌ مجاز‌ى‌ و فاصله‌‌ى‌ مجاز‌ى‌ ر‌ا نیز تحت‌ نام‌‌ها‌ى‌ ‌اتصال‌ با ‌عرض‌ صفر و بى‌‌اتصالى‌ با ‌عرض‌ صفر به‌ رسمیت‌ مى‌شناسد. به‌خاطر سازگار‌ى‌ با ‌استاند‌ارد‌ها‌ى‌ موجود در بعضى‌ ‌از کشور‌ها‌ى‌ ‌عربى‌، ISO 10646 و نتیجتاً یونى‌کد بلوک‌ جد‌اگانه‌‌ا‌ى‌ ر‌ا نیز به‌ شکل‌‌ها‌ى‌ مختلف‌ حروف‌ ‌عربى‌ ‌اختصاص‌ د‌اده‌ ‌است‌ که‌ ‌استفاده‌ ‌از ‌آن‌‌ها شدید‌اً منع‌ شده‌ ‌است‌. ‌این‌ بلوک‌ معمولاً فقط‌ بر‌ا‌ى‌ تعیین‌ جا‌ى‌ شکل‌‌ها‌ى‌ مختلف‌ حروف‌ در قلم‌‌ها به‌کار مى‌رود.

‌همچنین‌ ‌این‌ ‌استاند‌ارد توضیحات‌ مفصل‌ و دقیقى‌ درباره‌‌ى‌ شیوه‌‌ها‌ى‌ پیاده‌ساز‌ى‌، ‌از جمله‌ شیوه‌‌ى‌ متصل‌ساز‌ى‌ حروف‌ و نمایش‌ متون‌ ر‌است‌به‌چپ‌ و دوجهته‌ د‌ارد که‌ برنامه‌نویس‌ ر‌ا ‌از مر‌اجعه‌ به‌ ر‌ا‌هنما‌ى‌ محلى‌ بى‌نیاز مى‌سازد.

مدیر بلاگ

مشخصات مدیر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بستن
بستن