پایگاه دادگان زبان فارسی، منبعی بزرگ برای همه

همه پژوهشگرانی که درباره زبان فارسی تحقیق می‌کنند، چه در ایران و چه در کشورهای دیگر جهان از «پایگاه دادگان زبان فارسی» استفاده می‌کنند. زبان‌آموزان و معلمان زبان فارسی، مترجمان، دانشجویان، استادان زبان‌شناسی، فرهنگ‌نگاران و دستورنویسان ازجمله کاربران اصلی این دادگان هستند. ایبنا گفت‌وگویی دارد با دکتر عاصی، مسوول این پایگاه؛ درباره اهداف راه‌اندازی و خدمات آن.\
خبرگزاری کتاب ایران (ایبنا) - سید مصطفی عاصی، ‌مدیر و مجری پایگاه دادگان زبان فارسی، دارای لیسانس زبان و ادبیات انگلیسی و ‌کارشناسی ارشد زبانشناسی همگانی از دانشگاه تهران و دکترای زبانشناسی با گرایش کامپیوتر و فرهنگ‌نگاری از دانشگاه اکستر انگلیس است.

او در حال حاضر همچنین عضو هیات علمی فرهنگستان زبان و ادب فارسی، مدیر گروه زبانشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی و رییس انجمن زبانشناسی ایران است.

از وی مقالات و پژوهش‌های فارسی و انگلیسی بسیاری در مجلات و سمینارهای داخلی و بین‌المللی ارائه شده است. عاصی کتابهایی در حوزه کامپیوتر، زبانشناسی و فرهنگ‌نگاری در کارنامه خود دارد که از آن جمله‌اند: «پیشنهاد شما چسیت؟»، «سیستم رایانه‌ای و برنامه‌های واژه‌نامه‌های بسامدی»،‌ «سیستم رایانه‌ای و برنامه واژه‌نامه‌های چندزبانی و ریشه‌شناسی»،«‌استاندارد کد تبادل اطلاعات 8 بیتی فارسی»، «‌استاندارد صفحه کلید فارسی کامپیوتر»،‌«استاندارد نحوه ارائه کد زبان‌ها» ( تالیف گروهی)،‌ «واژگان گزیده زبانشناسی » و «فرهنگ زبانشناسی» با همکاری محمد عبدعلی،‌ «مجموعه مقالات نخستین همایش انجمن زبانشناسی ایران » و فرهنگ یک جلدی، دو‌جلدی و چهارجلدی فارسی – انگیسی آریانپور (با همکاری دکتر آریانپور).

با او در مورد پایگاه دادگان زبان فارسی به گفت‌وگو نشسته‌ایم:

پایگاه دادگان زبان فارسی چیست؟
مجموعه‌ای نرم‌افزاری برای ذخیره، پردازش و ارائه داده‌های زبانی فارسی است. این پایگاه دربرگیرنده پیکره‌های گوناگونی از زبان فارسی است که با وجود حجمی عظیم و با گستردگی و گوناگونی‌های بسیار، دارای ساختاری بسامان و منطقی است و امکان هرگونه جستجو و دستیابی سریع به آگاهی‌های مورد نیاز را در هر زمان فراهم آورده است. پیکره‌های این پایگاه می‌توانند همواره روزآیند شود و پاسخگوی نیاز همه پژوهندگان زبان فارسی در همه زمینه‌های نظری و کاربردی باشند.

هدف از ایجاد این پایگاه چه بوده؟
امروزه دیگر کسی درباره لزوم بنیاد نهادن بررسی‌های زبانشناختی بر داده‌های واقعی و مستند تردیدی ندارد. برای هر نوع پژوهش، به پیکره زبانی ویژه‌ای که در بردارنده نمونه‌های مناسب و کافی باشد نیاز است و هر چه گسترده‌تر و متنوع‌تر باشد، معتبرتر وسودمندتر است. اما گستردگی و تنوع پیکره در شکل‌های سنتی دارای محدودیت‌های بسیاری است.

هنگامی که حجم پیکره از مرزی می‌گذرد، سازماندهی و بهره‌گیری از آن مشکل و سپس ناممکن می‌شود. گوناگونی داده‌ها گرچه در بیشتر بررسی‌ها اهمیت بسیار و نقش تعیین‌کننده‌ای دارد؛ اما باز هم مشکل را پیچیده‌تر می‌کند.

از سوی دیگر بسیاری از فعالیت‌های علمی درحوزه زبان، ادبیات و زبانشناسی به داده‌های مشابهی نیاز دارند که هر یک برای خود به گوشه‌ای از گستره زبان می‌پردازد. چه بسا پیکره‌ای مشابه یا دارای همپوشی بسیار که بدون آگاهی از وجود دیگری و با صرف وقت و هزینه زیاد به وجود آمده است و پس از بهره‌برداری به کناری نهاده شده است.

ایراد دیگری که اغلب بر این داده‌های پراکنده وارد است، داشتن ناراستی‌های فراوان به دلیل یکبار مصرف بودن آنها است؛ چرا که کمتر فرصتی برای آزمودن، ویراستن و پیراستن آنها فراهم می‌شود. بالاخره با توجه به ماهیت ایستای اینگونه پیکره‌ها حتی اگر بخواهیم از آنها در طرح‌های دیگری بهره بگیریم، پس از گذشت مدتی کهنه و شاید بی‌اعتبار به شمار آیند.

هدف از ایجاد پایگاه داده‌های زبان فارسی(دادگان زبان فارسی)، فراهم کردن مجموعه‌ای از پیکره‌های مطلوب، مناسب و دور از نارسایی‌های یاد شده است.
دوشنبه ٤ آبان ۱۳۸۸ساعت ۳:٠۱ ‎ب.ظ توسط جوجه زبانشناس نظرات ()