استفاده از یادگیری استقرایی قوانین برای جداسازی تصویری کلمات فارسی و لاتین
محل انتشار: هشتمین کنفرانس سالانه انجمن کامپیوتر ایران
سال انتشار: 1381
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,445
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ACCSI08_031
تاریخ نمایه سازی: 18 بهمن 1386
چکیده مقاله:
برای بازشناسی اسناد چند زبانه باید بتوان بهطور خودکار نوع زبان هر کلمه را تشخیص داد. در این مقاله، با استفاده از یادگیری استقرایی قوانین، روشی برای جداسازی تصویری کلمات فارسی و لاتین در متون چاپی ارائه میشود. در روش پیشنعادی از 6 ویژگی تصویری استفاده شده است. مجموعه ویژگی های استخراجشده از 896 نمونه آموزشی تصاویر کلمات فارسی و لاتین با انودع قلم ها به عنوان ورودی به ابزار یادگیری قانون c4.5 داده شد. این ابزار بر اساس این ویژگی ها 13 قانون برای جداسازی کلمات فارسی و لاتین تولید کرد. با استفاده از این قوانین در یک مجموعه ازمون 1420 کلمه ای، حدود 94% از کلمات به درستی طبقه بندی شدند.
کلیدواژه ها:
نویسندگان
هادی صدوقی یزدی
دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
مهدی آبادی
دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
احسان اله کبیر
دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :