الرئيسية / أبحاث و دراسات / الذكاء الاصطناعي يدخل معركة التهرب الضريبي في اليمن
مصلحة الضرائب في صنعاء - نظام النافذة الواحدة
مصلحة الضرائب في صنعاء - نظام النافذة الواحدة

الذكاء الاصطناعي يدخل معركة التهرب الضريبي في اليمن

نجح فريق بحثي من كلية الحاسوب وتكنولوجيا المعلومات بجامعة صنعاء في تطوير نموذج مقارن لتحليل تأثير توسيع البيانات الضريبية على دقة نماذج التعلم الآلي، في خطوة قد تمهد لاستخدام أكثر فاعلية للذكاء الاصطناعي في مكافحة التهرب الضريبي وتحسين كفاءة الأنظمة المالية في اليمن.

الدراسة التي أعدّها الباحثون عبير عبدالله شجاع الدين، وعمار طه زهري، وفضل متهر باعلوي، اعتمدت على بيانات حقيقية مقدمة من مصلحة الضرائب اليمنية، وركزت على اختبار قدرة أربعة من أشهر نماذج التعلم الآلي على اكتشاف أنماط التهرب الضريبي، وهي: شجرة القرار (Decision Tree)، والغابات العشوائية (Random Forest)، وآلة الدعم الناقل (Support Vector Machine)، والشبكات العصبية متعددة الطبقات (Artificial Neural Networks).

أهمية الدراسة لا تكمن فقط في مقارنة النماذج المختلفة، بل في محاولة فهم سؤال بالغ الأهمية في عالم الذكاء الاصطناعي: هل تؤدي زيادة حجم البيانات دائمًا إلى تحسين أداء النماذج الذكية؟

بيانات ضريبية حقيقية تحت المجهر

اعتمد الباحثون على قاعدة بيانات ضريبية تضم 1083 سجلًا تتعلق بالضرائب التجارية والصناعية، بعد إخضاعها لعمليات تنظيف ومعالجة مسبقة. ثم جرى إنشاء نسختين موسعتين من البيانات عبر تكرار السجلات خمس مرات في النسخة الأولى، وعشر مرات في النسخة الثانية، لتصل أحجام البيانات إلى نحو 5000 و10000 سجل على التوالي.

وشملت البيانات معلومات متعددة مثل الرقم الضريبي، والنشاط التجاري، والضرائب المستحقة، والغرامات، ومعدلات الضرائب مقارنة بحجم النشاط التجاري، بهدف تدريب الخوارزميات على التمييز بين حالات الامتثال الضريبي والتهرب الجزئي أو الكامل.

الشبكات العصبية تتصدر النتائج

أظهرت النتائج تفوق نموذج الشبكات العصبية متعددة الطبقات بشكل واضح على بقية النماذج. فعند استخدام البيانات الأصلية فقط، حقق النموذج دقة بلغت 98.96%، مع معدل استدعاء وصل إلى 89.88%، وهي مؤشرات تعكس قدرة عالية على اكتشاف حالات التهرب الضريبي.

ومع توسيع البيانات إلى نحو 5000 سجل، ارتفعت الدقة إلى 99.96%، قبل أن تصل إلى 100% عند استخدام قاعدة البيانات الأكبر.

في المقابل، حققت خوارزمية الغابات العشوائية أداءً مستقرًا نسبيًا، بدقة تجاوزت 97%، بينما جاءت خوارزمية آلة الدعم الناقل في المرتبة الأخيرة عند استخدام البيانات الأصلية، إذ لم تتجاوز قيمة “F-Score” لديها 32.7%.

لكن الباحثين حذروا من أن الوصول إلى دقة كاملة بنسبة 100% لا يعني بالضرورة أن النموذج أصبح مثاليًا.

متى تصبح الدقة مشكلة؟

تشير الدراسة إلى أن النتائج المثالية التي ظهرت لدى بعض النماذج، خصوصًا الشبكات العصبية وSVM عند استخدام 10000 سجل، تعود في الغالب إلى ظاهرة “فرط التكيّف” (Overfitting)، وهي حالة يتعلم فيها النموذج تفاصيل البيانات المكررة بدلًا من اكتساب قدرة حقيقية على التعميم والتنبؤ.

ويعني ذلك أن النموذج قد يبدو شديد الدقة داخل بيئة الاختبار، لكنه قد يفشل عند التعامل مع بيانات جديدة وحقيقية.

لهذا السبب، شدد الباحثون على أن مضاعفة البيانات عبر النسخ المباشر لا تُعد توسيعًا حقيقيًا للبيانات، بل مجرد اختبار لمدى حساسية النماذج لحجم العينة.

دلالات عملية لمؤسسات الضرائب

توفر الدراسة مؤشرات مهمة لصناع القرار في المؤسسات الضريبية، خاصة في البيئات التي تعاني من محدودية البيانات الرقمية. إذ توضح النتائج أن بعض النماذج، مثل الغابات العشوائية، قد تكون أكثر استقرارًا في البيئات محدودة البيانات، بينما تحتاج الشبكات العصبية إلى بيانات حقيقية ومتنوعة لتحقيق أفضل أداء.

كما توصي الدراسة بضرورة التركيز على جمع بيانات أصلية عالية الجودة بدلًا من الاعتماد على تكرار السجلات، إلى جانب استخدام تقنيات أكثر تقدمًا لتوليد البيانات الاصطناعية مستقبلًا، مثل أساليب SMOTE المعتمدة على إنشاء عينات جديدة تحاكي الواقع بدلًا من النسخ الحرفي.

محددات الدراسة وآفاق مستقبلية

أقرّ الباحثون بأن الدراسة واجهت بعض المحددات، أبرزها صغر حجم البيانات الأصلية واعتماد التوسيع على تكرار مباشر للسجلات، وهو ما قد يؤثر على موثوقية بعض النتائج الإحصائية.

وأشار الفريق إلى أن الأبحاث القادمة ستتجه نحو اختبار النموذج على مجموعات بيانات أكبر وفي مجالات مالية وضريبية أخرى، مثل ضرائب المبيعات وأنواع الضرائب المختلفة، مع استخدام تقنيات أكثر تطورًا لتقييم النماذج وتقليل احتمالات فرط التكيّف.

وتعكس الدراسة تصاعد الاهتمام اليمني بتطبيقات الذكاء الاصطناعي في المجالات الاقتصادية والرقابية، في وقت تتجه فيه العديد من دول العالم إلى توظيف تقنيات التعلم الآلي للكشف المبكر عن التهرب الضريبي وتعزيز كفاءة التحصيل المالي.

شاهد أيضاً

stuai

علماء كوريون يطورون تقنية تقلل هلوسة الذكاء الاصطناعي وتحسن موثوقيته

في خطوة قد تعيد تشكيل طريقة تطوير أنظمة الذكاء الاصطناعي، نجح باحثون من Korea Advanced …