Gümüşhane Üniversitesi
Gümüşhane Üniversitesi için, BIST Sürdürülebilirlik Endeksi'ndeki firmaların 2015–2024 yıllarına ait kurumsal raporları üzerinde text-mining ve NLP yöntemleriyle dijital dönüşüm skorları üretilen akademik panel veri seti hizmeti.
Gümüşhane Üniversitesi (2008 kuruluşlu devlet üniversitesi, sloganı 'Gelişen ve geliştiren üniversite'), akademik araştırma kapsamında 'Kurumsal Akademik Veri Seti Temini ve Lisanslama Hizmeti' için ihale açtı. Çalışma, dijital dönüşümün BIST'te işlem gören firmaların finansal performansı üzerindeki etkisini ölçmek üzere planlandı.
Proje, BIST Sürdürülebilirlik Endeksi'ndeki firmaların faaliyet raporları, sürdürülebilirlik raporları ve entegre raporlarından OCR + Türkçe/İngilizce NLP işleme zinciri ile firma-yıl düzeyinde dijitalleşme göstergeleri çıkarmayı kapsar. Çıktı, dijital dönüşümün BIST'te işlem gören firmaların finansal performansı üzerindeki etkisini ölçen akademik bir çalışmada referans olarak kullanılmak üzere yapılandırılmıştır.
10 yıllık (2015–2024) çok firmalı bir dönemde, üç farklı rapor türü (faaliyet, sürdürülebilirlik, entegre) üzerinden tutarlı, tekrar üretilebilir ve akademik standardı karşılayan dijitalleşme göstergeleri çıkarmak. Tarama-only PDF'lerin OCR ile temizlenmesi, Türkçe ve İngilizce karışık metinlerde stop-word ile lemmatization tutarlılığı ve panel veri analizine uygun firma-yıl gözlem yapısının korunması gerekti.
Boru hattı dört aşamadan oluşur: (1) raporların KAP açıklamaları ve yatırımcı ilişkileri sayfalarından toplanması ve PDF→metin/OCR dönüşümü, (2) Türkçe ve İngilizce NLP zinciri ile stop-word temizliği, stemming ve lemmatization, (3) AIOR tarafından hazırlanan dijitalleşme sözlüğüyle alt-kategori skorlaması (digital_score, ai_score, cloud_score, cyber_score, total_words), (4) TF-IDF ve kelime-frekans matrislerinin firma-yıl gözlemine kümelenip Excel panel formatında ihraç edilmesi. Her adımın versiyonlanması ve metodoloji dokümanı, akademik tekrar üretilebilirliği güvence altına alır.
YAPILAN İŞLER
Bu proje için neler teslim ettik?
- 01 PDF → metin dönüşümü ve OCR destekli belge okuma
- 02 Türkçe/İngilizce NLP zinciri (stop-word, stemming, lemmatization)
- 03 Dijitalleşme sözlüğü tabanlı skorlama
- 04 TF-IDF ve kelime frekans analizi
- 05 Firma-yıl panel veri seti üretimi (.xlsx)
- 06 Akademik kullanım lisansı + metodoloji dokümanı
KULLANILAN TEKNOLOJİLER
Bu projede kullandığımız stack
10 yıl
Veri kapsamı (2015–2024)
4
Alt-skor (digital · ai · cloud · cyber)
45 gün
Sözleşme teslim süresi
Süresiz
Akademik kullanım lisansı
Üretilen veri setinin akademik makale ve proje raporlarında uzun süreli referans olarak kalacak olması motive edici.
— AIOR Teknoloji Proje Notu
SONUÇLAR
Çıktı ve etki
Dijital dönüşüm, yapay zekâ, bulut bilişim ve siber güvenlik alt-skorlarının firma-yıl düzeyinde elde edildiği panel veri seti büyük oranda tamamlandı; akademik makale, bildiri ve proje raporlarında süresiz kullanılabilen lisansla teslime hazırlanıyor.