Yapay zeka (YZ), birçok kişi için günlük yaşamın sıradan bir parçası haline geldi. Ancak teknoloji hızla ilerledikçe, gerçek ile sahteyi ayırt etmek giderek zorlaşıyor.

Oksijen'in PLoS One dergisinde yayımlanan yeni bir çalışmasından derlediği habere göre araştırmacılar, çoğu insanın artık yapay zeka tarafından üretilen sesleri, klonlandıkları insan seslerinden ayırt edemediğini ortaya koydu.

Katılımcılara 80 farklı ses örneği verildi. Bunların yarısı YZ, diğer yarısı ise insana ait seslerden oluşuyordu.

Katılımcılardan duydukları sesleri güvenilirlik veya baskınlık düzeyine göre değerlendirmeleri istendi.

YZ kategorisinde iki farklı tür yer aldı: Baştan oluşturulmuş genel YZ sesleri ve insan konuşmalarından klonlanmış sesler.

Yüzde 58’i gerçek sanıldı

Araştırma sonuçlarına göre, çoğu kişi genel YZ seslerinin sahte olduğunu fark ederken, yapay olarak klonlanmış sesler daha zor ayırt edildi. Bu seslerin yüzde 58’i gerçek sanıldı.

Buna karşın gerçek insan seslerinin yüzde 62’si doğru şekilde insan sesi olarak tanındı. Bu da katılımcıların iki tür sesi ayırt etme becerisi arasında yalnızca küçük bir fark olduğunu gösterdi.

Queen Mary Üniversitesi’nde psikoloji alanında kıdemli öğretim görevlisi ve çalışmanın baş yazarı Dr. Nadine Lavan, Euronews’e yaptığı açıklamada “Araştırmanın en önemli noktası, özellikle ses klonlarının, gerçek insan sesleri kadar insana yakın duyulması” dedi.

Lavan “Bu durum özellikle dikkat çekici çünkü ticari olarak erişilebilir araçları kullandık; yani herkes, büyük paralar ödemeden veya özel bir programlama bilgisine sahip olmadan, gerçekçi sesler yaratabiliyor” ifadelerini kullandı.

Endişe yaratan kullanımlar

YZ ses klonlama teknolojisi, ses verilerinden önemli özellikleri analiz edip çıkarmak suretiyle çalışıyor. Bu teknoloji, insan seslerini neredeyse birebir taklit edebildiği için telefon dolandırıcıları tarafından da sıkça kullanılıyor. Dolandırıcılar bazen sosyal medya paylaşımlarını kaynak alarak, insanların sevdiklerinin seslerini taklit ediyor.

Üniversite araştırmalarına göre 75 yaş ve üzerindeki kişilerin en az üçte ikisi telefon dolandırıcılığı girişimine maruz kalıyor. Bu araştırmaya göre, söz konusu girişimlerin neredeyse yüzde 60’ı sesli aramalar yoluyla gerçekleştiriliyor.

Her aramanın YZ ile yapılmadığı belirtilse de, yazılımın erişilebilirliği ve gelişmişliği nedeniyle bu teknoloji dolandırıcılıkta giderek yaygınlaşıyor.

YZ klonlaması, eğlence sektöründe de endişe yaratıyor. Birçok ünlünün sesi izinsiz kullanıldı. Geçen yıl Scarlett Johansson, OpenAI’ın, ChatGPT hizmeti için "Her" filmindeki sesine "ürkütücü şekilde benzer" bir ses kullandığını açıklamıştı.

Ayrıca, daha önce politikacıların veya gazetecilerin seslerini taklit ederek kamuoyunu etkilemeye ve yanlış bilgi yaymaya yönelik sesli deepfake kullanımları da yaygınlaştı.

Dr. Lavan, tüm bu endişe verici kullanımlar göz önüne alındığında, YZ geliştiricilerinin daha güçlü güvenlik önlemleri uygulama sorumluluğu olduğunu belirtiyor.

Lavan “Biz araştırmacılar olarak, teknoloji geliştiren şirketlerin etik uzmanları ve politika yapıcılarla görüşerek, seslerin mülkiyeti, izin ve etik-sınırlamalar gibi konuları değerlendirmelerini her zaman öneririz” dedi.

Erişilebilirliği artırma potansiyeli

Tüm teknolojilerde olduğu gibi, yapay zeka tarafından üretilen seslerin faydalı kullanımları da var. Özellikle konuşamayan veya konuşmakta zorlanan kişiler için bu teknoloji oldukça yararlı olabilir.

Lavan “Bu tür yardımcı teknolojiler bir süredir kullanılıyor. En ikonik örneklerden biri Stephen Hawking. Ancak yenilik, bu sentetik sesleri kişiselleştirmenin artık mümkün olması. Bugün kullanıcılar, orijinal seslerini yeniden oluşturmayı seçebilir veya kimliklerini ve kişisel zevklerini yansıtan tamamen yeni bir ses tasarlayabilir" dedi.

Dr. Lavan, teknolojinin etik ve sorumlu bir şekilde kullanıldığında eğitim, yayıncılık ve sesli kitap üretimi gibi alanlarda erişilebilirlik ve çeşitliliği artırabileceğini vurguladı.

Örneğin, yakın zamanda yapılan bir çalışma, YZ destekli sesli öğrenmenin öğrencilerin motivasyonunu ve okuma ilgisini artırdığını, özellikle DEHB (Dikkat Eksikliği ve Hiperaktivite Bozukluğu) gibi nöroçeşitlilik yaşayan öğrencilerde etkili olduğunu ortaya koydu.

Lavan “Bir diğer ilginç gelişme, sesin farklı dillere klonlanabilmesi. Bu sayede insanlar, ses kimliklerini koruyarak dil engellerini aşabiliyor. Bu durum, küresel iletişim, erişilebilirlik ve kültürel etkileşim açısından dönüştürücü olabilir” dedi.

Araştırmalar devam edecek

Yapay seslerin yaşamımızdaki varlığı arttıkça, bu sesleri nasıl kullanacağımız ve onlarla nasıl etkileşim kuracağımız da gelişmeye devam edecek. Lavan, bunun üzerinde daha fazla araştırma yapmayı planlıyor.

Lavan “Bir sesin YZ tarafından üretilip üretilmediğini bilmenin, kişinin o sesle etkileşimini nasıl değiştireceğini daha derinlemesine incelemek isterim” dedi.

Ayrıca Lavan, “İyi ve hoş bir ses çıkartan ama açıkça insan olmayan YZ seslerinin, insanlar tarafından nasıl algılanacağını görmek de çok ilginç olur. Örneğin, insanlar bu hoş ama insan olmayan seslerden talimat almaya daha istekli mi olur? Bir sorun çıktığında onlara daha mı kızar? Tüm bu sorular araştırma açısından oldukça değerli ve insan-bilgisayar etkileşiminde nelerin önemli olduğunu bize gösterebilir” ifadelerini kullandı.