Ş­i­m­d­i­ ­b­e­n­i­ ­d­u­y­a­b­i­l­i­y­o­r­ ­m­u­s­u­n­?­ ­ ­Ü­r­e­t­k­e­n­ ­y­a­p­a­y­ ­z­e­k­a­ ­i­l­e­ ­g­ü­r­ü­l­t­ü­l­ü­ ­s­e­s­l­e­ ­m­ü­c­a­d­e­l­e­ ­e­t­m­e­k­ ­i­ç­i­n­ ­y­a­p­a­y­ ­z­e­k­a­-­k­u­s­t­i­ğ­i­

Ş­i­m­d­i­ ­b­e­n­i­ ­d­u­y­a­b­i­l­i­y­o­r­ ­m­u­s­u­n­?­ ­ ­Ü­r­e­t­k­e­n­ ­y­a­p­a­y­ ­z­e­k­a­ ­i­l­e­ ­g­ü­r­ü­l­t­ü­l­ü­ ­s­e­s­l­e­ ­m­ü­c­a­d­e­l­e­ ­e­t­m­e­k­ ­i­ç­i­n­ ­y­a­p­a­y­ ­z­e­k­a­-­k­u­s­t­i­ğ­i­

Röportajların ve konuşmaların gürültülü kayıtları, ses mühendislerinin varlığının belasıdır. Ancak bir Alman startup, videodaki seslerin netliğini artırmak için üretken yapay zekayı kullanan benzersiz bir teknik yaklaşımla bu sorunu çözmeyi umuyor.

Bugün, AI-kustik 1,9 milyon Euro'luk bir fonla gizlilikten çıktı. Kurucu ortak ve CEO Fabian Seipel'e göre AI-coustics teknolojisi, herhangi bir cihaz ve hoparlörde ve bunlarla birlikte çalışacak şekilde standart gürültü bastırmanın ötesine geçiyor.

Seipel, TechCrunch'a verdiği bir röportajda şunları söyledi: “Temel misyonumuz, ister konferans görüşmesinde, tüketici cihazında ister gündelik sosyal medya videosunda olsun, her dijital etkileşimi profesyonel bir stüdyonun yayını kadar net hale getirmektir.”

Ses mühendisi eğitimi alan Seipel, 2021 yılında Berlin Teknik Üniversitesi'nde makine öğrenimi alanında öğretim görevlisi olan Corvin Jaedicke ile birlikte AI-coustics'i kurdu. Seipel ve Jaedicke, TU Berlin'de ses teknolojisi okurken tanıştılar ve burada genellikle zayıf sesle karşılaştılar. Almaları gereken çevrimiçi kurs ve eğitimlerin kalitesi.

Seipel, “Dijital iletişimde düşük ses kalitesinin yaygın sorununun üstesinden gelmeye yönelik kişisel bir misyonla yola çıktık” dedi. “Yirmili yaşlarımın başlarında müzik prodüksiyonu nedeniyle işitme duyum biraz bozulsa da, her zaman çevrimiçi içerik ve derslerle uğraştım, bu da bizi ilk etapta konuşma kalitesi ve anlaşılırlık konusu üzerinde çalışmaya yöneltti.”

Yapay zeka destekli gürültü bastırıcı, sesi güçlendiren yazılım pazarı halihazırda çok güçlü. AI-coustics'in rakipleri arasında, akışlı ve önceden kaydedilmiş konuşma kliplerini geliştirmek için üretken yapay zekayı kullanan Insoundz ve Veed.iokliplerden arka plan gürültüsünü ortadan kaldıran araçlara sahip bir video düzenleme paketi.

Ancak Seipel, AI-coustics'in gerçek gürültü azaltma işini yapan AI mekanizmalarını geliştirme konusunda benzersiz bir yaklaşıma sahip olduğunu söylüyor.

Girişim, AI-coustics'in ana şehri olan Berlin'deki girişimin stüdyosunda kaydedilen konuşma örnekleriyle eğitilmiş bir model kullanıyor. İnsanlara numuneleri kaydetmeleri için para ödeniyor (Seipel ne kadar olduğunu söylemiyor) ve bunlar daha sonra AI-coustics'in gürültü azaltıcı modelini eğitmek için bir veri setine ekleniyor.

Seipel, “Eğitim süreci sırasında gürültü, yankılanma, sıkıştırma, bant sınırlı mikrofonlar, distorsiyon, kırpma vb. gibi ses yapaylıklarını ve sorunlarını simüle etmek için benzersiz bir yaklaşım geliştirdik” dedi.

Startup'ın eğittiği modelin uzun vadede oldukça kazançlı olabileceği göz önüne alındığında, bazılarının AI-coustics'in yaratıcılara yönelik tek seferlik tazminat planına itiraz edeceğine bahse girerim. (Yapay zeka modelleri için eğitim verisi yaratıcılarının katkılarından dolayı artıkları hak edip etmediği konusunda sağlıklı bir tartışma var.) Ancak belki de daha büyük, daha acil endişe önyargıdır.

Konuşma tanıma algoritmalarının önyargılar (sonuçta kullanıcılara zarar veren önyargılar) geliştirebileceği iyi bilinen bir şey. A çalışmak Ulusal Bilimler Akademisi Bildiriler Kitabı'nda yayınlanan bir çalışma, önde gelen şirketlerin konuşma tanıma özelliğinin, beyaz konuşmacılara kıyasla Siyah konuşmacılardan gelen sesi hatalı şekilde yazıya dönüştürme olasılığının iki kat daha fazla olduğunu gösterdi.

Bununla mücadele etmek amacıyla Seipel, AI-coustics'in “çeşitli” konuşma örneği katılımcılarını işe almaya odaklandığını söylüyor. Şöyle ekledi: “Boyut ve çeşitlilik, önyargıyı ortadan kaldırmanın ve teknolojinin tüm diller, konuşmacı kimlikleri, yaşlar, aksanlar ve cinsiyetler için işe yaramasını sağlamanın anahtarıdır.”

En bilimsel test değildi ama üç video klip yükledim. 18. yüzyıldan kalma bir çiftçiyle röportajA araba sürüş demosu ve bir İsrail-Filistin çatışması protestosu — her biriyle ne kadar iyi performans gösterdiğini görmek için AI-coustics platformuna. AI-coustics gerçekten de netliği artırma vaadini yerine getirdi; kulaklarıma göre, işlenmiş kliplerde hoparlörleri bastıran ortam arka plan gürültüsü çok daha azdı.

İşte daha önce 18. yüzyıl çiftçi klibi:

Popular Articles

Latest Articles