Ü­r­e­t­k­e­n­ ­A­I­ ­M­e­t­n­i­n­i­ ­V­e­r­e­n­ ­K­e­l­i­m­e­l­e­r­

Ü­r­e­t­k­e­n­ ­A­I­ ­M­e­t­n­i­n­i­ ­V­e­r­e­n­ ­K­e­l­i­m­e­l­e­r­

Şimdiye kadar, hatta Yapay zeka şirketleri, bir yazının ne zaman yayınlandığını güvenilir bir şekilde tespit edebilecek araçlar geliştirmekte zorluk çekiyor. büyük bir dil modeli kullanılarak oluşturuldu. Şimdi, bir grup araştırmacı, LLM döneminde (yani 2023 ve 2024) hangi “fazla kelimelerin” çok daha sık görünmeye başladığını ölçerek, büyük bir bilimsel yazı kümesinde LLM kullanımını tahmin etmek için yeni bir yöntem geliştirdi. Araştırmacılara göre, sonuçlar “2024 özetlerinin en az yüzde 10'unun LLM'lerle işlendiğini” gösteriyor.

İçinde bu ayın başlarında yayınlanan bir ön baskı makalesiAlmanya'daki Tübingen Üniversitesi ve Northwestern Üniversitesi'nden dört araştırmacı, Covid-19 salgınının etkisini ölçen çalışmalardan ilham aldıklarını söyledi. aşırı ölümlere bakarak yakın geçmişe kıyasla. LLM yazma araçlarından sonra “aşırı kelime kullanımı”na benzer bir bakış açısıyla 2022'nin sonlarında yaygın olarak kullanıma sunulduAraştırmacılar, “LLM'lerin ortaya çıkışının, belirli stil kelimelerinin sıklığında hem nitelik hem de nicelik açısından benzeri görülmemiş bir artışa yol açtığını” buldular.

Derinlemesine İnceleme

Bu kelime dağarcığındaki değişiklikleri ölçmek için araştırmacılar, 14 milyon makale özetini analiz etti. PubMed 2010 ile 2024 arasında, her kelimenin her yıl göründüğü şekliyle göreceli sıklığını takip ettiler. Daha sonra, bu kelimelerin beklenen sıklığını (2023 öncesi eğilim çizgisine dayanarak) LLM'lerin yaygın olarak kullanıldığı 2023 ve 2024'teki özetlerdeki bu kelimelerin gerçek sıklığıyla karşılaştırdılar.

Sonuçlar, 2023'ten önce bu bilimsel özetlerde son derece nadir görülen ancak LLM'ler tanıtıldıktan sonra aniden popülerlik kazanan bir dizi kelime buldu. Örneğin, “delves” kelimesi, LLM öncesi eğilimin beklediğinden 25 kat daha fazla 2024 makalesinde yer aldı; “showcasing” ve “underscores” gibi kelimeler de kullanımda dokuz kat arttı. Daha önce yaygın olan diğer kelimeler, LLM sonrası özetlerde belirgin şekilde daha yaygın hale geldi: Örneğin, “potansiyel” kelimesinin sıklığı %4,1, ​​”bulgular” kelimesi %2,7 ve “kritik” kelimesi %2,6 arttı.

Kelime kullanımındaki bu tür değişiklikler elbette LLM kullanımından bağımsız olarak gerçekleşebilir; dilin doğal evrimi, kelimelerin bazen moda olup bazen modadan düşmesi anlamına gelir. Ancak araştırmacılar, LLM öncesi dönemde, bu tür büyük ve ani yıllık artışların yalnızca büyük dünya sağlık olaylarıyla ilgili kelimelerde görüldüğünü buldu: 2015'te “ebola”; 2017'de “zika”; ve 2020-2022 döneminde “koronavirüs”, “karantina” ve “pandemi” gibi kelimeler.

Ancak LLM sonrası dönemde araştırmacılar, dünya olaylarıyla ortak bir bağlantısı olmayan, bilimsel kullanımda ani ve belirgin artışlar gösteren yüzlerce kelime buldular. Aslında, Covid salgını sırasındaki fazla kelimeler ezici bir çoğunlukla isimlerken, araştırmacılar LLM sonrası sıklık artışı gösteren kelimelerin ezici bir çoğunlukla fiiller, sıfatlar ve zarflar gibi “stil kelimeleri” olduğunu buldular (küçük bir örneklem: “karşısında, ek olarak, kapsamlı, önemli, geliştirici, sergilenen, içgörüler, özellikle, özellikle, içinde”).

Bu tamamen yeni bir bulgu değil; bilimsel makalelerde “dalve” ifadesinin yaygınlığının artması yakın geçmişte yaygın olarak dile getirildiörneğin. Ancak önceki çalışmalar genellikle “temel gerçek” insan yazı örnekleriyle veya çalışmanın dışından elde edilen önceden tanımlanmış LLM belirteçlerinin listeleriyle karşılaştırmalara dayanıyordu. Burada, 2023 öncesi özet seti, LLM sonrası dönemde kelime seçiminin genel olarak nasıl değiştiğini göstermek için kendi etkili kontrol grubu olarak işlev görüyor.

Karmaşık Bir Etkileşim

LLM sonrası dönemde önemli ölçüde daha yaygın hale gelen yüzlerce sözde “işaret sözcüğü” vurgulanarak, LLM kullanımının belirgin işaretleri bazen kolayca seçilebilir. Araştırmacılar tarafından vurgulanan bu örnek soyut satırı ele alalım, işaret sözcükleri vurgulanmış: “A kapsayıcı kavramak karmaşık etkileşim arasında […] Ve […] dır-dir önemli “Etkili tedavi stratejileri için.”

Araştırmacılar, bireysel makalelerde işaretleyici kelime görünümünün bazı istatistiksel ölçümlerini yaptıktan sonra, PubMed korpusundaki 2022 sonrası makalelerin en az yüzde 10'unun en azından bir miktar LLM yardımı ile yazıldığını tahmin ediyorlar. Araştırmacılar, sayının daha da yüksek olabileceğini söylüyor çünkü setlerinde, tanımladıkları işaretleyici kelimelerden hiçbirini içermeyen LLM destekli özetler eksik olabilir.

Kaynak bağlantısı

Popular Articles

Latest Articles