Марто at home



« | »

На всеки 4-5 секунди се краде* новина

Интересна статистика излезе като резултат от оптимизацията и изтриването на излишните текстове/линкове в alfarss.info.

AlfaRSS не е единственият агрегатор на rss канали, но е уникален по това, че не извежда повтарящи се новини. Роботите на AlfaRSS.Info проверяват всяка новина за предишна подобна, така елиминират в голяма степен повтарящото се съдържание и извеждат само уникални текстове. С времето алгоритъма откриващ дупликатите доста се разви и стана сравнително акуратен – над 95% от прекопирани текстове биват хващани. Разбира се има и такива, които преминават през алгоритъма, но те са твърде изменени, а робота все още не може да хваща семантиката на новини. За сега.

Днес реших да не губя излишно място на сървъра, на който е AlfaRSS и реших да затрия повтарящите се новини. Така или иначе те не се извеждат под никаква форма в сайта.

Статистиката сочи, че средно на всеки 3 секунди излиза новина, която не е оригинална, а е прекопирана едно към едно или е с много висок процент близка или казано направо: твърде съмнително близка. Такъв тъп новини не се извеждат на сайта, а се използват единствено за създаване на статистика за всеки източник. От тази статистика се виждат и няколко сайта, в които 2 от 3 новини са копирани от някъде… звучи ужасно, но е факт, че това не са никак малки сайтове!

*Крадена или копирана – към момента няма създаден автоматичен алгоритъм разпознаващ единия от другия вид.

Posted by on 22 February 2009.

Categories: Новини

4 Responses

  1. Добре, че няма такава статистика за родната преса…

    by dinka on Feb 22, 2009 at 23:56

  2. Там е тъмна Индия за човек като мен :)))
    Още ли се произвеждат такива неща?:D

    by Марто on Feb 23, 2009 at 17:50

  3. Ами крайно време е нещо да се направи срещу копирането и краденето на информация.
    Не мислиш ли?

    by napster on Mar 9, 2009 at 09:13

  4. В случая не е ясно дали става дума за крадене на информация, тъй като повечето сайтове не са източници на тази информация. Те я откупуват и я използват.

    Проблема е, че всички явно купуват правата за ползване от едно място (от БТА) от там и еднаквите материали.

    by Марто on Mar 9, 2009 at 11:25

Leave a Reply

CommentLuv badge

« | »




Recent Posts


Pages