Марто at home



« | »

“Duplicate content filter”

Думите “Duplicate content filter” явно се свързват изцяло и само със SEO и разните му гугълски оптимизиация. Да, ама днес реших да правя такова нещо – не! не! и не! не става дума за SEO, а чисто и просто откриване на поваряща се информация. В моя случай: десетки хиляди заглавия и няколко процента от тях повтарящи се или най-точно казано всичко, което се излива на килограми в AlfaRSS.Info

Намирането на напълно еднакви заглавия е лесно, но както винаги лесните неща не са най-добрите (въпреки, че една скоропоговорка твърди обратното) и софтуера трябва да намира и близки или поне възможно най-много разновидности на едни и същи изречения.

В крайна сметка гугленето не помогна и сега, някъде към три през ноща, цялата глупост се опрости до една малка функция, която работи перфектно.

Накратко функцията търси думите в един речник, после в друг речник търси изречения със същия брой и вид думи с относителна точност плюс/минус една дума.

За сега работи перфектно, но ще следя резултатите за да хвана евентуалните проблеми.

Май е време да си лягам… Монк тайм!

Posted by on 4 April 2008.

Tags: ,

Categories: Програмиране

0 Responses

Leave a Reply

CommentLuv badge

« | »




Recent Posts


Pages