Nasıl Zemanta ve Açık Calais iş gibi içerik keşif motorları, do?

oy
5

Merak ediyorum nasıl Aç Calais gibi anlamsal servis metnin bir parçasından vb şirketlerin veya kişilerin, teknoloji kavramları, anahtar kelimeler isimlerini dışarı rakamlar olarak. onlar karşı metni eşleştiğini büyük bir veritabanı var diye mi?

Nasıl Zemanta gibi bir hizmet örneği için metnin bir parça önermek ne görüntüleri bilemez?

Oluştur 22/08/2008 saat 09:51
kaynak kullanıcı
Diğer dillerde...                            


3 cevaplar

oy
0

Calais muhtemelen vb İsimler, yerler, şirketler, hangi kelimeleri veya cümleleri tahmin etmek dil ayrıştırma teknolojisi ve dil statiği kullanmak açın Ardından, bu varlıklar için arama çeşit yapmak ve meta verileri döndürmek için sadece başka adımdır.

Zementa muhtemelen benzer bir şey yapar, ancak ilgili sonuçlar elde etmek için görüntü ekli meta veri karşı ifadeler eşleşir.

Kesinlikle kolay değildir.

Cevap 22/08/2008 saat 16:58
kaynak kullanıcı

oy
7

Ben listelenen belirli hizmetler aşina değilim, ama doğal dil işleme alan genel metinden bilgi çıkarma bu tür sağlayacak bir takım teknikler geliştirmiştir. Sean belirtildiği gibi Eğer aday koşullarını eline geçirince, bu çıkarılan terim gerçek bir varlık olduğundan ne kadar emin belirlemek için bağlamda diğer kuruluşlar bazılarıyla bu terimleri aradığında zor değil yani ve sonra bu aramanın sonuçlarını kullanmak faiz.

OpenNLP Eğer doğal dil işleme uğraşmak isterseniz büyük bir projedir. Kelime 'banka': adlandırdığınız yetenekleri muhtemelen en iyi Named Varlık Tanıyıcılar (NER) (özel isimler, genellikle, bazen de büyük bulun algoritmalar) ve / veya Word Sense Disambiguation (WSD) (örn ile tamamlanacaktı farklı anlamlar buna bağlı olan bağlam, ve metin bilgi çıkarma yaparken çok önemli olabilir cümleler Verilen:. "onlar bankayı soydular", "kar banka yüksekti" "düzlem sol bankaya yatırdı" ve nasıl görebilirsiniz dissambiguation) dili anlamada önemli bir rol oynayabilir

(Dize sözcük köklerini - (en iyi üstesinden eğilimindedir istatistiki yaklaşımlar doğal dil tokenizers, sakıncası) Teknikleri genellikle birbirine dayanmakta ve NER genellikle doğru tokenizers gerekeceği için başarıyla NER yapmak, daha karmaşık görevlerden biridir ortak köklerine benzer kelimeleri conflate algoritmalar: muhbir ve muhbir gibi kelimeler eşit davranılır böylece), cümle algılama ( 'Bay Jones uzunluğundaydı.' sadece noktalama kontrol edemez bu yüzden sadece bir cümle vardır), yarı-of -speech etiketleyiciler (POS etiketleyiciler), ve kit.

Orada NLTK denilen OpenNLP ((parçalarının) bir piton liman http://nltk.sourceforge.net ) ama ben henüz çok deneyimi yok. İşlerimin çoğu iyi iş Java ve C # limanları ile olmuştur.

Bu algoritmalar elbette dile özgü olan ve (bunu işliyoruz okuma materyalleri genellikle daha hızlıdır, rağmen) onlar çalıştırmak için ciddi zaman alabilir. state-of-the-art ölçüde istatistiksel teknikler esas aldığından, dikkate almak önemli bir hata oranı da vardır. NER gibi hata oranı etkiler tüm aşamaları ve bir şey sayısız işleme aşamalarını gerektirir çünkü Dahası, (tokenize -> POS etiketi - -> cümle algılamak> WSD -> NER) hata oranları bileşik.

Cevap 30/08/2008 saat 02:56
kaynak kullanıcı

oy
9

Burada OpenCalais Michal Finkelstein.

Birincisi, ilginize teşekkürler. Burada cevap olacak ama aynı zamanda OpenCalais forumlarında devamını okumak için teşvik eder; orada da dahil olmak üzere pek çok bilgi var - ancak bunlarla sınırlı değildir: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn Ayrıca Twitter'da bizi takip etmeye çekinmeyin (@OpenCalais ) ya da team@opencalais.com adresine e-posta için

Şimdi cevabı:

OpenCalais Doğal Dil İşleme ve Metin Analytics alanlarında araştırma ve geliştirme on yıl dayanmaktadır.

(Biz diyoruz gibi) Biz tam "NLP Stack" destekler: metin simgelileştirme, morfolojik analiz ve POS etiketleme itibaren sığ ayrıştırma ve tanımlama, nominal ve sözlü ifadeler için.

Biz varlıkları (aka Varlık çıkarımı, Named Varlık Tanıma) için baktığınızda Semantik devreye girer. Bu amaçla biz keşif kurallarını yanı sıra dağarcıkları / sözlükler birleştiren gelişmiş bir kural tabanlı sistem var. Bu kombinasyon, herhangi bir mevcut listede bulunmayan bile bize, vb şirketleri / kişi / filmlerin, isimlerini belirlemesine olanak tanır.

biz de makale düzeyinde Artgönderim çözünürlük, çapraz başvuru ve adı kanonizasyon / normalleşmeyi gerçekleştirmek, bu yüzden bileceksiniz (örneğin insanlar, şirketler gibi) en belirgin kişiler için 'John Smith'in' ve 'Bay o Smith, örneğin, muhtemelen aynı kişi kastediyoruz. Yani Sorunuzun kısa cevabı - hayır, sadece büyük veritabanları karşı eşleşen ilgili değil.

onlar bizim keşif kurallarını bir seviye aşağıya çekmek için Events / Gerçekler gerçekten ilginç; Biz varlıklar arasındaki ilişkileri bulmak ve benzeri örnek B & S (iki ya da daha fazla şirket arasındaki ilişkiler), İstihdam Değişiklikler (şirketler ve insanlar arasındaki ilişkiler) için, uygun türde ile etiketlemek ve. Söylemeye gerek yok, olay / Gerçek çıkarma yalnızca dağarcıkları dayalı sistemler için mümkün değildir. Çoğunlukla, sistemimiz hassas odaklı olmak ayarlı, ama her zaman doğruluk ve bütünlüğü arasında mantıklı bir denge tutmaya çalışın edilir.

Bu arada bazı serin yeni meta yetenekleri gelişmeleri takip edin bu ay çıkan vardır.

Saygılarımızla,

Michal

Cevap 04/05/2009 saat 18:45
kaynak kullanıcı

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more