Fibra

Início > Entrevistas > Modelos estatísticos mais ricos

Modelos estatísticos mais ricos

terça, 03 julho 2012 01:00   André Martins, vencedor do Prémio Científico IBM 2011

André Martins doutorado do Programa Carnegie Mellon PortugalAndré Martins foi o vencedor do Prémio Científico IBM 2011 com a sua tese de doutoramento na área da Inteligência Artificial, intitulada “Turbo Parsers: Dependency Parsing by Approximate Variational Inference”.



O Fibra falou com o vencedor para saber um pouco mais sobre a tese, que introduz uma nova abordagem na área da aprendizagem automática estatística.


Fibra | O que é que a sua tese tem de inovador?

André Martins | Este trabalho aborda o problema da análise sintática de texto em linguagem natural, usando métodos de inferência estatística. Dada uma frase, pretende-se produzir a análise sintática mais provável. Trata-se de um problema difícil, uma vez que as linguagens naturais são fortemente ambíguas e permitem uma grande diversidade de construções. Os métodos estatísticos adequam-se bem a este problema porque "capturam" alguns destes fenómenos linguísticos de forma automática, a partir de corpora; porém, assentam geralmente em modelos muito simplificados. O meu trabalho visa colmatar esta lacuna, construindo modelos estatísticos mais ricos, sem sacrificar a eficiência dos algoritmos de análise sintática. 


Fibra | Como é que está a ser aplicada nas funções que tem na Priberam?

AM | Irei juntar-me à equipa de investigação em aprendizagem automática (machine learning) da Priberam, uma empresa spin-off do Instituto Superior Técnico que tem vindo a desenvolver tecnologia da linguagem há vários anos. Com o advento das redes sociais e a disponibilidade cada vez maior de dados textuais, há inúmeras oportunidades para aplicar algumas destas técnicas no desenvolvimento de novos produtos. Há ainda muitos problemas em aberto neste domínio que merecem um estudo mais aprofundado. Espero também continuar ligado ao meio académico e contribuir para dinamizar a investigação nesta área.

 
Fibra | Em que medida é que ela pode ser usada nas plataformas eletrónicas e nos media tradicionais?

AM | A análise sintática de texto é muito relevante para aplicações como pesquisa textual, tradução automática e extração de informação. Muitas destas ferramentas são hoje usadas no dia-a-dia, por exemplo quando procuramos informação na Internet através de um motor de pesquisa. A interpretação automática de texto permite ainda organizar e obter informação de forma eficiente, com uma velocidade de resposta que supera os humanos. É hoje claro que existe um enorme potencial tecnológico nesta área. Para além disto, o advento das redes sociais introduz novos problemas para os quais estas tecnologias podem ser relevantes, tais como a monitorização de media e a análise de textos opinativos.
 

Fibra | O que recorda do estágio que fez na Google?

AM | Foi uma ótima experiência. O Google tem uma infraestrutura computacional que permite trabalhar com uma grande quantidade de dados. Isto tem um impacto forte em termos da qualidade dos modelos estatísticos que se podem obter utilizando estes dados em grande escala. Foi uma boa oportunidade para experimentar alguns dos algoritmos que desenvolvi no âmbito da tese em problemas de grande dimensão.
 

Fibra | Como é que o programa Carnegie Mellon Portugal foi importante para concretizar a sua tese?

AM |  Durante os dois anos em que estive na Carnegie Mellon University (CMU) pude interagir com outros estudantes e professores nas áreas de aprendizagem estatística e processamento de linguagem natural, com os quais aprendi muito. A CMU privilegia muito o networking, que é algo de que sinto falta em Portugal.

Fonte: Fibra

Briefing advocatus fibra Welcome store


Considerações Legais     © 2015 fibra     Ficha Técnica      Estatuo Editorial