Corretor ortográfico
No software, um corretor ortográfico é um recurso de software que verifica erros ortográficos em um texto. Os recursos de verificação ortográfica geralmente são incorporados em software ou serviços, como processador de texto, cliente de e-mail, dicionário eletrônico ou mecanismo de pesquisa.
Eye have a spelling chequer,
It came with my Pea Sea.
It plane lee marks four my revue
Miss Steaks I can knot sea.
Eye strike the quays and type a whirred
And weight four it two say
Weather eye am write oar wrong
It tells me straight a weigh.
Eye ran this poem threw it,
Your shore real glad two no.
Its vary polished in its weigh.
My chequer tolled me sew.
A chequer is a bless thing,
It freeze yew lodes of thyme.
It helps me right all stiles of righting,
And aides me when eye rime.
Each frays come posed up on my screen
Eye trussed too bee a joule.
The chequer pours o'er every word
Two cheque sum spelling rule.
Design
[editar | editar código-fonte]Um corretor ortográfico básico realiza os seguintes processos:
- Ele escaneia o texto e extrai as palavras nele contidas.
- Em seguida, compara cada palavra com uma lista conhecida de palavras escritas corretamente (ou seja, um dicionário). Isso pode conter apenas uma lista de palavras ou também pode conter informações adicionais, como pontos de hifenização ou atributos lexicais e gramaticais.
- Uma etapa adicional é um algoritmo dependente de linguagem para lidar com morfologia. Mesmo para um idioma levemente flexionado como o inglês, o corretor ortográfico precisará considerar diferentes formas da mesma palavra, como plurais, formas verbais, contrações e possessivos. Para muitas outras linguagens, como aquelas que apresentam aglutinação e declinação e conjugação mais complexas, essa parte do processo é mais complicada.
Não está claro se a análise morfológica – permitindo muitas formas de uma palavra dependendo de seu papel gramatical – fornece um benefício significativo para o inglês, embora seus benefícios para idiomas altamente sintéticos como alemão, húngaro ou turco sejam claros.
Como complemento a esses componentes, a interface de usuário do programa permite que os usuários aprovem ou rejeitem substituições e modifiquem a operação do programa.
Os corretores ortográficos podem usar algoritmos de correspondência aproximada de cadeia de caracteres, como a distância de Levenshtein, para encontrar grafias corretas de palavras com erros ortográficos.[1] Um tipo alternativo de corretor ortográfico usa apenas informações estatísticas, como n-gramas, para reconhecer erros em vez de palavras escritas corretamente. Essa abordagem geralmente requer muito esforço para obter informações estatísticas suficientes. As principais vantagens incluem a necessidade de menos armazenamento em tempo de execução e a capacidade de corrigir erros em palavras que não estão incluídas em um dicionário.[2]
Em alguns casos, os corretores ortográficos usam uma lista fixa de erros ortográficos e sugestões para esses erros ortográficos; essa abordagem menos flexível é frequentemente usada em métodos de correção baseados em papel, como ver também verbetes de enciclopédias.
Algoritmos de clustering também têm sido usados para verificação ortográfica[3] combinada com informações fonéticas.[4]
Referências
- ↑ Perner, Petra (5 de julho de 2010). Advances in Data Mining: Applications and Theoretical Aspects: 10th Industrial Conference, ICDM 2010, Berlin, Germany, July 12-14, 2010. Proceedings (em inglês). [S.l.]: Springer Science & Business Media. ISBN 978-3-642-14399-1
- ↑ U.S. Patent 6618697, Method for rule-based correction of spelling and grammar errors
- ↑ de Amorim, R.C.; Zampieri, M. (2013) Effective Spell Checking Methods Using Clustering Algorithms. Arquivado em 2017-08-17 no Wayback Machine Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Hissar, Bulgaria. p. 172-178.
- ↑ Zampieri, M.; de Amorim, R.C. (2014) Between Sound and Spelling: Combining Phonetics and Clustering Algorithms to Improve Target Word Recovery. Proceedings of the 9th International Conference on Natural Language Processing (PolTAL). Lecture Notes in Computer Science (LNCS). Springer. p. 438-449.
Ligações externas
[editar | editar código-fonte]- «Norvig.com». , "How to Write a Spelling Corrector", by Peter Norvig
- «BBK.ac.uk». , "Spellchecking by computer", by Roger Mitton
- «CBSNews.com». , Spell-Check Crutch Curtails Correctness, by Lloyd de Vries
- «History and text of "Candidate for a Pullet Surprise" by Mark Eckman and Jerrold H. Zar»