📢 Webinar: Tucano e o caminho para a GenIA Brasileira 📅 Data: 04/12 ⏰ Horário: 10h30 Neste webinar imperdível, vamos conhecer o projeto Tucano, um marco na evolução dos modelos de IA em português 🇧🇷. O evento será mediado por Henrique de Castro, CEO da New Rizon, e contará com a participação especial de: 🎙️ Gustavo Zaniboni, CAIO da Ananque 🎙️ Nicholas Kluge, Postdoc Researcher na Uni Bonn Os convidados vão compartilhar como os pesquisadores da Universidade de Bonn, na Alemanha, criaram um banco de dados inteiramente em língua portuguesa para "treinar" novos modelos de IA, incluindo os seis modelos que formam o projeto Tucano. Vamos discutir o impacto dessa iniciativa para a GenIA brasileira, abordando suas aplicações e potencial no cenário global. ➡️O evento é gratuito e será transmitido ao vivo aqui no LinkedIn e YouTube!
Tucano e o caminho para a GenIA Brasileira
www.linkedin.com
Oi Nicholas Kluge, Sobre datasets em Português, avalia esse parcial de textos públicos da Anatel: https://www.anatel.gov.br/dadosabertos/paineis_de_dados/processo_eletronico/bse_sei_textos_publicados_limpo.zip É uma prévia ainda. Com apenas 200.708 documentos publicados oficialmente no SEI da Anatel: https://sei.anatel.gov.br/sei/publicacoes/controlador_publicacoes.php?acao=publicacao_pesquisar&acao_origem=publicacao_pesquisar&id_orgao_publicacao=0 Estamos organizando para a publicação oficial de um rol muito maior, de milhões de documentos públicos dos processos administrativos eletrônicos no SEI da Anatel, em rotina automática semanal.
Bom dia atodos!
bom dia, conversa muito interessante! lembro até hoje da primeira vez, lá em dezembro de 2022, que enquanto fazia os prompts em inglês, falei pro ChatGPT: "Nossa, você deve compreender ptbr, né?" e ele me respondeu! Foi muito bom aprender sobre as discussões no tópico quase dois anos (!) depois... abraço!
Foi muito bom! Muito obrigado a todos!!!
Nei Jobson será que o tipo de texto (no caso de processos, creio que sejam textos mais formais e com linguagem jurídica pesada) ou não faria diferença?
André Almeida Existe de todo tipo, inclusive de documentos apresentados pelos interessados e não somente documentos escritos pelos servidores públicos internamente. Mas, de fato, são textos mais formais sim, conforme a lógica de processo administrativo e órgãos públicos.
demais mesmo!!
O Governo Federal Brasileiro possui MUITO texto público para ter o maior dataset do mundo, pois quase todos os órgãos públicos federais possuem já processo eletrônico com o SEI.
Datasets de documentos públicos somariam. Igual a toda a base de Leis e Decretos do País. E do Diário Oficial da União. Ampliaria muito essas fontes mais oficiais. Somando! Mas não excluindo outros datasets
Tradutor e especialista em localização
3 semhttps://nkluge-correa.github.io/Tucano/