International Chemical Identifier

identificatiecode voor chemische verbindingen

De International Chemical Identifier, afgekort InChI, is een tekstuele identificatiecode voor chemische stoffen, vooral bedoeld om moleculen ondubbelzinnig en op een voor mensen leesbare manier te coderen, waarbij het zoeken naar die stof in databanken en via het web gemakkelijker zou worden gemaakt.

De InChI werd ontwikkeld tussen 2000 en 2005 door de IUPAC en het National Institute of Standards and Technology (NIST). Zowel het formaat als de algoritmen zijn niet-propriëtair en de software is gratis ter beschikking gesteld onder de open-source-LGPL-licentie. De naam InChI is echter wel een handelsmerknaam van de IUPAC.[1]

Algemeen

bewerken

Chemische stoffen worden door de InChI beschreven als zes lagen van informatie: de atomen, de bindingen ertussen, tautomerie, isotopen, stereochemie en lading. Niet alle lagen zijn verplicht; informatie over tautomerie hoeft bijvoorbeeld niet toegevoegd te worden indien dit niet van toepassing is op de molecule in kwestie. De InChI bevat geen informatie over de driedimensionale coördinaten van de atomen of de bindingsorde. Twee tautomere vormen van dezelfde molecule worden dus door dezelfde InChI beschreven, een pluspunt ten opzichte van alternatieven zoals SMILES.

InChI's verschillen van CAS-nummers in drie aspecten:

  • ze zijn vrij te gebruiken en niet-propriëtair
  • ze worden berekend op basis van de chemische structuur in plaats van toegekend te worden door een organisatie
  • de meeste informatie in InChI's is leesbaar voor de mens (mits enige oefening)

InChI's kunnen dus gezien worden als verkorte, geformaliseerde versies van de IUPAC-namen van stoffen.

Het InChI-algoritme zet structurele informatie om in een unieke InChI-identifier in drie stappen:

  1. Normalisatie: verwijderen van overtollige informatie
  2. Canonicalisatie: genereren van een uniek numeriek label voor elk atoom
  3. Serialisatie: genereren van een reeks lettertekens

Formaat en informatielagen

bewerken

Elke InChI begint met de tekenreeks "InChI=" gevolgd door het versienummer, op dit moment 1. De resterende informatie is opgevat als een sequentie van lagen en sublagen, waarbij elke laag een specifieke soort informatie weergeeft. Lagen en sublagen worden gescheiden door een delimiter "/" en beginnen met een karakteristieke letter als prefix (dit geldt niet voor de sublaag "brutoformule" binnen de hoofdlaag). De zes lagen met hun belangrijkste sublagen zijn:

  1. Hoofdlaag
    • Brutoformule (geen prefix). Dit is de enige verplichte sublaag bij de InChI.
    • Atoomconnecties (prefix: "c"). Alle atomen in de brutoformule (behalve waterstof) worden genummerd in volgorde; deze sublaag beschrijft welke atomen verbonden zijn met een chemische binding aan welke andere atomen.
    • Waterstofatomen (prefix: "h"). Beschrijft hoeveel waterstofatomen zijn gebonden aan elk van de andere atomen.
  2. Ladingslaag
    • Positieve lading sublaag (prefix: "p")
    • Negatieve lading sublaag (prefix: "q")
  3. Stereochemische laag (prefix "s")
  4. Isotopische laag (prefix "i")
  5. Vaste-waterstof laag (prefix "f") (vooral gebruikt in geval van tautomerie)
  6. Reconnected laag (vooral gebruikt bij organometaalverbindingen)

Dit delimiter-prefix-formaat heeft als groot voordeel dat men gemakkelijk een wildcard-zoekopdracht kan gebruiken om InChI's te vinden die alleen in bepaalde lagen overeenkomen.

Voorbeelden

bewerken
CH3CH2OH
ethanol
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3
 
L-ascorbinezuur
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

Zie ook

bewerken
bewerken