regulární výraz C #

hlasů
2

Mám html stránku s odkazem jako /with_us.php?page=digit a out.php? i = číslice. Jak mohu získat všechny tyto odkazy ze stránky, ale bude lepší, když můžu sbírat okamžitě pouze číslice od těchto vazeb

Položena 27/08/2009 v 08:04
zdroj uživatelem
V jiných jazycích...                            


2 odpovědí

hlasů
3

HTML Agility balíček je ideální pro tento účel; To je téměř stejná jako například na domovské stránce:

foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href]")
{
    string href = link["href"].Value;
}

Teď už jen stačí rozebrat „href“; snad něco jako:

Match match = Regex.Match(href, @"[&?]\w+=(\d+)");
int i;
if (match.Success && int.TryParse(match.Groups[1].Value, out i))
{
    Console.WriteLine(i);
}
Odpovězeno 27/08/2009 v 08:35
zdroj uživatelem

hlasů
0

Možná budete chtít, aby se pokusili skutečně analýze stránku a příčným DOM.

Zkuste: http://www.codeplex.com/htmlagilitypack

Odpovězeno 27/08/2009 v 08:12
zdroj uživatelem

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more