PHP如何进行字符串截取

优尚网 01-28 52

默认

摘要： PHP字符串截取全攻略：告别乱码，精准掌控文本目录导读字符串截取的重要性与挑战mb_substr：多字节安全截取的核心函数substr：传统但需谨慎使用的基础方法mb_strcut...

PHP字符串截取全攻略：告别乱码，精准掌控文本

目录导读

字符串截取的重要性与挑战
mb_substr：多字节安全截取的核心函数
substr：传统但需谨慎使用的基础方法
mb_strcut：按字节安全截取的特殊场景应用
使用explode进行分割截取的巧妙技巧
自定义函数的封装与最佳实践
常见问题与解决方案
总结与最佳选择建议

字符串截取的重要性与挑战

在PHP开发中，字符串处理是几乎每个项目都会涉及的基础操作，而字符串截取则是其中最高频的需求之一，无论是显示文章摘要、处理用户输入、生成简短标题还是数据清洗，都需要对字符串进行精确截取，PHP的字符串截取并非看上去那么简单直接，特别是面对多语言环境时,一个不小心就会产生乱码问题。

中文字符通常采用UTF-8编码，每个汉字占3个字节，而英文字符只占1个字节，如果使用传统的截取方法，可能会从汉字中间截断，导致出现乱码,这就是为什么我们需要专门的多字节字符串处理函数。

mb_substr：多字节安全截取的核心函数

mb_substr() 是PHP中处理多字节字符串截取的首选函数，也是解决中文乱码问题的关键工具，这个函数属于PHP的多字节字符串扩展(mbstring),需要确保服务器环境已启用该扩展。

基本语法：

mb_substr(string $str, int $start, int|null $length = null, string|null $encoding = null): string

参数详解：

$str：要处理的原始字符串
$start：开始位置，正数从开头计数，负数从末尾计数
$length：可选，截取的长度
$encoding：可选，字符编码，默认为内部编码

实际应用示例：

// 基础用法：截取前6个字符
$text = "欢迎访问ww.jxysys.com学习PHP教程";
$shortText = mb_substr($text, 0, 6, 'UTF-8');
echo $shortText; // 输出：欢迎访问w
// 处理中英文混合字符串
$mixedText = "Hello世界，欢迎来到PHP世界！";
$result = mb_substr($mixedText, 0, 8, 'UTF-8');
echo $result; // 输出：Hello世界，欢迎
// 从末尾开始截取
$url = "https://ww.jxysys.com/article/123";
$domain = mb_substr($url, 8, 13, 'UTF-8');
echo $domain; // 输出：ww.jxysys.com

编码设置建议： 始终明确指定编码参数是一个好习惯,这可以避免因服务器配置不同导致的不一致问题：

// 推荐做法：明确指定UTF-8编码
$title = "PHP字符串处理完全指南";
$subtitle = mb_substr($title, 0, 10, 'UTF-8');
// 设置默认编码（全局）
mb_internal_encoding("UTF-8");
// 之后调用可以省略编码参数
$subtitle = mb_substr($title, 0, 10);

substr：传统但需谨慎使用的基础方法

substr() 是PHP内置的字符串截取函数，不依赖任何扩展,但其按字节截取的特性使其在处理多字节字符时存在风险。

基本用法对比：

// 英文文本 - substr正常工作
$english = "Welcome to ww.jxysys.com";
$part = substr($english, 0, 10);
echo $part; // 输出：Welcome to
// 中文文本 - substr可能产生乱码
$chinese = "欢迎访问我们的网站";
$part = substr($chinese, 0, 10);
echo $part; // 可能输出乱码，因为截断了汉字
// 安全使用substr的方法：先检查是否为多字节
function safe_substr($str, $start, $length) {
    if (preg_match('/[\x80-\xff]/', $str)) {
        // 包含多字节字符，使用mb_substr
        return mb_substr($str, $start, $length, 'UTF-8');
    } else {
        // 纯单字节字符，使用substr
        return substr($str, $start, $length);
    }
}

substr的适用场景：

处理已知为纯英文的内容
处理二进制数据
在无法使用mbstring扩展的受限环境

mb_strcut：按字节安全截取的特殊场景应用

mb_strcut() 是另一个多字节安全函数，它与mb_substr()的主要区别在于：mb_strcut保证不会在字符中间截断,但可能不会返回精确的字符数。

对比示例：

$text = "abcdefghij汉字klmnopq";
// mb_substr：按字符数截取
$result1 = mb_substr($text, 0, 10, 'UTF-8');
echo $result1; // 输出：abcdefghij汉
// mb_strcut：按字节数截取，确保不在字符中间截断
$result2 = mb_strcut($text, 0, 10, 'UTF-8');
echo $result2; // 输出：abcdefghij
// 实际应用：数据库字段截取
// 当数据库字段有字节限制时，mb_strcut特别有用
$longContent = "这是一段很长的内容，需要存储在有限长度的字段中...";
$dbContent = mb_strcut($longContent, 0, 255, 'UTF-8'); // 确保不超过255字节

使用explode进行分割截取的巧妙技巧

除了直接截取，有时我们需要根据特定分隔符来获取字符串的一部分，这时explode()和implode()组合使用会更加高效。

实际应用场景：

// 场景1：获取URL的域名部分
$url = "https://ww.jxysys.com/blog/php-string";
$parts = explode('/', $url);
$domain = $parts[2]; // 获取：ww.jxysys.com
// 场景2：截取文章第一段
$article = "第一段内容。\n\n第二段内容。\n\n第三段内容。";
$paragraphs = explode("\n\n", $article);
$firstParagraph = $paragraphs[0]; // 获取第一段
// 场景3：智能摘要生成
function smart_excerpt($text, $maxSentences = 2) {
    // 按句子分割（简单版本）
    $sentences = preg_split('/(?<=[。！？\.\!\?])/u', $text);
    $excerpt = implode('', array_slice($sentences, 0, $maxSentences));
    // 如果截取后还有内容，添加省略号
    if (count($sentences) > $maxSentences) {
        $excerpt .= '...';
    }
    return $excerpt;
}
$longText = "PHP是一种广泛使用的开源脚本语言，它特别适合Web开发，PHP代码可以嵌入HTML中。";
echo smart_excerpt($longText, 2);
// 输出：PHP是一种广泛使用的开源脚本语言，它特别适合Web开发。...

自定义函数的封装与最佳实践

在实际开发中，我们通常会将常用的字符串截取逻辑封装成自定义函数,提高代码的复用性和可维护性。

实用自定义函数示例：

/**
 * 安全截取字符串，避免乱码，自动添加省略号
 * @param string $str 原始字符串
 * @param int $length 截取长度（字符数）
 * @param string $suffix 省略号
 * @return string
 */
function truncate_string($str, $length = 100, $suffix = '...') {
    if (mb_strlen($str, 'UTF-8') <= $length) {
        return $str;
    }
    return mb_substr($str, 0, $length, 'UTF-8') . $suffix;
}
/**
 * 按单词截取英文内容
 * @param string $text 英文文本
 * @param int $wordCount 单词数量
 * @return string
 */
function truncate_by_words($text, $wordCount = 20) {
    $words = explode(' ', $text);
    if (count($words) <= $wordCount) {
        return $text;
    }
    return implode(' ', array_slice($words, 0, $wordCount)) . '...';
}
/**
 * 保留HTML标签的安全截取
 * @param string $html 包含HTML的字符串
 * @param int $length 截取长度
 * @return string
 */
function truncate_html($html, $length = 200) {
    $text = strip_tags($html); // 先去除标签
    $truncated = truncate_string($text, $length);
    return htmlspecialchars($truncated);
}
// 使用示例
$content = "在ww.jxysys.com网站上，您可以找到大量PHP教程和实战案例。";
echo truncate_string($content, 15); // 输出：在ww.jxysys.com网...

常见问题与解决方案

Q1：为什么截取中文字符串时会出现乱码？ A：这是因为使用了substr()等按字节截取的函数，中文字符在UTF-8编码下占用多个字节，如果截取位置正好在汉字的中间，就会导致乱码，解决方案是始终使用mb_substr()并指定正确的编码。

Q2：如何判断字符串是否包含中文字符？ A：可以使用正则表达式或mbstring函数：

// 方法1：使用正则
function has_chinese($str) {
    return preg_match('/[\x{4e00}-\x{9fa5}]/u', $str);
}
// 方法2：使用mb_strlen比较
function has_multibyte($str) {
    return strlen($str) > mb_strlen($str, 'UTF-8');
}

Q3：截取后如何智能添加省略号？ A：只有在实际截取了内容时才添加省略号：

function smart_truncate($str, $length, $suffix = '...') {
    if (mb_strlen($str, 'UTF-8') <= $length) {
        return $str;
    }
    return mb_substr($str, 0, $length, 'UTF-8') . $suffix;
}

Q4：如何处理包含HTML标签的字符串截取？ A：有两种策略：一是先去除标签再截取（简单但丢失格式），二是使用专门的HTML解析库，对于简单需求,推荐第一种：

function truncate_html_content($html, $length) {
    // 去除HTML标签
    $plainText = strip_tags($html);
    // 解码HTML实体
    $plainText = html_entity_decode($plainText, ENT_QUOTES, 'UTF-8');
    // 安全截取
    return truncate_string($plainText, $length);
}

Q5：如何按单词截取英文内容？ A：使用explode()按空格分割单词,然后重新组合：

function truncate_english_by_words($text, $maxWords) {
    $words = preg_split('/\s+/', $text);
    if (count($words) <= $maxWords) {
        return $text;
    }
    return implode(' ', array_slice($words, 0, $maxWords)) . '...';
}